Topp 25 ETL-testintervjufrågor & Svar

Följande är vanliga frågor i intervjuer för nybörjare och erfarna ETL-testare och utvecklare.

1) Vad är ETL?

I datalagringsarkitekturen är ETL en viktig komponent som hanterar data för alla affärsprocesser. ETL står för Extract, Transform and Load . Extract gör processen att läsa data från en databas. Transform gör konvertering av data till ett format som kan vara lämpligt för rapportering och analys. Medan laddning gör processen att skriva in data i måldatabasen.

2) Förklara vad inkluderar ETL-testoperationerna?

ETL-test inkluderar

Verifiera om uppgifterna omvandlas korrekt enligt företagets krav
Kontrollera att den projicerade data laddas in i datalagret utan avkortning och dataförlust
Se till att ETL-applikationen rapporterar ogiltiga data och ersätts med standardvärden
Se till att data laddas vid förväntad tidsram för att förbättra skalbarhet och prestanda

3) Nämn vilka typer av datalagerapplikationer och vad är skillnaden mellan datautvinning och datalagring?

Typerna av datalagerapplikationer är

Infobearbetning
Analytisk bearbetning
Data Mining

Datautvinning kan definieras som processen för att extrahera dold förutsägbar information från stora databaser och tolka data medan datalagring kan använda en datagruva för analytisk bearbetning av data på ett snabbare sätt. Datalagring är processen att samla data från flera källor till ett gemensamt arkiv

4) Vilka är de olika verktygen som används i ETL?

Cognos beslutsström
Oracle Warehouse Builder
Affärsobjekt XI
SAS affärslager
SAS Enterprise ETL-server

5) Vad är faktum? Vilka är typerna av fakta?

Det är en central komponent i en flerdimensionell modell som innehåller de mått som ska analyseras. Fakta är relaterade till dimensioner.

Typer av fakta är

Fakta om tillsatser
Halvadditiva fakta
Fakta som inte är tillsatser

6) Förklara vad som är kuber och OLAP-kuber?

Kuber är databehandlingsenheter som består av faktatabeller och dimensioner från datalagret. Det ger flerdimensionell analys.

OLAP står för Online Analytics Processing, och OLAP-kub lagrar stora data i måttdimensionell form för rapporteringsändamål. Den består av fakta som kallas mått kategoriserade efter dimensioner.

7) Förklara vad som är spårningsnivå och vilka typer?

Spårningsnivå är mängden data som lagras i loggfilerna. Spårningsnivå kan klassificeras i två normala och detaljerade. Normalnivå förklarar spårningsnivån på ett detaljerat sätt medan närmare förklarar spårningsnivåerna i varje rad.

8) Förklara vad som är Grain of Fact?

Kornfakta kan definieras som den nivå på vilken faktainformationen lagras. Det är också känt som faktagranularitet

9) Förklara vad saklöst faktaschema är och vad är åtgärder?

En faktatabell utan mått kallas Factless faktatabell. Den kan visa antalet händelser som inträffar. Den används till exempel för att spela in en händelse, t.ex. antalet anställda i ett företag.

De numeriska uppgifterna baserade på kolumner i en faktatabell kallas Mått

10) Förklara vad som är transformation?

En transformation är ett arkivobjekt som genererar, modifierar eller skickar data. Transformation är av två typer aktiva och passiva

11) Förklara användningen av Lookup Transformation?

Lookup Transformation är användbar för

Få ett relaterat värde från en tabell med hjälp av ett kolumnvärde
Uppdatera långsamt ändrade dimensionstabell
Kontrollera om poster redan finns i tabellen

12) Förklara vad som är partitionering, hashpartitionering och round robin partitionering?

För att förbättra prestanda delas transaktioner upp, detta kallas partitionering. Med partitionering kan Informatica Server skapa flera anslutningar till olika källor

De typer av partitioner är

Round-Robin partitionering:

Genom informatica fördelas data jämnt mellan alla partitioner
I varje partition där antalet rader som ska bearbetas är ungefär samma gäller denna partitionering

Hash-partitionering:

För partitionering av nycklar för att gruppera data mellan partitioner använder Informatica-servern en hash-funktion
Det används när man säkerställer att processgrupper med samma partitioneringsnyckel i samma partition måste säkerställas

13) Nämn vad är fördelen med att använda DataReader Destination Adapter?

Fördelen med att använda DataReader Destination Adapter är att den fyller i en ADO-postuppsättning (består av poster och kolumner) i minnet och exponerar data från DataFlow-uppgiften genom att implementera DataReader-gränssnittet, så att andra applikationer kan konsumera data.

14) Vilka är de möjliga sätten att uppdatera tabellen med hjälp av SSIS (SQL Server Integration Service)?

För att uppdatera tabellen med SSIS är möjliga sätt:

Använd ett SQL-kommando
Använd ett iscensättningsbord
Använd Cache
Använd skriptuppgiften
Använd fullständigt databasnamn för uppdatering om MSSQL används

15) Om du har en källa som inte är OLEDB (Object Linking and Embedding Database) för uppslag, vad skulle du göra?

Om du har en icke-OLEBD-källa för uppslag måste du använda Cache för att ladda data och använda den som källa

16) I vilket fall använder du dynamisk cache och statisk cache i anslutna och icke-anslutna transformationer?

Dynamisk cache används när du måste uppdatera mastertabellen och långsamt ändra dimensioner (SCD) typ 1
För platta filer används statisk cache

17) Förklara vad som är skillnaderna mellan Uppkopplad och Uppkopplad uppslagning?

Ansluten sökning	Ouppkopplad sökning
Ansluten sökning deltar i kartläggningen	- Den används när uppslagsfunktion används istället för en uttrycktransformation under mappning
Flera värden kan returneras	- Returnerar bara en utgångsport
Den kan anslutas till en annan transformation och returnerar ett värde	En annan transformation kan inte kopplas ihop
Statisk eller dynamisk cache kan användas för uppkopplad sökning	Ej ansluten som endast statisk cache
Connected lookup stöder användardefinierade standardvärden	Ouppkopplad uppslagning stöder inte användardefinierade standardvärden
I Connected Lookup kan flera kolumner returneras från samma rad eller infogas i dynamiskt uppslagningscache	Ouppkopplad sökning anger en returport och returnerar en kolumn från varje rad

18) Förklara vad är datakällvyn?

En datakällvy ger möjlighet att definiera det relationsschema som ska användas i databaserna för analystjänster. I stället för direkt från datakällobjekt skapas dimensioner och kuber från datakällvyerna.

19) Förklara vad som är skillnaden mellan OLAP-verktyg och ETL-verktyg?

Skillnaden mellan ETL och OLAP-verktyget är den

ETL-verktyget är avsett för extraktion av data från äldre system och laddas in i specificerad databas med någon process för rensning av data.

Exempel: Datastad, Informatica etc.

Medan OLAP är avsedd för rapporteringsändamål i OLAP-data som finns i flervägsmodell.

Exempel: Affärsobjekt, Cognos etc.

20) Hur kan du extrahera SAP-data med Informatica?

Med power connect-alternativet extraherar du SAP-data med hjälp av informatica
Installera och konfigurera PowerConnect-verktyget
Importera källan till Source Analyzer. Mellan Informatica och SAP fungerar Powerconnect som en gateway. Nästa steg är att generera ABAP-koden för mappningen, då kan endast informatica hämta data från SAP
För att ansluta och importera källor från externa system används Power Connect

21) Nämn vad är skillnaden mellan Power Mart och Power Center?

Power Center	Power Mart
Antag att bearbeta enorma datamängder	Antag att bearbeta låg datamängd
Den stöder ERP-källor som SAP, människor mjuk etc.	Det stöder inte ERP-källor
Den stöder lokalt och globalt arkiv	Den stöder lokalt arkiv
Det omvandlar lokalt till ett globalt arkiv	Det har ingen specifikation för att konvertera lokalt till globalt arkiv

22) Förklara vad isceneseringsområde är och vad är syftet med ett iscenesättningsområde?

Datainställning är ett område där du lagrar data tillfälligt på datalagerservern. Datainställning inkluderar följande steg

Utvinning av källdata och datatransformation (omstrukturering)
Datatransformation (datarengöring, värdetransformation)
Surrogatnyckeluppdrag

23) Vad är busschema?

För de olika affärsprocesserna för att identifiera de vanliga dimensionerna används BUS-schema. Den levereras med anpassade dimensioner tillsammans med en standardiserad definition av information

24) Förklara vad som rensar data?

Dataspolning är en process för att radera data från datalager. Det raderar skräpdata som rader med nollvärden eller extra mellanslag.

25) Förklara vad som är schemaobjekt?

Schemaobjekt är den logiska strukturen som direkt hänvisar till databasens data. Schemaobjekt innehåller tabeller, vyer, sekvenssynonymer, index, kluster, funktionspaket och databaslänkar

26) Förklara dessa termer Session, Worklet, Mapplet och Workflow?

Mapplet: Den ordnar eller skapar uppsättningar av transformation
Worklet: Det representerar en specifik uppsättning uppgifter som ges
Arbetsflöde: Det är en uppsättning instruktioner som talar om för servern hur man utför uppgifter
Session: Det är en uppsättning parametrar som berättar för servern hur man flyttar data från källor till mål

Gratis nedladdning av PDF: ETL-testintervjuer och frågor