Topp 25 ETL-testintervjufrågor & Svar

Anonim

Följande är vanliga frågor i intervjuer för nybörjare och erfarna ETL-testare och utvecklare.

1) Vad är ETL?

I datalagringsarkitekturen är ETL en viktig komponent som hanterar data för alla affärsprocesser. ETL står för Extract, Transform and Load . Extract gör processen att läsa data från en databas. Transform gör konvertering av data till ett format som kan vara lämpligt för rapportering och analys. Medan laddning gör processen att skriva in data i måldatabasen.

2) Förklara vad inkluderar ETL-testoperationerna?

ETL-test inkluderar

  • Verifiera om uppgifterna omvandlas korrekt enligt företagets krav
  • Kontrollera att den projicerade data laddas in i datalagret utan avkortning och dataförlust
  • Se till att ETL-applikationen rapporterar ogiltiga data och ersätts med standardvärden
  • Se till att data laddas vid förväntad tidsram för att förbättra skalbarhet och prestanda

3) Nämn vilka typer av datalagerapplikationer och vad är skillnaden mellan datautvinning och datalagring?

Typerna av datalagerapplikationer är

  • Infobearbetning
  • Analytisk bearbetning
  • Data Mining

Datautvinning kan definieras som processen för att extrahera dold förutsägbar information från stora databaser och tolka data medan datalagring kan använda en datagruva för analytisk bearbetning av data på ett snabbare sätt. Datalagring är processen att samla data från flera källor till ett gemensamt arkiv

4) Vilka är de olika verktygen som används i ETL?

  • Cognos beslutsström
  • Oracle Warehouse Builder
  • Affärsobjekt XI
  • SAS affärslager
  • SAS Enterprise ETL-server

5) Vad är faktum? Vilka är typerna av fakta?

Det är en central komponent i en flerdimensionell modell som innehåller de mått som ska analyseras. Fakta är relaterade till dimensioner.

Typer av fakta är

  • Fakta om tillsatser
  • Halvadditiva fakta
  • Fakta som inte är tillsatser

6) Förklara vad som är kuber och OLAP-kuber?

Kuber är databehandlingsenheter som består av faktatabeller och dimensioner från datalagret. Det ger flerdimensionell analys.

OLAP står för Online Analytics Processing, och OLAP-kub lagrar stora data i måttdimensionell form för rapporteringsändamål. Den består av fakta som kallas mått kategoriserade efter dimensioner.

7) Förklara vad som är spårningsnivå och vilka typer?

Spårningsnivå är mängden data som lagras i loggfilerna. Spårningsnivå kan klassificeras i två normala och detaljerade. Normalnivå förklarar spårningsnivån på ett detaljerat sätt medan närmare förklarar spårningsnivåerna i varje rad.

8) Förklara vad som är Grain of Fact?

Kornfakta kan definieras som den nivå på vilken faktainformationen lagras. Det är också känt som faktagranularitet

9) Förklara vad saklöst faktaschema är och vad är åtgärder?

En faktatabell utan mått kallas Factless faktatabell. Den kan visa antalet händelser som inträffar. Den används till exempel för att spela in en händelse, t.ex. antalet anställda i ett företag.

De numeriska uppgifterna baserade på kolumner i en faktatabell kallas Mått

10) Förklara vad som är transformation?

En transformation är ett arkivobjekt som genererar, modifierar eller skickar data. Transformation är av två typer aktiva och passiva

11) Förklara användningen av Lookup Transformation?

Lookup Transformation är användbar för

  • Få ett relaterat värde från en tabell med hjälp av ett kolumnvärde
  • Uppdatera långsamt ändrade dimensionstabell
  • Kontrollera om poster redan finns i tabellen

12) Förklara vad som är partitionering, hashpartitionering och round robin partitionering?

För att förbättra prestanda delas transaktioner upp, detta kallas partitionering. Med partitionering kan Informatica Server skapa flera anslutningar till olika källor

De typer av partitioner är

Round-Robin partitionering:

  • Genom informatica fördelas data jämnt mellan alla partitioner
  • I varje partition där antalet rader som ska bearbetas är ungefär samma gäller denna partitionering

Hash-partitionering:

  • För partitionering av nycklar för att gruppera data mellan partitioner använder Informatica-servern en hash-funktion
  • Det används när man säkerställer att processgrupper med samma partitioneringsnyckel i samma partition måste säkerställas

13) Nämn vad är fördelen med att använda DataReader Destination Adapter?

Fördelen med att använda DataReader Destination Adapter är att den fyller i en ADO-postuppsättning (består av poster och kolumner) i minnet och exponerar data från DataFlow-uppgiften genom att implementera DataReader-gränssnittet, så att andra applikationer kan konsumera data.

14) Vilka är de möjliga sätten att uppdatera tabellen med hjälp av SSIS (SQL Server Integration Service)?

För att uppdatera tabellen med SSIS är möjliga sätt:

  • Använd ett SQL-kommando
  • Använd ett iscensättningsbord
  • Använd Cache
  • Använd skriptuppgiften
  • Använd fullständigt databasnamn för uppdatering om MSSQL används

15) Om du har en källa som inte är OLEDB (Object Linking and Embedding Database) för uppslag, vad skulle du göra?

Om du har en icke-OLEBD-källa för uppslag måste du använda Cache för att ladda data och använda den som källa

16) I vilket fall använder du dynamisk cache och statisk cache i anslutna och icke-anslutna transformationer?

  • Dynamisk cache används när du måste uppdatera mastertabellen och långsamt ändra dimensioner (SCD) typ 1
  • För platta filer används statisk cache

17) Förklara vad som är skillnaderna mellan Uppkopplad och Uppkopplad uppslagning?

Ansluten sökning

Ouppkopplad sökning

  • Ansluten sökning deltar i kartläggningen

- Den används när uppslagsfunktion används istället för en uttrycktransformation under mappning

  • Flera värden kan returneras

- Returnerar bara en utgångsport

  • Den kan anslutas till en annan transformation och returnerar ett värde
  • En annan transformation kan inte kopplas ihop
  • Statisk eller dynamisk cache kan användas för uppkopplad sökning
  • Ej ansluten som endast statisk cache
  • Connected lookup stöder användardefinierade standardvärden
  • Ouppkopplad uppslagning stöder inte användardefinierade standardvärden
  • I Connected Lookup kan flera kolumner returneras från samma rad eller infogas i dynamiskt uppslagningscache
  • Ouppkopplad sökning anger en returport och returnerar en kolumn från varje rad

18) Förklara vad är datakällvyn?

En datakällvy ger möjlighet att definiera det relationsschema som ska användas i databaserna för analystjänster. I stället för direkt från datakällobjekt skapas dimensioner och kuber från datakällvyerna.

19) Förklara vad som är skillnaden mellan OLAP-verktyg och ETL-verktyg?

Skillnaden mellan ETL och OLAP-verktyget är den

ETL-verktyget är avsett för extraktion av data från äldre system och laddas in i specificerad databas med någon process för rensning av data.

Exempel: Datastad, Informatica etc.

Medan OLAP är avsedd för rapporteringsändamål i OLAP-data som finns i flervägsmodell.

Exempel: Affärsobjekt, Cognos etc.

20) Hur kan du extrahera SAP-data med Informatica?

  • Med power connect-alternativet extraherar du SAP-data med hjälp av informatica
  • Installera och konfigurera PowerConnect-verktyget
  • Importera källan till Source Analyzer. Mellan Informatica och SAP fungerar Powerconnect som en gateway. Nästa steg är att generera ABAP-koden för mappningen, då kan endast informatica hämta data från SAP
  • För att ansluta och importera källor från externa system används Power Connect

21) Nämn vad är skillnaden mellan Power Mart och Power Center?

Power Center

Power Mart

  • Antag att bearbeta enorma datamängder
  • Antag att bearbeta låg datamängd
  • Den stöder ERP-källor som SAP, människor mjuk etc.
  • Det stöder inte ERP-källor
  • Den stöder lokalt och globalt arkiv
  • Den stöder lokalt arkiv
  • Det omvandlar lokalt till ett globalt arkiv
  • Det har ingen specifikation för att konvertera lokalt till globalt arkiv

22) Förklara vad isceneseringsområde är och vad är syftet med ett iscenesättningsområde?

Datainställning är ett område där du lagrar data tillfälligt på datalagerservern. Datainställning inkluderar följande steg

  • Utvinning av källdata och datatransformation (omstrukturering)
  • Datatransformation (datarengöring, värdetransformation)
  • Surrogatnyckeluppdrag

23) Vad är busschema?

För de olika affärsprocesserna för att identifiera de vanliga dimensionerna används BUS-schema. Den levereras med anpassade dimensioner tillsammans med en standardiserad definition av information

24) Förklara vad som rensar data?

Dataspolning är en process för att radera data från datalager. Det raderar skräpdata som rader med nollvärden eller extra mellanslag.

25) Förklara vad som är schemaobjekt?

Schemaobjekt är den logiska strukturen som direkt hänvisar till databasens data. Schemaobjekt innehåller tabeller, vyer, sekvenssynonymer, index, kluster, funktionspaket och databaslänkar

26) Förklara dessa termer Session, Worklet, Mapplet och Workflow?

  • Mapplet: Den ordnar eller skapar uppsättningar av transformation
  • Worklet: Det representerar en specifik uppsättning uppgifter som ges
  • Arbetsflöde: Det är en uppsättning instruktioner som talar om för servern hur man utför uppgifter
  • Session: Det är en uppsättning parametrar som berättar för servern hur man flyttar data från källor till mål

Gratis nedladdning av PDF: ETL-testintervjuer och frågor