Topp 62 intervjufrågor för dataingenjörer & Svar

Här är vanliga frågor om dataingenjörsintervjuer för nybörjare såväl som erfarna kandidater för att få rätt jobb.

1) Förklara datateknik.

Datateknik är en term som används i big data. Den fokuserar på tillämpningen av datainsamling och forskning. De data som genereras från olika källor är bara rådata. Datateknik hjälper till att konvertera denna rådata till användbar information.

2) Vad är datamodellering?

Datamodellering är metoden för att dokumentera komplex programvarudesign som ett diagram så att alla lätt kan förstå. Det är en konceptuell representation av dataobjekt som är associerade mellan olika dataobjekt och reglerna.

3) Lista olika typer av designscheman i datamodellering

Det finns huvudsakligen två typer av scheman i datamodellering: 1) Stjärnschema och 2) Snöflingaschema.

4) Skilja mellan strukturerade och ostrukturerade data

Följande är en skillnad mellan strukturerad och ostrukturerad data:

Parameter	Strukturerade data	Ostrukturerad data
Lagring	DBMS	Ohanterade filstrukturer
Standard	ADO.net, ODBC och SQL	STMP, XML, CSV och SMS
Integrationsverktyg	ELT (extrahera, transformera, ladda)	Manuell datainmatning eller batchbehandling som innehåller koder
skalning	Schemaläggning är svår	Skalning är väldigt enkelt.

5) Förklara alla komponenter i en Hadoop-applikation

Följande är komponenterna i Hadoop-applikationen:

Hadoop Common: Det är en vanlig uppsättning verktyg och bibliotek som används av Hadoop.
HDFS: Denna Hadoop-applikation avser det filsystem där Hadoop-data lagras. Det är ett distribuerat filsystem med hög bandbredd.
Hadoop MapReduce: Den är baserad enligt algoritmen för tillhandahållande av storskalig databehandling.
Hadoop YARN: Det används för resurshantering inom Hadoop-klustret. Den kan också användas för schemaläggning av uppgifter för användare.

6) Vad är NameNode?

Det är mittpunkten för HDFS. Den lagrar data från HDFS och spårar olika filer över klustren. Här lagras inte den faktiska informationen. Data lagras i DataNodes.

7) Definiera Hadoop-streaming

Det är ett verktyg som möjliggör skapandet av kartan och minskar jobb och skickar dem till ett specifikt kluster.

8) Vad är den fullständiga formen av HDFS?

HDFS står för Hadoop Distributed File System.

9) Definiera Block och Block Scanner i HDFS

Block är den minsta enheten i en datafil. Hadoop delar automatiskt stora filer i små bitar.

Block Scanner verifierar listan över block som presenteras på en DataNode.

10) Vilka är stegen som inträffar när Block Scanner upptäcker ett skadat datablock?

Följande är stegen som uppstår när Block Scanner hittar ett skadat datablock:

1) Först och främst, när Block Scanner hittar ett skadat datablock, rapporterar DataNode till NameNode

2) NameNode startar processen med att skapa en ny replika med en replika av det skadade blocket.

3) Replikeringsantalet för de korrekta replikerna försöker matcha med replikationsfaktorn. Om matchningen hittades skadad datablock kommer inte att raderas.

11) Namnge två meddelanden som NameNode får från DataNode?

Det finns två meddelanden som NameNode får från DataNode. De är 1) Blockrapport och 2) Hjärtslag.

12) Lista ut olika XML-konfigurationsfiler i Hadoop?

Det finns fem XML-konfigurationsfiler i Hadoop:

Mapred-site
Core-site
HDFS-webbplats
Garnplats

13) Vilka är fyra V stora data?

Fyra V med stora data är:

Hastighet
Mängd
Volym
Sanning

14) Förklara funktionerna i Hadoop

Viktiga funktioner i Hadoop är:

Det är ett open source-ramverk som är tillgängligt freeware.
Hadoop är kompatibelt med många typer av hårdvara och lätt att komma åt ny hårdvara inom en specifik nod.
Hadoop stöder snabbare distribuerad databehandling.
Den lagrar data i klustret, vilket är oberoende av resten av operationerna.
Hadoop gör det möjligt att skapa 3 repliker för varje block med olika noder.

15) Förklara de viktigaste metoderna för Reducer

setup (): Den används för att konfigurera parametrar som storleken på indata och distribuerat cache.
sanering (): Denna metod används för att rensa tillfälliga filer.
reducera (): Det är ett hjärta hos reduceraren som kallas en gång per tangent med tillhörande reducerad uppgift

16) Vad är förkortningen för COSHH?

Förkortningen av COSHH är klassificerings- och optimeringsschema för heterogena Hadoop-system.

17) Förklara stjärnschemat

Star Schema eller Star Join Schema är den enklaste typen av Data Warehouse-schema. Det är känt som stjärnschema eftersom dess struktur är som en stjärna. I stjärnschemat kan stjärnans mitt ha en faktatabell och flera associerade dimensionstabeller. Detta schema används för att fråga stora datamängder.

18) Hur distribuerar jag en big data-lösning?

Följ följande steg för att distribuera en big data-lösning.

1) Integrera data med hjälp av datakällor som RDBMS, SAP, MySQL, Salesforce

2) Lagra data extraherad data i antingen NoSQL-databas eller HDFS.

3) Distribuera stor datalösning med hjälp av bearbetningsramar som Pig, Spark och MapReduce.

19) Förklara FSCK

File System Check eller FSCK är ett kommando som används av HDFS. FSCK-kommandot används för att kontrollera inkonsekvenser och problem i filen.

20) Förklara schema för snöflingor

Ett Snowflake Schema är en förlängning av ett Star Schema, och det lägger till ytterligare dimensioner. Det kallas snöflinga eftersom dess diagram ser ut som en snöflinga. Dimensionstabellerna är normaliserade, som delar data i ytterligare tabeller.

21) Gör skillnad mellan stjärn- och snöflingaschema

Stjärna	SnowFlake Schema
Dimensionshierarkier lagras i dimensionstabellen.	Varje hierarki lagras i separata tabeller.
Chansen för dataredundans är hög	Chansen för dataredundans är låg.
Den har en mycket enkel DB-design	Den har en komplex DB-design
Ge ett snabbare sätt för kubbehandling	Kubbehandlingen är långsam på grund av den komplexa kopplingen.

22) Förklara Hadoop-distribuerade filsystem

Hadoop arbetar med skalbara distribuerade filsystem som S3, HFTP FS, FS och HDFS. Hadoop Distribuerade filsystem tillverkas på Googles filsystem. Detta filsystem är utformat så att det enkelt kan köras på ett stort kluster i datorsystemet.

23) Förklara en datatekniker huvudansvar

Datatekniker har många ansvarsområden. De hanterar källsystemet för data. Dataingenjörer förenklar komplex datastruktur och förhindrar reduplicering av data. Många gånger ger de också ELT och datatransformation.

24) Vad är GARNs fullständiga form?

Den fullständiga formen av YARN är ännu en resursförhandlare.

25) Lista olika lägen i Hadoop

Lägen i Hadoop är 1) Fristående läge 2) Pseudodistribuerat läge 3) Fullt distribuerat läge.

26) Hur uppnår jag säkerhet i Hadoop?

Utför följande steg för att uppnå säkerhet i Hadoop:

1) Det första steget är att säkra klientens autentiseringskanal till servern. Ge tidsstämplad till klienten.

2) I det andra steget använder klienten den mottagna tidsstämplingen för att begära TGS för en servicebiljett.

3) I det sista steget använder klienten servicebiljetten för självautentisering till en specifik server.

27) Vad är hjärtslag i Hadoop?

I Hadoop kommunicerar NameNode och DataNode med varandra. Hjärtslag är den signal som skickas av DataNode till NameNode regelbundet för att visa dess närvaro.

28) Gör skillnad mellan NAS och DAS i Hadoop

NAS	DAS
Lagringskapaciteten är 10 ⁹ till 10 ¹² byte.	Lagringskapaciteten är 10 ⁹ i byte.
Hanteringskostnad per GB är måttlig.	Hanteringskostnad per GB är hög.
Överför data med Ethernet eller TCP / IP.	Överför data med IDE / SCSI

29) Lista viktiga fält eller språk som används av dataingenjör

Här är några fält eller språk som används av dataingenjör:

Sannolikhet samt linjär algebra
Maskininlärning
Trendanalys och regression
Hive QL och SQL-databaser

30) Vad är Big Data?

Det är en stor mängd strukturerade och ostrukturerade data som inte enkelt kan behandlas med traditionella datalagringsmetoder. Dataingenjörer använder Hadoop för att hantera stora data.

31) Vad är FIFO-schemaläggning?

Det är en Hadoop Job Schemaläggningsalgoritm. I denna FIFO-schemaläggning väljer en reporter jobb från en arbetskö, det äldsta jobbet först.

32) Nämn standardportnummer för vilka aktivitetsspårare, NameNode och jobbspårare som körs i Hadoop

Standardportnumren för vilka aktivitetsspårare, NameNode och jobbspårare som körs i Hadoop är följande:

Aktivitetsspåraren körs på 50060-porten
NameNode körs på 50070-port
Job Tracker körs på 50030 port

33) Hur du inaktiverar Block Scanner på HDFS Data Node

För att inaktivera Block Scanner på HDFS Data Node, ställ dfs.datanode.scan.period.hours till 0.

34) Hur definieras avståndet mellan två noder i Hadoop?

Avståndet är lika med summan av avståndet till närmaste noder. Metoden getDistance () används för att beräkna avståndet mellan två noder.

35) Varför använda råvarumaskinvara i Hadoop?

Råvara är lätt att få och prisvärd. Det är ett system som är kompatibelt med Windows, MS-DOS eller Linux.

36) Definiera replikationsfaktor i HDFS

Replikeringsfaktor är ett totalt antal repliker av en fil i systemet.

37) Vilka data lagras i NameNode?

Namenode lagrar metadata för HDFS som blockinformation och namnrymdinformation.

38) Vad menar du med Rack Awareness?

I Haddop-klustret använder Namenode Datanode för att förbättra nätverkstrafiken medan du läser eller skriver en fil som ligger närmare racket i närheten för att läsa eller skriva. Namenode behåller rack-id för varje DataNode för att få rackinformation. Detta koncept kallas Rack Awareness i Hadoop.

39) Vilka funktioner har Secondary NameNode?

Följande är funktionerna i Secondary NameNode:

FsImage som lagrar en kopia av EditLog- och FsImage-filen.
NameNode-krasch: Om NameNode kraschar kan Secondary NameNodes FsImage användas för att återskapa NameNode.
Kontrollpunkt: Den används av Secondary NameNode för att bekräfta att data inte är skadad i HDFS.
Uppdatering: Den uppdaterar automatiskt EditLog- och FsImage-filen. Det hjälper till att hålla FsImage-filen i Secondary NameNode uppdaterad.

40) Vad händer när NameNode är nere och användaren skickar in ett nytt jobb?

NameNode är den enda felpunkten i Hadoop så att användaren inte kan skicka ett nytt jobb kan inte utföra. Om NameNode är nere kan jobbet misslyckas på grund av att den här användaren måste vänta på att NameNode ska starta om innan han kör något jobb.

41) Vilka är de grundläggande faserna för reducerare i Hadoop?

Det finns tre grundläggande faser av en reducerare i Hadoop:

1. Blanda: Här kopierar Reducer utdata från Mapper.

2. Sortera: Sortera sorterar Hadoop ingången till Reducer med samma tangent.

3. Minska: I denna fas reduceras utdata som är associerade med en nyckel för att konsolidera data till den slutliga utdata.

42) Varför använder Hadoop Context-objekt?

Hadoop framework använder Context-objekt med Mapper-klassen för att interagera med det återstående systemet. Kontextobjekt får systemkonfigurationsdetaljer och jobb i sin konstruktör.

Vi använder Context-objekt för att skicka informationen i metoderna setup (), cleanup () och map (). Detta objekt gör viktig information tillgänglig under kartoperationerna.

43) Definiera Combiner i Hadoop

Det är ett valfritt steg mellan Map och Reduce. Combiner tar utdata från kartfunktionen, skapar viktiga värdepar och skickar till Hadoop Reducer. Combiners uppgift är att sammanfatta slutresultatet från Map till sammanfattningsposter med identisk nyckel.

44) Vad är standardreplikationsfaktorn tillgänglig i HDFS Vad den indikerar?

Standardreplikationsfaktorn som finns i HDFS är tre. Standardreplikationsfaktor indikerar att det kommer att finnas tre repliker av varje data.

45) Vad menar du Data Locality i Hadoop?

I ett Big Data-system är datastorleken enorm, och det är därför inte meningsfullt att flytta data över nätverket. Nu försöker Hadoop flytta beräkningen närmare data. På detta sätt förblir data lokalt för den lagrade platsen.

46) Definiera balanserare i HDFS

I HDFS är balansen en administratör som används av administratörspersonal för att balansera data över DataNodes och flyttar block från överutnyttjade till underutnyttjade noder.

47) Förklara Säkert läge i HDFS

Det är ett skrivskyddat läge för NameNode i ett kluster. Ursprungligen är NameNode i Safemode. Det förhindrar skrivning till filsystem i Safemode. För närvarande samlar den in data och statistik från alla DataNodes.

48) Vad är vikten av Distribuerad cache i Apache Hadoop?

Hadoop har en användbar verktygsfunktion så kallad Distribuerad cache som förbättrar prestanda för jobb genom att cacha de filer som används av applikationer. Ett program kan ange en fil för cachen med hjälp av JobConf-konfigurationen.

Hadoop-ramverk gör replik av dessa filer till noderna som en uppgift måste utföras. Detta görs innan uppgiften körs. Distribuerad cache stöder distributionen av skrivskyddade filer såväl som blixtlås och burkfiler.

49) Vad är Metastore in Hive?

Det lagrar schema samt platsen för Hive-tabellen.

Hive-tabell definierar, mappningar och metadata som lagras i Metastore. Detta kan lagras i RDBMS som stöds av JPOX.

50) Vad menar SerDe in Hive?

SerDe är ett kort namn för Serializer eller Deserializer. I Hive tillåter SerDe att läsa data från tabell till och skriva till ett specifikt fält i vilket format du vill.

51) Lista komponenter som finns tillgängliga i Hive-datamodellen

Det finns följande komponenter i Hive-datamodellen:

Tabeller
Partitioner
Skopor

52) Förklara användningen av Hive i Hadoop ekosystem.

Hive tillhandahåller ett gränssnitt för att hantera data som lagras i Hadoop ekosystem. Hive används för att kartlägga och arbeta med HBase-tabeller. Hive-frågor omvandlas till MapReduce-jobb för att dölja komplexiteten i samband med att skapa och köra MapReduce-jobb.

53) Lista över olika komplexa datatyper / insamling stöds av Hive

Hive stöder följande komplexa datatyper:

Karta
Struct
Array
Union

54) Förklara hur .hiverc-filen i Hive används?

I Hive är .hiverc initialiseringsfilen. Den här filen laddas ursprungligen när vi startar Command Line Interface (CLI) för Hive. Vi kan ställa in initialvärdena för parametrar i .hiverc-filen.

55) Är det möjligt att skapa mer än en tabell i Hive för en enda datafil?

Ja, vi kan skapa mer än en tabellschema för en datafil. Hive sparar schema i Hive Metastore. Baserat på detta schema kan vi hämta olika resultat från samma data.

56) Förklara olika SerDe-implementeringar som finns i Hive

Det finns många SerDe-implementeringar tillgängliga i Hive. Du kan också skriva din egen SerDe-implementering. Följande är några kända SerDe-implementeringar:

OpenCSVSerde
RegexSerDe
AvgränsadJSONSerDe
ByteStreamTypedSerDe

57) Listtabellgenererande funktioner tillgängliga i Hive

Följande är en lista över funktioner för att generera tabeller:

Explodera (array)
JSON_tuple ()
Stack()
Explodera (karta)

58) Vad är ett skevt bord i Hive?

En skev tabell är en tabell som innehåller kolumnvärden oftare. I Hive, när vi anger en tabell som SKEWED under skapandet, skrivs sneda värden i separata filer och återstående värden går till en annan fil.

59) Lista ut objekt som skapats genom att skapa uttalande i MySQL.

Objekt som skapats genom att skapa uttalande i MySQL är följande:

Databas
Index
Tabell
Användare
Procedur
Trigger
Händelse
Se
Fungera

60) Hur ser jag databasstrukturen i MySQL?

För att se databasstruktur i MySQL kan du använda

BESKRIV kommandot. Syntax för detta kommando är BESKRIVNING Tabellnamn ;.

61) Hur söker jag efter en specifik sträng i MySQL-tabellkolumnen?

Använd regex-operatören för att söka efter en sträng i MySQL-kolumnen. Här kan vi också definiera olika typer av reguljära uttryck och söka efter att använda regex.

62) Förklara hur dataanalys och big data kan öka företagets intäkter?

Följande sätt är hur dataanalys och big data kan öka företagets intäkter:

Använd data effektivt för att säkerställa att företagets tillväxt.
Öka kundvärdet.
Att vända analytisk för att förbättra personalprognoserna
Minska organisationernas produktionskostnad.