Följande är vanliga frågor i jobbintervjuer för nybörjare såväl som erfarna datavetare.
1. Vad är datavetenskap?
Datavetenskap är en kombination av algoritmer, verktyg och maskininlärningsteknik som hjälper dig att hitta vanliga dolda mönster från den givna rådata.
2. Vad är logistisk regression inom datavetenskap?
Logistisk regression kallas också som logitmodellen. Det är en metod att prognostisera det binära resultatet från en linjär kombination av prediktorvariabler.
3. Ange tre typer av förspänningar som kan uppstå under provtagningen
I provtagningsprocessen finns det tre typer av förspänningar, vilka är:
- Urvalsbias
- Under täckningsförspänning
- Överlevnad bias
4. Diskutera algoritmen för beslutsträd
Ett beslutsträd är en populär övervakad maskininlärningsalgoritm. Det används främst för regression och klassificering. Det gör det möjligt att bryta ner en dataset i mindre delmängder. Beslutsträdet kan hantera både kategoriska och numeriska data.
5. Vad är tidigare sannolikhet och sannolikhet?
Tidigare sannolikhet är andelen av den beroende variabeln i datamängden medan sannolikheten är sannolikheten för att klassificera en given observant i närvaro av någon annan variabel.
6. Förklara rekommendatorsystem?
Det är en underklass av informationsfiltreringstekniker. Det hjälper dig att förutsäga de preferenser eller betyg som användarna sannolikt kommer att ge till en produkt.
7. Nämn tre nackdelar med att använda en linjär modell
Tre nackdelar med den linjära modellen är:
- Antagandet om felens linjäritet.
- Du kan inte använda den här modellen för binära eller räkna resultat
- Det finns många problem med övermontering som det inte kan lösa
8. Varför behöver du göra omprovtagning?
Omprovtagning görs i nedan angivna fall:
- Uppskatta noggrannheten för exempelstatistik genom att rita slumpmässigt med ersättning från en uppsättning datapunkt eller använda som delmängder av tillgänglig data
- Ersätta etiketter på datapunkter vid nödvändiga tester
- Validera modeller med slumpmässiga delmängder
9. Lista ut biblioteken i Python som används för dataanalys och vetenskapliga beräkningar.
- SciPy
- Pandor
- Matplotlib
- NumPy
- SciKit
- Seaborn
10. Vad är kraftanalys?
Kraftanalysen är en integrerad del av den experimentella designen. Det hjälper dig att bestämma provstorleken som krävs för att ta reda på effekten av en viss storlek från en orsak med en viss säkerhetsnivå. Det låter dig också distribuera en viss sannolikhet i en begränsning av provstorlek.
11. Förklara samarbetsfiltrering
Samarbetsfiltrering som används för att söka efter rätt mönster genom att samarbeta synpunkter, flera datakällor och olika agenter.
12. Vad är partiskhet?
Bias är ett fel som introducerades i din modell på grund av en förenkling av en maskininlärningsalgoritm. "Det kan leda till underutrustning.
13. Diskutera "Naive" i en Naive Bayes-algoritm?
Naive Bayes algoritmmodell är baserad på Bayes Theorem. Den beskriver sannolikheten för en händelse. Den är baserad på förkunskaper om förhållanden som kan relateras till den specifika händelsen.
14. Vad är en linjär regression?
Linjär regression är en statistisk programmeringsmetod där poängen för en variabel "A" förutses från poängen för en andra variabel "B". B kallas prediktorvariabeln och A som kriterievariabeln.
15. Ange skillnaden mellan förväntat värde och medelvärde
De är inte många skillnader, men båda dessa termer används i olika sammanhang. Medelvärde hänvisas vanligtvis till när du diskuterar en sannolikhetsfördelning medan förväntat värde hänvisas till i samband med en slumpmässig variabel.
16. Vad är målet med att genomföra A / B-testning?
AB-testning används för att genomföra slumpmässiga experiment med två variabler, A och B. Målet med denna testmetod är att ta reda på ändringar på en webbsida för att maximera eller öka resultatet av en strategi.
17. Vad är Ensemble Learning?
Ensemblen är en metod för att kombinera en mängd olika elever tillsammans för att improvisera på modellens stabilitet och förutsägbarhet. Två typer av Ensemble-inlärningsmetoder är:
Säckväv
Bagging-metoden hjälper dig att implementera liknande elever på små provpopulationer. Det hjälper dig att göra närmare förutsägelser.
Boosting
Boosting är en iterativ metod som låter dig justera vikten av en observation beroende på den senaste klassificeringen. Boosting minskar biasfelet och hjälper dig att bygga starka förutsägbara modeller.
18. Förklara Eigenvalue och Eigenvector
Eigenvektorer är för att förstå linjära transformationer. Datavetare måste beräkna egenvektorerna för en kovariansmatris eller korrelation. Eigenvärden är riktningarna längs med hjälp av specifika linjära transformationsåtgärder genom komprimering, vändning eller sträckning.
19. Definiera termen korsvalidering
Korsvalidering är en valideringsteknik för att utvärdera hur resultaten av statistisk analys kommer att generaliseras för en oberoende dataset. Denna metod används i bakgrunder där målet förutses, och man behöver uppskatta hur exakt en modell kommer att uppnå.
20. Förklara stegen för ett dataanalysprojekt
Följande är viktiga steg involverade i ett analysprojekt:
- Förstå affärsproblemet
- Utforska data och studera dem noggrant.
- Förbered data för modellering genom att hitta saknade värden och transformera variabler.
- Börja köra modellen och analysera Big data-resultatet.
- Validera modellen med ny datamängd.
- Implementera modellen och spåra resultatet för att analysera modellens prestanda under en viss period.
21. Diskutera artificiella neurala nätverk
Artificiella neurala nätverk (ANN) är en speciell uppsättning algoritmer som har revolutionerat maskininlärning. Det hjälper dig att anpassa dig efter förändrade input. Så genererar nätverket bästa möjliga resultat utan att redesigna utmatningskriterierna.
22. Vad är ryggförökning?
Back-propagation är kärnan i neuralträning. Det är metoden för att ställa in vikterna i ett neuralt nät beroende på felhastigheten som erhölls under föregående epok. Korrekt inställning av hjälpmedel hjälper dig att minska felfrekvensen och göra modellen pålitlig genom att öka dess generalisering.
23. Vad är en slumpmässig skog?
Slumpmässig skog är en maskininlärningsmetod som hjälper dig att utföra alla typer av regression och klassificeringsuppgifter. Det används också för behandling av saknade värden och avvikande värden.
24. Vad är vikten av att ha en urvalsförspänning?
Selection Bias inträffar när ingen specifik randomisering uppnås när man väljer individer eller grupper eller data som ska analyseras. Det antyder att det givna urvalet inte exakt representerar den population som var avsedd att analyseras.
25. Vad är K-betyder klustermetoden?
K-betyder klustring är en viktig inlärningsmetod utan tillsyn. Det är tekniken att klassificera data med hjälp av en viss uppsättning kluster som kallas K-kluster. Den används för gruppering för att ta reda på likheten i data.
26. Förklara skillnaden mellan datavetenskap och dataanalys
Dataforskare måste skära data för att extrahera värdefulla insikter som en dataanalytiker kan tillämpa på verkliga affärsscenarier. Huvudskillnaden mellan de två är att dataforskarna har mer teknisk kunskap än affärsanalytiker. Dessutom behöver de inte förståelse för den verksamhet som krävs för datavisualisering.
27. Förklara p-värde?
När du utför ett hypotesprov i statistik, kan du med ett p-värde bestämma styrkan i dina resultat. Det är ett numeriskt tal mellan 0 och 1. Baserat på värdet hjälper det dig att beteckna styrkan i det specifika resultatet.
28. Definiera termen djupinlärning
Deep Learning är en undertyp av maskininlärning. Det handlar om algoritmer inspirerade av strukturen som kallas artificiella neurala nätverk (ANN).
29. Förklara metoden för att samla in och analysera data för att använda sociala medier för att förutsäga väderförhållandena.
Du kan samla in sociala mediedata med Facebook, twitter, Instagrams API. Till exempel, för tweeter kan vi konstruera en funktion från varje tweet som tweeted datum, retweets, lista över följare osv. Sedan kan du använda en flervariat tidsseriemodell för att förutsäga väderförhållandena.
30. När behöver du uppdatera algoritmen inom datavetenskap?
Du måste uppdatera en algoritm i följande situation:
- Du vill att din datamodell ska utvecklas som dataströmmar med hjälp av infrastruktur
- Den underliggande datakällan förändras
Om det inte är stationärt
31. Vad är normalfördelning
En normalfördelning är en uppsättning av en kontinuerlig variabel spridd över en normalkurva eller i form av en klockkurva. Du kan betrakta det som en kontinuerlig sannolikhetsfördelning som är användbar i statistik. Det är användbart att analysera variablerna och deras förhållanden när vi använder normalfördelningskurvan.
32. Vilket språk är bäst för textanalys? R eller Python?
Python passar bättre för textanalys eftersom den består av ett rikt bibliotek som kallas pandor. Det låter dig använda verktyg på hög nivå för dataanalys och datastrukturer, medan R inte erbjuder den här funktionen.
33. Förklara fördelarna med att använda statistik från Data Scientists
Statistik hjälper datavetare att få en bättre uppfattning om kundens förväntningar. Med hjälp av statistikmetoden kan Data Scientists få kunskap om konsumentintressen, beteende, engagemang, retention etc. Det hjälper dig också att bygga kraftfulla datamodeller för att validera vissa slutsatser och förutsägelser.
34. Nämn olika typer av Deep Learning Frameworks
- Pytorch
- Microsoft Cognitive Toolkit
- TensorFlow
- Caffe
- Chainer
- Keras
35. Förklara automatisk kodare
Autokodare är lärande nätverk. Det hjälper dig att omvandla ingångar till utgångar med färre antal fel. Detta innebär att du får utdata så nära input som möjligt.
36. Definiera Boltzmann-maskin
Boltzmann-maskiner är en enkel inlärningsalgoritm. Det hjälper dig att upptäcka de funktioner som representerar komplexa regelbundenheter i träningsdata. Denna algoritm låter dig optimera vikterna och kvantiteten för det givna problemet.
37. Förklara varför datarengöring är nödvändig och vilken metod du använder för att hålla ren data
Smutsiga data leder ofta till felaktig insida, vilket kan skada utsikterna för någon organisation. Till exempel om du vill köra en riktad marknadsföringskampanj. Våra uppgifter säger dock felaktigt att en specifik produkt kommer att vara efterfrågad hos din målgrupp; kampanjen kommer att misslyckas.
38. Vad är skev distribution och enhetlig distribution?
Sned fördelning inträffar när data distribueras på någon sida av plottet medan enhetlig fördelning identifieras när data sprids är lika i intervallet.
39. När underutrustning sker i en statisk modell?
Underfitting inträffar när en statistisk modell eller maskininlärningsalgoritm inte kan fånga den underliggande trenden för data.
40. Vad är förstärkningslärande?
Förstärkningslärande är en inlärningsmekanism om hur man kan kartlägga situationer till handlingar. Slutresultatet ska hjälpa dig att öka den binära belöningssignalen. I den här metoden får en elev inte veta vilken åtgärd som ska vidtas utan måste upptäcka vilken åtgärd som ger maximal belöning. Eftersom denna metod baseras på belönings- / straffmekanismen.
41. Namn på vanliga algoritmer.
De fyra vanligaste algoritmerna av datavetenskapsmannen är:
- Linjär regression
- Logistisk återgång
- Slumpmässig skog
- KNN
42. Vad är precision?
Precision är det vanligaste felmåttet är n klassificeringsmekanism. Dess intervall är från 0 till 1, där 1 representerar 100%
43. Vad är en univariat analys?
En analys som tillämpas på inget attribut åt gången kallas univariat analys. Boxplot används i stor utsträckning, univariat modell.
44. Hur löser du dina utmaningar?
För att övervinna utmaningar med att hitta ett behov måste man uppmuntra till diskussion, visa ledarskap och respektera olika alternativ.
45. Förklara klusterprovtagningsteknik inom datavetenskap
En klusterprovtagningsmetod används när det är utmanande att studera målpopulationen spridd över, och enkel slumpmässig provtagning kan inte tillämpas.
46. Ange skillnaden mellan en valideringsuppsättning och en testuppsättning
En valideringsuppsättning som mest betraktas som en del av träningsuppsättningen eftersom den används för parameterval som hjälper dig att undvika övermontering av modellen som byggs.
Medan en testuppsättning används för att testa eller utvärdera prestandan hos en utbildad maskininlärningsmodell.
47. Förklara termen Binomial Probability Formula?
"Binomialfördelningen innehåller sannolikheten för varje möjlig framgång i N-försök för oberoende händelser som har en sannolikhet att π inträffar."
48. Vad är en återkallelse?
En återkallning är ett förhållande mellan den verkliga positiva räntan och den faktiska positiva räntan. Det sträcker sig från 0 till 1.
49. Diskutera normalfördelning
Normalfördelning lika fördelad som sådan medelvärdet, median och läge är lika.
50. Hur kan du välja viktiga variabler när du arbetar med en datamängd? Förklara
Följande metoder för variabelt val kan du använda:
- Ta bort de korrelerade variablerna innan du väljer viktiga variabler
- Använd linjär regression och välj variabler som beror på p-värdena.
- Använd markering bakåt, framåt och stegvis
- Använd diagram över Xgboost, Random Forest och plotvariabel.
- Mät informationsförstärkning för den givna uppsättningen funktioner och välj topp n-funktioner därefter.
51. Är det möjligt att fånga sambandet mellan kontinuerlig och kategorisk variabel?
Ja, vi kan använda analys av kovariansteknik för att fånga sambandet mellan kontinuerliga och kategoriska variabler.
52. Att behandla en kategorisk variabel som en kontinuerlig variabel skulle resultera i en bättre förutsägbar modell?
Ja, det kategoriska värdet bör endast betraktas som en kontinuerlig variabel när variabeln är ordinär. Så det är en bättre förutsägbar modell.