Genudgivet af Platon

Abonnenter: 0

Mest almindelige datavidenskabelige interviewspørgsmål og svar

tags: data, Science, Interview Spørgsmål

Efter at have analyseret mere end 900 datavidenskabelige interviewspørgsmål fra virksomheder i løbet af de sidste par år, gennemgås de mest almindelige datavidenskabelige interviewspørgsmålskategorier i denne guide, hver forklaret med et eksempel.

kommentarer

By Nate Rosidi, dataforsker og produktchef.

At blive dataforsker betragtes som en prestigefyldt egenskab. Tilbage i 2012 kaldte Harvard Business Review 'data scientist' for det mest sexede job i det 21. århundrede, og den voksende tendens til roller i branchen ser ud til at bekræfte denne udtalelse. For at bekræfte, at denne sexighed stadig er i gang, viser oplysningerne fra Glassdoor, at det at være dataforsker er det næstbedste job i Amerika i 2021.

Kilde: Glassdoor.

For at få et så prestigefyldt job skal du igennem strenge jobsamtaler. De stillede datavidenskabelige spørgsmål kan være meget brede og komplekse. Dette forventes i betragtning af, at en dataforskers rolle normalt omfatter så mange områder. For at hjælpe dig med at forberede dig til data science jobsamtalerne har jeg gennemgået alle de relevante spørgsmål og opdelt dem i forskellige spørgsmålskategorier. Her er hvordan jeg gjorde det.

Beskrivelse og metode for analysen

Jeg indsamlede data fra forskellige jobsøgningstavler og websteder og virksomhedsvurderingsplatforme såsom Glassdoor, Indeed, Reddit og Blind App. For at være mere præcis er der samlet 903 spørgsmål over de seneste fire år.

Spørgsmålene er opdelt i forudbestemte kategorier. Disse kategorier er resultatet af en ekspertanalyse af interviewoplevelsesbeskrivelsen hentet fra vores kilder.

Kategorierne er:

Kodning
Modellering
Algoritmer
Statistik
Sandsynlighed
Produkt
Business sag
System design
Teknisk

Hvilke typer interviewspørgsmål skal du forvente?

Dette diagram viser dig spørgsmålstypen pr. kategori i henhold til de indsamlede data.

Oversat til procenter ser diagrammet således ud:

Som du kan se, er kodnings- og modelleringsspørgsmålene mest dominerende. Mere end halvdelen af alle spørgsmål kommer fra det område. Det er ikke overraskende, når man tænker over det. Kodning og modellering er nok de to vigtigste færdigheder for en dataforsker. Spørgsmål af kodningstypen er udbredte og omfatter mere end en tredjedel af alle spørgsmål. Andre spørgsmålstyper, såsom algoritmer og statistik, er også ret signifikante; 24 % af alle spørgsmål kommer fra disse to kategorier. Andre kategorier er ikke som repræsenteret. Jeg finder det rimeligt i betragtning af karakteren af en dataforskerrolle.

Nu vil jeg guide dig gennem hver spørgsmålskategori og vise dig nogle eksempler på de spørgsmål, der bliver stillet.

De mest testede koncepter om datavidenskabelige interviewspørgsmål

Kodning

Som du allerede har set, er kodningsspørgsmål det vigtigste emne inden for datavidenskab. Sådanne spørgsmål vil kræve en form for datamanipulation ved hjælp af koden til at identificere indsigter. Spørgsmålene er designet til at teste kodningsevne, problemløsningsevner og kreativitet. Du vil normalt gøre det på en computer eller et whiteboard.

Eksempel på kodningsinterviewspørgsmål

Én eksempel fra Microsoft er denne:

SPØRGSMÅL: "Beregn andelen af nye og eksisterende brugere. Udskriv måneden, andelen af nye brugere og andelen af eksisterende brugere som forhold. Nye brugere defineres som brugere, der begyndte at bruge tjenester i den aktuelle måned. Eksisterende brugere er brugere, der begyndte at bruge tjenester i den aktuelle måned og brugte tjenester i en tidligere måned. Antag, at datoerne alle er fra år 2020."

Du skal bruge bordet fakta_begivenheder, hvor eksempeldataene ser sådan ud:

For at få det ønskede output, skal du skrive denne kode:

med alle_brugere som ( SELECT date_part('month', time_id) AS month, count(DISTINCT user_id) as all_users FROM fact_events GROUP BY month), new_users as (SELECT date_part('month', new_user_start_date) AS month, count(DISTINCT user_id) as new_users FROM (SELECT user_id, min(time_id) as new_user_start_date FROM fact_events GROUP BY user_id) sq GROUP BY month ) SELECT au.month, new_users / all_users::decimal as share_new_users, 1- (new_users / all_users)_ as share:_decimalusers FROM all_users au JOIN new_users nu ON nu.month = au.month

At skrive en kode i SQL er det oftest testede koncept, når det kommer til kodning. Det er ingen overraskelse, da SQL har været det mest brugte værktøj inden for datavidenskab. Et af de begreber, man næsten ikke kan undgå i interviewene, er joins. Så sørg for, at du kender forskellen mellem forskellige sammenføjninger, og hvordan du bruger dem for at få det ønskede resultat.

Du kan også forvente at gruppere data ved at bruge GROUP BY-sætningen meget ofte. Nogle andre begreber, der normalt bliver spurgt, er filtrering af data ved hjælp af WHERE og/eller HAVING-sætningen. Du bliver også bedt om at vælge forskellige data. Og sørg også for, at du kender de samlede funktioner, såsom SUM(), AVG(), COUNT(), MIN(), MAX().

Nogle begreber forekommer ikke så ofte, men det er værd at nævne dem og være forberedt på sådanne spørgsmål. F.eks. er almindelige tabeludtryk eller CTE'er et sådant emne. Den anden er CASE()-sætningen. Glem heller ikke at genopfriske din hukommelse om håndtering af strengdatatyper og datoer.

Modeling

Modellering var den næststørste kategori i vores forskningsdata, hvor 20 % af alle spørgsmål kom herfra. Disse spørgsmål er designet til at teste din viden om at bygge statistiske modeller og implementere maskinlæringsmodeller.

Eksempel på modelleringsinterviewspørgsmål

Regression, det mest almindelige tekniske datavidenskabskoncept, der blev spurgt i interviews. Det er ikke overraskende, i betragtning af arten af den statistiske modellering.

Én eksempel fra Galvanize ville være følgende:

SPØRGSMÅL: "Hvad er regularisering i regression?"

Sådan kan du besvare dette spørgsmål:

SVAR: "En regularisering er en speciel type regression, hvor koefficientestimater er begrænset (eller regulariseret) til nul. Ved at gøre dette er det muligt at reducere modellens varians og samtidig mindske stikprøvefejlen. Regularisering bruges til at undgå eller reducere overfitting. Overfitting sker, når modellen lærer træningsdata så godt, at det underminerer modellens ydeevne på nye data. For at undgå overpasning bruges Ridge- eller Lasso-regulariseringer normalt."

Nogle af de begreber, der testes regelmæssigt, er igen andre regressionsanalysekoncepter, såsom logistisk regression, Bayesiansk logistisk regression og naive Bayes-klassifikatorer. Du kan også blive spurgt om de tilfældige skove, samt test og evaluering af modeller.

Algoritmer

Spørgsmål om algoritmer er alle spørgsmål, der kræver løsning af et matematisk problem, hovedsageligt gennem kode ved at bruge et af programmeringssprogene. Disse spørgsmål involverer en trin-for-trin proces, der normalt kræver justering eller beregning for at frembringe et svar. Disse spørgsmål tester den grundlæggende viden om problemløsning og datamanipulation, som kan implementeres til komplekse problemer på arbejdspladsen.

Eksempel på algoritmeinterviewspørgsmål

Det tekniske koncept, der testes mest under algoritmer, er at løse et matematisk eller syntaksproblem med et programmeringssprog.

Her er et eksempel kan du finde på Leetcode:

SPØRGSMÅL: "Du får to ikke-tomme sammenkædede lister, der repræsenterer to ikke-negative heltal. Cifrene gemmes i omvendt rækkefølge, og hver af deres noder indeholder et enkelt ciffer. Tilføj de to tal og returner summen som en sammenkædet liste."

Eksemplet på dataene kunne være noget som dette:

Kilde: Leetcode.

SVAR: Koden skrevet i Java skal være:

public ListNode addTwoNumbers(ListNode l1, ListNode l2) { ListNode dummyHead = new ListNode(0); ListNode p = l1, q = l2, curr = dummyHead; int carry = 0; while (p != null || q != null) { int x = (p != null) ? p.val: 0; int y = (q != null) ? q.val: 0; int sum = bære + x + y; bære = sum / 10; curr.next = new ListNode(sum % 10); curr = curr.næste; hvis (p != null) p = p.næste; hvis (q != nul) q = q.næste; } if (carry > 0) { curr.next = new ListNode(carry); } returner dummyHead.next; }

De andre generelle begreber, der ofte testes af denne type spørgsmål, er arrays, dynamisk programmering, strenge, grådig algoritme, dybde-først-søgning, træ, hash-tabel og binær søgning.

Statistik

Statistikinterviewspørgsmålene er spørgsmål, der tester viden om statistisk teori og tilhørende principper. Disse spørgsmål har til formål at prøve, hvor fortrolig du er med de grundlæggende teoretiske principper inden for datavidenskab. Det er vigtigt at kunne forstå den teoretiske og matematiske baggrund for analyser, der udføres. Besvar disse spørgsmål godt, og enhver interviewer vil sætte pris på dig.

Eksempel på statistikinterviewspørgsmål

Det mest nævnte tekniske koncept er prøveudtagning og distribution. For en dataforsker er dette et af de mest almindeligt anvendte statistikprincipper, som dataforskeren implementerer dagligt.

For eksempel: et interviewspørgsmål fra IBM spørger:

SPØRGSMÅL: "Hvad er et eksempel på en datatype med en ikke-Gaussisk fordeling?"

For at besvare spørgsmålet kan du først definere en Gauss-fordeling. Så kan du følge dette ved at give eksempler på den ikke-Gaussiske fordeling. Noget som dette:

SVAR: "En Gauss-fordeling er en fordeling, hvor en vis kendt procentdel af dataene kan findes, når man undersøger standardafvigelser fra middelværdien, ellers kendt som en normalfordeling. Nogle af eksemplerne på den ikke-Gaussiske fordeling kan være eksponentiel fordeling eller binomial fordeling."

Når du forbereder dig til jobsamtalen, skal du sørge for, at du også dækker følgende emner: varians og standardafvigelse, kovarians og korrelation, p-værdien, middelværdi og median, hypotesetestning og Bayesiansk statistik. Det er alle begreber, du har brug for som dataforsker, så forvent dem også i jobsamtalerne.

Sandsynlighed

Disse spørgsmål kræver kun teoretisk viden om sandsynlighedsbegreber. Interviewere stiller disse spørgsmål for at få en dyb forståelse af din viden om metoder og anvendelser af sandsynlighed til at gennemføre de komplekse dataundersøgelser, der normalt udføres på arbejdspladsen.

Eksempel på spørgsmål om sandsynlighedsinterview

Det er højst sandsynligt, ordspil, at spørgsmålet du får er at beregne sandsynligheden for at få et bestemt kort/tal fra et sæt terninger/kort. Dette ser ud til at være det mest almindelige spørgsmålselement for de fleste virksomheder i vores forskning, da mange af dem har stillet denne type spørgsmål.

Et eksempel på en sådan sandsynlighedsspørgsmål fra Facebook:

SPØRGSMÅL: "Hvad er sandsynligheden for at få et par ved at trække to kort separat i et 52-korts kortspil?"

Sådan kan du svare på dette:

SVAR: "Dette første kort, du trækker, kan være hvad som helst, så det påvirker ikke resultatet andet end, at der er et kort mindre tilbage i bunken. Når det første kort er trukket, er der tre resterende kort i bunken, som kan trækkes for at få et par. Så chancen for at matche dit første kort med et par er 3 ud af 51 (resterende kort). Det betyder, at sandsynligheden for, at denne hændelse indtræffer, er 3/51 eller 5.89 %."

Da dette er en slags "specialiseret" spørgsmål, der kun omhandler sandsynlighed, spørges der ikke om andre begreber. Den eneste forskel er, hvor fantasifuldt spørgsmålet er. Men dybest set bliver du altid nødt til at beregne sandsynligheden for en begivenhed og vise din tankegang.

Produkt

Spørgsmål til produktinterview vil bede dig om at evaluere ydeevnen af et produkt/tjeneste gennem data. Disse spørgsmål tester din viden om at tilpasse og bruge datavidenskabelige principper i ethvert miljø, som det er tilfældet med dagligt arbejde.

Eksempel på produktinterviewspørgsmål

Det mest fremtrædende tekniske koncept i denne kategori er at identificere en virksomheds produkt og foreslå forbedringer fra en dataforskers perspektiv. Den høje varians i tekniske koncepter testet på produktsiden kan forklares med arten af produktspørgsmål og den højere grad af kreativitet, der kræves for at besvare disse.

Et eksempel på en produktspørgsmål fra Facebook ville være:

SPØRGSMÅL: "Hvad er dit foretrukne Facebook-produkt, og hvordan ville du forbedre det?"

SVAR: På grund af spørgsmålets karakter vil vi lade dig besvare dette selv.

De generelle begreber, der testes, afhænger i høj grad af den virksomhed, der interviewer dig. Bare sørg for, at du er bekendt med virksomhedens forretning og deres produkter (ideelt set er du også deres bruger), og du vil være i orden.

Business Case

Denne kategori omfatter casestudier og generiske spørgsmål relateret til den virksomhed, der ville teste en datavidenskabskompetence. Betydningen af at vide, hvordan man besvarer disse spørgsmål, kan være enorm, da nogle interviewere gerne vil have, at kandidaterne skal vide, hvordan man anvender datavidenskabelige principper til at løse en virksomheds specifikke problemer, før de ansætter dem.

Eksempel på et business case-spørgsmål

På grund af spørgsmålstypens karakter kunne jeg ikke identificere et enkelt teknisk koncept, der skiller sig ud. Da de fleste af spørgsmålene kategoriseret her er casestudier, er de unikke på en bestemt måde.

Men her er et eksempel på en business case-spørgsmål fra Uber:

SPØRGSMÅL: "Der er en pulje af mennesker, der tog Uber-ture fra to byer, der var tæt på, for eksempel Menlo Park og Palo Alto, og alle data, du kunne komme i tanke om, kunne indsamles. Hvilke data ville du indsamle, så den by, passageren kørte fra, kunne bestemmes?

SVAR: ”For at bestemme byen skal vi have adgang til placeringen/geografiske data. De indsamlede data kunne være GPS-koordinater, længde/breddegrad og postnummer."

System Design

Systemdesignspørgsmål er alle spørgsmål relateret til design af teknologisystemer. De bliver bedt om at analysere kandidatens proces med at løse problemer, skabe og designe systemer til at hjælpe kunder/klienter. At kende systemdesign kan være ret vigtigt for en dataforsker; selvom din rolle ikke er at designe et system, vil du højst sandsynligt spille en rolle i et etableret system og har brug for at vide, hvordan det fungerer for at kunne udføre dit arbejde.

Eksempel på systemdesign interviewspørgsmål

Disse spørgsmål dækker forskellige emner og opgaver. Men den, der skiller sig ud, er at bygge en database. Data scientists beskæftiger sig meget med databaser dagligt, så det giver mening at stille dette spørgsmål for at se, om du kan bygge en database fra bunden.

Her er en spørgsmålseksempel fra Audible afdækket i vores forskning:

SPØRGSMÅL: "Kan du lede os igennem, hvordan du ville opbygge et anbefalingssystem?"

SVAR: Da der er så mange forskellige tilgange til at besvare dette spørgsmål, vil vi lade dig komme med din egen måde at bygge en på.

Igen, for at besvare disse spørgsmål, er det vigtigt at kende virksomhedens forretning. Tænk lidt over databaser, som virksomheden højst sandsynligt har brug for, og prøv at uddybe din tilgang lidt inden interviewet.

Teknisk

Tekniske spørgsmål er alle spørgsmål, der spørger om forklaringen af forskellige datavidenskabelige tekniske begreber. De tekniske spørgsmål er teoretiske og kræver viden om den teknologi, du skal bruge i virksomheden. På grund af naturen kan de ligne kodningsspørgsmål. At kende teorien bag det, du laver, er ret vigtigt, så tekniske spørgsmål kan ofte stilles i interviews.

Eksempel på teknisk interviewspørgsmål

Det mest testede område er teoretisk viden om Python og SQL. Ikke overraskende, da disse to sprog er dominerende inden for datavidenskab, sammen med R for at komplementere Python.

Et eksempel på en teknisk spørgsmål fra den virkelige verden fra Walmart ville være:

SPØRGSMÅL: "Hvad er datastrukturerne i Python?"

SVAR: ”Datastrukturerne bruges til lagring af data. Der er fire datastrukturer i Python: Liste, Ordbog, Tuple og Set. Det er de indbyggede datastrukturer. Lister bruges til at lave lister, der kan indeholde forskellige typer data. Ordbog er dybest set et sæt nøgler; de bruges til at gemme en værdi med en nøgle og hente data ved hjælp af den samme nøgle. Tuples er det samme som lister. Forskellen er, at i en tuple kan dataene ikke ændres. Sættet indeholder de uordnede elementer uden dubletter. Sammen med de indbyggede datastrukturer er der også de brugerdefinerede datastrukturer.”

Det er alle typer spørgsmål. Det er en kategori for alle de spørgsmål, der ikke helt kan passe ind i andre kategorier. Derfor er der ingen specifikke begreber, der forekommer mere eller mindre ofte.

Konklusion

Denne datavidenskabelige interviewguide er skrevet for at understøtte den forskning, der er udført for at forstå de typer spørgsmål, der stilles ved et datavidenskabsinterview. Interviewspørgsmålenes data er taget fra snesevis af virksomheder over en fireårig periode og analyseret. Spørgsmålene er blevet kategoriseret under ni forskellige spørgsmålstyper (algoritmer, business case, kodning, modellering, sandsynlighed, produkt, statistik, systemdesign og tekniske spørgsmål).

Som en del af analysen talte jeg om nogle af de mest almindelige tekniske begreber fra hver spørgsmålstypekategori. For eksempel har de mest stillede statistikspørgsmål at gøre med stikprøveudtagning og distribution. Hver spørgsmålskategori understøttes af et praktisk eksempel på det rigtige spørgsmål.

Artiklen er beregnet til at tjene dig som en vigtig guide til interviewforberedelse eller blot at lære mere om datavidenskab. Jeg håber, at jeg har hjulpet dig til at føle dig mere tryg ved den datavidenskabelige interviewproces. Held og lykke med dine samtaler!

Original. Genopslået med tilladelse.

Relateret:

= Forrige indlæg

Næste indlæg =>

Tophistorier de seneste 30 dage

Mest Populære
Top 6 Data Science Online-kurser i 2021 Data Scientists og ML Engineers er luksusmedarbejdere Råd til at lære datavidenskab fra Googles forskningsdirektør GitHub Copilot Open Source-alternativer Geometriske grundlag for Deep Learning

Mest delt
Hvorfor og hvordan skal du lære "Produktiv datavidenskab"? Ikke kun til dyb læring: Hvordan GPU'er accelererer datavidenskab og dataanalyse Bootstrap en moderne datastak på 5 minutter med Terraform GPU-drevet datavidenskab (IKKE Deep Learning) med RAPIDS Bliv Analytics-ingeniør på 90 dage