Heruitgegeven door Plato

volgers: 0

Meest voorkomende vragen en antwoorden op sollicitatiegesprekken over datawetenschap

Na het analyseren van meer dan 900 data science-interviewvragen van bedrijven in de afgelopen jaren, worden de meest voorkomende data science-interviewvraagcategorieën in deze gids besproken, elk toegelicht met een voorbeeld.

opmerkingen

By Nate Rosidi, datawetenschapper en productmanager.

Datawetenschapper worden wordt als een prestigieuze eigenschap beschouwd. In 2012 noemde Harvard Business Review 'datawetenschapper' de meest sexy baan van de 21e eeuw, en de groeiende trend van functies in de branche lijkt deze bewering te bevestigen. Om te bevestigen dat deze sexyheid nog steeds aan de gang is, blijkt uit de informatie van Glassdoor dat datawetenschapper zijn de op een na beste baan in Amerika in 2021 is.

Bron: Glassdoor.

Om zo'n prestigieuze baan te krijgen, moet je strenge sollicitatiegesprekken voeren. Vragen over datawetenschap kunnen zeer breed en complex zijn. Dit wordt verwacht, aangezien de rol van een datawetenschapper doorgaans zoveel gebieden omvat. Om je te helpen bij de voorbereiding op de data science-sollicitatiegesprekken, heb ik alle toepasselijke vragen doorgenomen en onderverdeeld in verschillende vraagcategorieën. Hier is hoe ik dat deed.

Beschrijving en methodologie van de analyse

Ik heb gegevens verzameld van verschillende vacaturesites en websites en bedrijfsbeoordelingsplatforms zoals Glassdoor, Indeed, Reddit en Blind App. Om preciezer te zijn: er zijn de afgelopen vier jaar 903 vragen verzameld.

De vragen zijn onderverdeeld in vooraf bepaalde categorieën. Deze categorieën zijn het resultaat van een deskundige analyse van de beschrijving van de interviewervaring uit onze bronnen.

De categorieën zijn:

codering
Modellering
Algoritmen
Statistieken
Waarschijnlijkheid
Product
Zakelijke case
Systeemontwerp
Technisch

Welke soorten interviewvragen kunt u verwachten?

In dit diagram ziet u het vraagtype per categorie op basis van de verzamelde gegevens.

Vertaald naar percentages ziet het diagram er als volgt uit:

Zoals u kunt zien, zijn de vragen over coderen en modelleren het meest dominant. Ruim de helft van alle vragen komt uit dat gebied. Het is niet verrassend als je erover nadenkt. Coderen en modelleren zijn waarschijnlijk de twee belangrijkste vaardigheden voor een datawetenschapper. Vragen van het codeertype zijn wijdverbreid en omvatten meer dan een derde van alle vragen. Andere vraagtypen, zoals algoritmen en statistieken, zijn ook redelijk significant; 24% van alle vragen komt uit deze twee categorieën. Andere categorieën zijn niet zoals weergegeven. Ik vind dat redelijk, gezien de aard van de rol van datawetenschapper.

Nu wil ik u door elke vraagcategorie leiden en u enkele voorbeelden laten zien van de vragen die worden gesteld.

De meest geteste concepten op het gebied van data science-interviewvragen

Codering

Zoals je al hebt gezien, zijn codeervragen het belangrijkste onderwerp in de datawetenschap. Dergelijke vragen vereisen een vorm van gegevensmanipulatie waarbij gebruik wordt gemaakt van de code om inzichten te identificeren. De vragen zijn bedoeld om het codeervermogen, het probleemoplossend vermogen en de creativiteit te testen. Meestal doe je dat op een computer of een whiteboard.

Voorbeeld van een interviewvraag coderen

One voorbeeld van Microsoft is deze:

VRAAG: “Bereken het aandeel nieuwe en bestaande gebruikers. Geef de maand, het aandeel nieuwe gebruikers en het aandeel bestaande gebruikers als verhouding weer. Nieuwe gebruikers worden gedefinieerd als gebruikers die in de huidige maand diensten zijn gaan gebruiken. Bestaande gebruikers zijn gebruikers die in de huidige maand services zijn gaan gebruiken en in een voorgaande maand services hebben gebruikt. Stel dat de data allemaal uit het jaar 2020 komen.”

Je gaat de tafel gebruiken feit_gebeurtenissen, waarbij de voorbeeldgegevens er als volgt uitzien:

Om de gewenste uitvoer te krijgen, moet u deze code schrijven:

met all_users as ( SELECT date_part('maand', time_id) AS maand, count(DISTINCT user_id) as all_users FROM fact_events GROUP BY month), nieuwe_gebruikers als ( SELECT date_part('maand', new_user_start_date) AS month, count(DISTINCT user_id) as new_users FROM (SELECT user_id, min(time_id) as new_user_start_date FROM fact_events GROUP BY user_id) sq GROUP BY month ) SELECT au.month, new_users / all_users::decimal as share_new_users, 1- (new_users / all_users::decimal) as share_existing_users VAN alle_gebruikers au WORD LID van nieuwe_gebruikers nu AAN nu.maand = au.maand

Het schrijven van een code in SQL is het meest geteste concept als het gaat om coderen. Dat is geen verrassing, aangezien SQL het meest gebruikte hulpmiddel in de datawetenschap is. Een van de concepten waar je in de interviews bijna niet omheen kunt, zijn de joins. Zorg er dus voor dat u het verschil kent tussen verschillende joins en hoe u deze kunt gebruiken om het gewenste resultaat te verkrijgen.

U kunt ook verwachten dat u gegevens heel vaak groepeert met behulp van de GROUP BY-clausule. Enkele andere concepten die gewoonlijk worden gevraagd, zijn het filteren van gegevens met behulp van de WHERE- en/of HAVING-clausule. U wordt ook gevraagd om afzonderlijke gegevens te selecteren. En zorg er ook voor dat u de aggregatiefuncties kent, zoals SUM(), AVG(), COUNT(), MIN(), MAX().

Sommige concepten komen niet zo vaak voor, maar het is de moeite waard om ze te vermelden en voorbereid te zijn op dergelijke vragen. Common Table Expressions of CTE's is bijvoorbeeld zo'n onderwerp. De andere is de CASE()-clausule. Vergeet ook niet uw geheugen op te frissen over het omgaan met de stringgegevenstypen en datums.

Modellering

Modellering was de op een na grootste categorie in onze onderzoeksgegevens, waarbij 20% van alle vragen hier vandaan kwam. Deze vragen zijn bedoeld om uw kennis van het bouwen van statistische modellen en het implementeren van machine learning-modellen te testen.

Voorbeeld van een modelinterviewvraag

Regressie, het meest voorkomende technische datawetenschapsconcept dat in interviews wordt gesteld. Dat is niet verrassend, gezien de aard van de statistische modellering.

One voorbeeld van Galvanize zou het volgende zijn:

VRAAG: "Wat is regularisatie in regressie?"

Hier ziet u hoe u deze vraag kunt beantwoorden:

ANTWOORD: “Een regularisatie is een speciaal type regressie waarbij de schattingen van de coëfficiënten worden beperkt (of geregulariseerd) tot nul. Door dit te doen is het mogelijk om de variantie van het model te verkleinen en tegelijkertijd de steekproeffout te verkleinen. Regularisatie wordt gebruikt om overfitting te voorkomen of te verminderen. Overfitting vindt plaats wanneer het model trainingsgegevens zo goed leert dat dit de prestaties van het model op nieuwe gegevens ondermijnt. Om overfitting te voorkomen, worden meestal Ridge- of Lasso-regularisaties gebruikt.”

Sommige van de concepten die regelmatig worden getest, zijn wederom andere concepten voor regressieanalyse, zoals logistische regressie, Bayesiaanse logistische regressie en naïeve Bayes-classificatoren. Ook kunt u vragen krijgen over de willekeurige bossen, maar ook over het testen en evalueren van modellen.

Algoritmen

Vragen over algoritmen zijn allemaal vragen waarbij een wiskundig probleem moet worden opgelost, voornamelijk via code met behulp van een van de programmeertalen. Deze vragen omvatten een stapsgewijs proces, waarbij meestal aanpassingen of berekeningen nodig zijn om tot een antwoord te komen. Deze vragen testen de basiskennis van probleemoplossing en gegevensmanipulatie, die kan worden geïmplementeerd voor complexe problemen op het werk.

Voorbeeld van een algoritme-interviewvraag

Het technische concept dat het meest onder algoritmen wordt getest, is het oplossen van een wiskundig of syntaxisprobleem met een programmeertaal.

Hier is een voorbeeld kun je vinden op Leetcode:

VRAAG: “Je krijgt twee niet-lege, gekoppelde lijsten die twee niet-negatieve gehele getallen vertegenwoordigen. De cijfers worden in omgekeerde volgorde opgeslagen en elk van hun knooppunten bevat één cijfer. Voeg de twee getallen toe en retourneer de som als een gekoppelde lijst.”

Het voorbeeld van de gegevens zou er ongeveer zo uit kunnen zien:

Bron: Leetcode.

ANTWOORD: De in Java geschreven code moet zijn:

public ListNode addTwoNumbers(ListNode l1, ListNode l2) { ListNode dummyHead = nieuwe ListNode(0); ListNode p = l1, q = l2, curr = dummyHead; int dragen = 0; terwijl (p != nul || q != nul) { int x = (p != nul) ? p.val: 0; int y = (q != nul) ? q.val: 0; int som = dragen + x + y; dragen = som / 10; curr.next = nieuwe ListNode(som % 10); curr = huidige.volgende; als (p != nul) p = p.volgende; als (q != nul) q = q.volgende; } if (carry > 0) {curr.next = nieuwe ListNode(carry); } retourneer dummyHead.next; }

De andere algemene concepten die vaak worden getest door dit soort vragen zijn arrays, dynamisch programmeren, strings, hebzuchtig algoritme, diepte-eerst zoeken, boom, hashtabel en binair zoeken.

Statistieken

De statistische interviewvragen zijn vragen die de kennis van de statistische theorie en de daarmee samenhangende principes testen. Deze vragen zijn bedoeld om te proberen hoe bekend u bent met de fundamentele theoretische principes van de datawetenschap. Het is belangrijk om de theoretische en wiskundige achtergrond van de uitgevoerde analyses te kunnen begrijpen. Beantwoord die vragen goed, en elke interviewer zal je waarderen.

Voorbeeld van interviewvraag voor statistieken

Het meest genoemde technische concept is bemonstering en distributie. Voor een datawetenschapper is dit een van de meest gebruikte statistische principes die de datawetenschapper dagelijks implementeert.

Bijvoorbeeld een interviewvraag van IBM vraagt:

VRAAG: "Wat is een voorbeeld van een gegevenstype met een niet-Gaussiaanse distributie?"

Om de vraag te beantwoorden, zou u eerst een Gaussiaanse verdeling kunnen definiëren. Vervolgens zou je dit kunnen volgen door voorbeelden te geven van de niet-Gaussiaanse verdeling. Iets zoals dit:

ANTWOORD: “Een Gaussiaanse verdeling is een verdeling waarbij een bepaald bekend percentage van de gegevens kan worden gevonden bij het onderzoeken van standaardafwijkingen van het gemiddelde, ook wel bekend als een normale verdeling. Enkele voorbeelden van de niet-Gaussiaanse verdeling kunnen een exponentiële of binomiale verdeling zijn.”

Zorg ervoor dat u bij de voorbereiding op het sollicitatiegesprek ook de volgende onderwerpen behandelt: variantie en standaarddeviatie, covariantie en correlatie, de p-waarde, gemiddelde en mediaan, het testen van hypothesen en Bayesiaanse statistiek. Dit zijn allemaal concepten die je nodig hebt als datawetenschapper, dus verwacht ze ook in de sollicitatiegesprekken.

Waarschijnlijkheid

Deze vragen vereisen alleen theoretische kennis over waarschijnlijkheidsconcepten. Interviewers stellen deze vragen om een diepgaand inzicht te krijgen in uw kennis over de methoden en toepassingen van waarschijnlijkheid om de complexe datastudies te voltooien die gewoonlijk op de werkplek worden uitgevoerd.

Voorbeeld van waarschijnlijkheidsinterviewvraag

Het is zeer waarschijnlijk, met een woordspeling bedoeld, dat de vraag die u krijgt, is: bereken de waarschijnlijkheid dat u een bepaalde kaart/getal krijgt uit een set dobbelstenen/kaarten. Dit lijkt voor de meeste bedrijven in ons onderzoek het meest voorkomende onderdeel van het stellen van vragen, aangezien veel van hen dit soort vragen hebben gesteld.

Een voorbeeld van zo'n waarschijnlijkheidsvraag van Facebook:

VRAAG: “Hoe groot is de kans dat je een paar krijgt als je twee kaarten afzonderlijk trekt in een kaartspel van 52 kaarten?”

Hier ziet u hoe u dit kunt beantwoorden:

ANTWOORD: “Deze eerste kaart die je trekt kan van alles zijn, dus het heeft geen invloed op het resultaat, behalve dat er één kaart minder in de stapel zit. Zodra de eerste kaart is getrokken, zijn er nog drie kaarten in de stapel die kunnen worden getrokken om een paar te krijgen. De kans dat je eerste kaart overeenkomt met een paar is dus 3 van de 51 (resterende kaarten). Dit betekent dat de waarschijnlijkheid dat deze gebeurtenis plaatsvindt 3/51 of 5.89% is.”

Omdat dit een soort ‘gespecialiseerde’ vraag is die alleen over waarschijnlijkheid gaat, worden er geen andere concepten gesteld. Het enige verschil is hoe fantasierijk de vraag is. Maar in principe zul je altijd de waarschijnlijkheid van een bepaalde gebeurtenis moeten berekenen en je denkwijze moeten laten zien.

Product

Met vragen over productinterviews wordt u gevraagd de prestaties van een product/dienst te evalueren aan de hand van gegevens. Deze vragen testen uw kennis over het aanpassen en gebruiken van data science-principes in elke omgeving, zoals het geval is bij het dagelijkse werk.

Voorbeeld van vraag over productinterview

Het meest prominente technische concept in deze categorie is het identificeren van het product van een bedrijf en het voorstellen van verbeteringen vanuit het perspectief van een datawetenschapper. De grote variatie in technische concepten die aan de productzijde worden getest, kan worden verklaard door de aard van productvragen en het hogere niveau van creativiteit dat nodig is om deze te beantwoorden.

Een voorbeeld van een productvraag van Facebook zou zijn:

VRAAG: “Wat is je favoriete Facebook-product en hoe zou je dit verbeteren?”

ANTWOORD: Vanwege de aard van de vraag laten wij u deze zelf beantwoorden.

De algemene concepten die worden getest, zijn sterk afhankelijk van het bedrijf dat u interviewt. Zorg ervoor dat u bekend bent met de activiteiten van het bedrijf en hun producten (idealiter bent u ook hun gebruiker), dan komt alles goed.

Business Case

Deze categorie omvat casestudy's en algemene vragen met betrekking tot het bedrijf die een datawetenschapsvaardigheid zouden testen. Het belang van het weten hoe je deze vragen moet beantwoorden kan enorm zijn, omdat sommige interviewers graag willen dat de kandidaten weten hoe ze data science-principes moeten toepassen om de specifieke problemen van een bedrijf op te lossen voordat ze worden aangenomen.

Voorbeeld van een businesscasevraag

Vanwege de aard van het vraagtype kon ik geen enkel technisch concept identificeren dat opvalt. Omdat de meeste van de hier gecategoriseerde vragen casestudies zijn, zijn ze in zekere zin uniek.

Hier is echter een voorbeeld van a businesscasevraag van Uber:

VRAAG: “Er is een groep mensen die Uber-ritten hebben gemaakt vanuit twee steden die dichtbij elkaar liggen, bijvoorbeeld Menlo Park en Palo Alto, en alle gegevens die je maar kunt bedenken kunnen worden verzameld. Welke gegevens zou je verzamelen zodat de stad waar de passagier vandaan kwam kon worden achterhaald?”

ANTWOORD: “Om de stad te bepalen, hebben we toegang nodig tot de locatie/geografische gegevens. De verzamelde gegevens kunnen GPS-coördinaten, lengte-/breedtegraad en postcode zijn.”

Systeem ontwerp

Systeemontwerpvragen zijn allemaal vragen die verband houden met het ontwerpen van technologische systemen. Er wordt hen gevraagd het proces van de kandidaat te analyseren bij het oplossen van problemen, het creëren en ontwerpen van systemen om klanten/opdrachtgevers te helpen. Het kennen van het systeemontwerp kan behoorlijk belangrijk zijn voor een datawetenschapper; Zelfs als het niet uw rol is om een systeem te ontwerpen, speelt u hoogstwaarschijnlijk een rol in een bestaand systeem en moet u weten hoe het werkt om uw werk te kunnen doen.

Voorbeeld van interviewvraag voor systeemontwerp

Deze vragen hebben betrekking op verschillende onderwerpen en taken. Maar degene die opvalt is het bouwen van een database. Datawetenschappers houden zich dagelijks intensief bezig met databases, dus het is logisch om deze vraag te stellen om te zien of je een database helemaal opnieuw kunt opbouwen.

Hier is er een vraagvoorbeeld van Audible ontdekt in ons onderzoek:

VRAAG: "Kun je ons laten zien hoe je een aanbevelingssysteem zou bouwen?"

ANTWOORD: Omdat er zoveel verschillende benaderingen zijn om deze vraag te beantwoorden, laten we het aan jou over om je eigen manier te bedenken om er een te bouwen.

Nogmaals, om deze vragen te kunnen beantwoorden is het essentieel om de activiteiten van het bedrijf te kennen. Denk een beetje na over de databases die het bedrijf waarschijnlijk nodig heeft, en probeer uw aanpak vóór het sollicitatiegesprek een beetje uit te werken.

Technisch

Technische vragen zijn allemaal vragen die gaan over de uitleg van verschillende data science technische concepten. De technische vragen zijn theoretisch en vereisen kennis van de technologie die je binnen het bedrijf gaat gebruiken. Vanwege de aard kunnen ze lijken op codeervragen. Het kennen van de theorie achter wat je doet is heel belangrijk, dus technische vragen kunnen vaak worden gesteld in interviews.

Voorbeeld van een technische interviewvraag

Het meest geteste gebied is de theoretische kennis van Python en SQL. Niet verrassend, aangezien deze twee talen dominant zijn in de datawetenschap, samen met R als aanvulling op Python.

Een voorbeeld van een technische vraag uit de echte wereld van Walmart zou zijn:

VRAAG"Wat zijn de datastructuren in Python?"

ANTWOORD: “De datastructuren worden gebruikt voor het opslaan van data. Er zijn vier datastructuren in Python: List, Dictionary, Tuple en Set. Dat zijn de ingebouwde datastructuren. Lijsten worden gebruikt voor het maken van lijsten die verschillende soorten gegevens kunnen bevatten. Woordenboek is eigenlijk een set sleutels; ze worden gebruikt om een waarde met een sleutel op te slaan en de gegevens op te halen met behulp van dezelfde sleutel. Tupels zijn hetzelfde als lijsten. Het verschil is dat in een tupel de gegevens niet kunnen worden gewijzigd. Set bevat de ongeordende elementen zonder duplicaten. Naast de ingebouwde datastructuren zijn er ook de door de gebruiker gedefinieerde datastructuren.”

Dit zijn allemaal soorten vragen. Het is een categorie voor alle vragen die niet netjes in andere categorieën passen. Hierdoor zijn er geen specifieke concepten die meer of minder vaak voorkomen.

Conclusie

Deze data science-interviewgids is geschreven ter ondersteuning van het onderzoek dat is uitgevoerd om inzicht te krijgen in de soorten vragen die worden gesteld tijdens een data science-interview. De gegevens van de interviewvragen worden over een periode van vier jaar bij tientallen bedrijven verzameld en geanalyseerd. De vragen zijn onderverdeeld in negen verschillende vraagtypen (algoritmen, businesscase, codering, modellering, waarschijnlijkheid, product, statistiek, systeemontwerp en technische vragen).

Als onderdeel van de analyse heb ik enkele van de meest voorkomende technische concepten uit elke vraagtypecategorie besproken. De meest gestelde vragen over statistiek hebben bijvoorbeeld te maken met steekproeftrekking en distributie. Elke vraagcategorie wordt ondersteund door één praktijkvoorbeeld van de echte vraag.

Het artikel is bedoeld als belangrijke leidraad voor het voorbereiden van interviews of om eenvoudigweg meer te leren over datawetenschap. Ik hoop dat ik je heb geholpen om je meer op je gemak te voelen bij het data science-interviewproces. Veel succes met je sollicitatiegesprekken!

ORIGINELE. Met toestemming opnieuw gepost.

Zie ook:

= Vorige post

Volgende post =>

Topverhalen afgelopen 30 dagen

Meest populair
Top 6 Data Science online cursussen in 2021 Datawetenschappers en ML-ingenieurs zijn luxe werknemers Advies voor het leren van datawetenschap van de onderzoeksdirecteur van Google GitHub Copilot Open Source-alternatieven Geometrische fundamenten van Deep Learning

meest gedeeld
Waarom en hoe moet je "Productive Data Science" leren? Niet alleen voor deep learning: hoe GPU's datawetenschap en data-analyse versnellen Bootstrap een moderne datastack in 5 minuten met Terraform GPU-aangedreven datawetenschap (NIET diep leren) met RAPIDS Word een Analytics Engineer in 90 dagen