Levinumad andmeteaduse intervjuu küsimused ja vastused

Allikasõlm: 1860815

Hõbedane blogiLevinumad andmeteaduse intervjuu küsimused ja vastused

Pärast 900+ andmeteadusliku intervjuu küsimuse analüüsimist ettevõtetelt viimastel aastatel on selles juhendis üle vaadatud kõige levinumad andmeteaduse intervjuu küsimuste kategooriad, millest igaüks on selgitatud näitega.


By Nate Rosidi, andmeteadlane ja tootejuht.

Andmeteadlaseks saamist peetakse prestiižseks tunnuseks. Veel 2012. aastal nimetas Harvard Business Review 'andmeteadlast' 21. sajandi seksikaimaks tööks ning rollide kasvav trend tööstuses näib seda väidet kinnitavat. Kinnitamaks, et see seksikus on endiselt pooleli, näitab Glassdoori teave, et andmeteadlaseks olemine on 2021. aasta paremuselt teine ​​​​töö Ameerikas.

Allikas: Glassdoor.

Sellise maineka töö saamiseks peate läbima ranged tööintervjuud. Andmeteaduse küsimused võivad olla väga laiaulatuslikud ja keerukad. See on ootuspärane, arvestades, et andmeteadlase roll hõlmab tavaliselt nii palju valdkondi. Andmeteaduse tööintervjuudeks valmistumise hõlbustamiseks olen läbi vaadanud kõik kohaldatavad küsimused ja jaganud need erinevatesse küsimuste kategooriatesse. Siin on, kuidas ma seda tegin.

Analüüsi kirjeldus ja metoodika

Kogusin andmeid erinevatelt tööotsingu tahvlitelt ja veebisaitidelt ning ettevõtete ülevaateplatvormidelt, nagu Glassdoor, Indeed, Reddit ja Blind App. Täpsemalt, viimase nelja aasta jooksul on kogutud 903 küsimust.

Küsimused on jagatud eelnevalt kindlaksmääratud kategooriatesse. Need kategooriad on meie allikatest võetud intervjuu kogemuse kirjelduse ekspertanalüüsi tulemus.

Kategooriad on järgmised:

  1. Kodeerimine
  2. modelleerimine
  3. Algoritmid
  4. Statistika
  5. Tõenäosus
  6. Toode
  7. Ärimudeli
  8. Süsteemi disain
  9. Tehniline

Milliseid intervjuuküsimusi peaksite ootama?

See diagramm näitab teile kategooriate kaupa küsimuse tüüpe vastavalt kogutud andmetele.

Protsentideks tõlgituna näeb diagramm välja järgmine:

Nagu näete, on kodeerimise ja modelleerimise küsimused kõige domineerivamad. Rohkem kui pooled kõigist küsimustest pärinevad sellest piirkonnast. See pole üllatav, kui sellele järele mõelda. Kodeerimine ja modelleerimine on andmeteadlase jaoks ilmselt kaks kõige olulisemat oskust. Kodeerimistüüpi küsimused on laialt levinud, hõlmates enam kui ühe kolmandiku kõigist küsimustest. Teised küsimuste tüübid, nagu algoritmid ja statistika, on samuti üsna olulised; 24% kõigist küsimustest pärinevad nendest kahest kategooriast. Teised kategooriad ei ole esindatud. Arvestades andmeteadlase rolli olemust, pean seda mõistlikuks.

Nüüd tahan teid juhatada läbi iga küsimuste kategooria ja näidata teile esitatavate küsimuste näiteid.

Andmeteaduse intervjuuküsimuste enim testitud kontseptsioonid

Kodeerimine

Nagu juba nägite, on kodeerimisküsimused andmeteaduse kõige olulisem teema. Sellised küsimused nõuavad mingisugust andmetega manipuleerimist, kasutades arusaamade tuvastamiseks koodi. Küsimused on mõeldud kodeerimisoskuse, probleemide lahendamise oskuste ja loovuse testimiseks. Tavaliselt teete seda arvutis või tahvlil.

Kodeerimisintervjuu küsimuse näide

Üks näide Microsoftilt kas see on:

KÜSIMUS: “Arvutage uute ja olemasolevate kasutajate osakaal. Väljastage kuu, uute kasutajate osakaal ja olemasolevate kasutajate osakaal suhtarvuna. Uued kasutajad on kasutajad, kes alustasid teenuste kasutamist jooksval kuul. Olemasolevad kasutajad on kasutajad, kes alustasid teenuste kasutamist jooksval kuul ja kasutasid teenuseid mis tahes eelneval kuul. Oletame, et kõik kuupäevad pärinevad aastast 2020.

Sa hakkad tabelit kasutama fakti_sündmused, näidisandmed näevad välja sellised:

Soovitud väljundi saamiseks peaksite kirjutama selle koodi:

with all_users as ( SELECT date_part('month', time_id) AS month, count(DISTINCT user_id) as all_users FROM fact_events GROUP BY month), new_users as ( SELECT date_part('month', new_user_start_date) AS kuu, count(DISTINCT user_id) uute_kasutajatena FROM (SELECT kasutaja_id, min(aja_id) uue_kasutaja_alguskuupäevana FROM fact_events GROUP BY user_id) ruut GROUP BY kuu ) SELECT au.month, uued_kasutajad / kõik_kasutajad::decimal as share_new_users, 1- (uued_kasutajad_jagamiskasutajad::kõikide_kasutajad) FROM all_users au JOIN new_users nu ON nu.month = au.month 

Koodi kirjutamine SQL-is on kodeerimisel kõige sagedamini testitud kontseptsioon. See pole üllatav, kuna SQL on andmeteaduses enim kasutatud tööriist. Üks mõistetest, mida intervjuudes peaaegu vältida ei saa, on liitumised. Seega veendu, et tead, mis vahe on erinevatel ühendustel ja kuidas neid vajaliku tulemuse saavutamiseks kasutada.

Samuti võite eeldada, et rühmitate andmeid väga sageli klausli GROUP BY abil. Mõned muud mõisted, mida tavaliselt küsitakse, on andmete filtreerimine, kasutades klauslit WHERE ja/või HAVING. Samuti palutakse teil valida erinevad andmed. Samuti veenduge, et teate koondamisfunktsioone, nagu SUM(), AVG(), COUNT(), MIN(), MAX().

Mõnda mõistet ei esine nii sageli, kuid tasub neid mainida ja olla sellisteks küsimusteks valmis. Näiteks Common Table Expressions ehk CTE-d on üks selline teema. Teine on CASE() klausel. Samuti ärge unustage värskendada oma mälu stringi andmetüüpide ja kuupäevade käsitlemisel.

Modelleerimine

Modelleerimine oli meie uurimisandmetes suuruselt teine ​​kategooria, 20% kõigist küsimustest pärines siit. Nende küsimuste eesmärk on testida teie teadmisi statistiliste mudelite loomisest ja masinõppemudelite rakendamisest.

Modelleeriva intervjuu küsimuse näide

Regressioon, kõige levinum tehniliste andmete teaduse kontseptsioon, mida intervjuudes küsitakse. Statistilise modelleerimise olemust arvestades pole see üllatav.

Üks näide ettevõttest Galvanize oleks järgmine:

KÜSIMUS: "Mis on regressiooni regulaarsus?"

Siin on, kuidas saate sellele küsimusele vastata:

VASTUS: Regulariseerimine on regressiooni eritüüp, kus koefitsientide hinnangud on piiratud (või regulaarsus) nulliga. Seda tehes on võimalik vähendada mudeli dispersiooni, vähendades samal ajal diskreetimisviga. Reguleerimist kasutatakse selleks, et vältida või vähendada ülepaigutamist. Ülesobitamine toimub siis, kui mudel õpib koolitusandmeid nii hästi selgeks, et see kahjustab mudeli jõudlust uute andmete puhul. Ülesobitamise vältimiseks kasutatakse tavaliselt Ridge'i või Lasso regulatsioone.

Mõned regulaarselt testitavad mõisted on jällegi muud regressioonianalüüsi kontseptsioonid, nagu logistiline regressioon, Bayesi logistiline regressioon ja naiivsed Bayesi klassifikaatorid. Samuti võib küsida juhuslike metsade kohta, samuti mudelite testimise ja hindamise kohta.

Algoritmid

Algoritmide küsimused on kõik küsimused, mis nõuavad matemaatikaprobleemi lahendamist, peamiselt koodi kaudu, kasutades mõnda programmeerimiskeelt. Need küsimused hõlmavad samm-sammulist protsessi, mis tavaliselt nõuab vastuse saamiseks kohandamist või arvutamist. Need küsimused panevad proovile probleemide lahendamise ja andmetega manipuleerimise põhiteadmised, mida saab rakendada keeruliste tööprobleemide puhul.

Algoritmi intervjuu küsimuse näide

Algoritmide all testitud tehniline kontseptsioon on matemaatilise või süntaksiprobleemi lahendamine programmeerimiskeelega.

Siin on ühe näite leiate Leetcode'ist:

KÜSIMUS: "Teile antakse kaks mittetühja lingitud loendit, mis esindavad kahte mittenegatiivset täisarvu. Numbrid salvestatakse vastupidises järjekorras ja iga nende sõlm sisaldab ühte numbrit. Lisage kaks numbrit ja tagastage summa lingitud loendina.

Andmete näide võib olla midagi sellist:

Allikas: Leetcode.

VASTUS: Javas kirjutatud kood peaks olema:

public ListNode addTwoNumbers(ListNode l1, ListNode l2) { LoendiSõlm dummyHead = new ListNode(0); ListNode p = l1, q = l2, curr = dummyHead; int kanda = 0; while (p != null || q != null) { int x = (p != null) ? p.val : 0; int y = (q != null) ? q.val: 0; int summa = kanda + x + y; kandma = summa / 10; curr.next = new ListNode(summa % 10); curr = curr.next; if (p != null) p = p.next; if (q != null) q = q.järgmine; } if (carry > 0) { curr.next = new ListNode(carry); } return dummyHead.next; } 

Teised üldmõisted, mida seda tüüpi küsimustega sageli testitakse, on massiivid, dünaamiline programmeerimine, stringid, ahne algoritm, sügavuspõhine otsing, puu, räsitabel ja kahendotsing.

Statistika

Statistikaintervjuu küsimused on statistikateooria ja sellega seotud põhimõtete tundmist testivad küsimused. Nende küsimuste eesmärk on proovida, kui hästi te olete andmeteaduse teoreetiliste põhimõtetega kursis. Oluline on mõista tehtavate analüüside teoreetilist ja matemaatilist tausta. Vastake neile küsimustele hästi ja iga intervjueerija hindab teid.

Statistikaintervjuu küsimuse näide

Enim mainitud tehniline kontseptsioon on proovide võtmine ja levitamine. Andmeteadlase jaoks on see üks kõige sagedamini kasutatavaid statistikapõhimõtteid, mida andmeteadlane igapäevaselt rakendab.

Näiteks intervjuu küsimus IBM-ilt küsib:

KÜSIMUS: "Mis on näide mitte-Gaussi jaotusega andmetüübist?"

Küsimusele vastamiseks võiks esmalt defineerida Gaussi jaotuse. Seejärel võiksite seda järgida, tuues näiteid mitte-Gaussi jaotuse kohta. Midagi sellist:

VASTUS: “Gaussi jaotus on jaotus, kus standardhälbeid uurides on võimalik leida teatud protsent andmetest, mida muidu nimetatakse normaaljaotuseks. Mõned mitte-Gaussi jaotuse näited võivad olla eksponentsiaalne jaotus või binoomjaotus.

Tööintervjuuks valmistudes jälgi kindlasti ka järgmisi teemasid: dispersioon ja standardhälve, kovariatsioon ja korrelatsioon, p-väärtus, keskmine ja mediaan, hüpoteeside testimine ja Bayesi statistika. Need on kõik mõisted, mida andmeteadlasena vajate, nii et oodake neid ka tööintervjuudel.

Tõenäosus

Need küsimused nõuavad teoreetilisi teadmisi ainult tõenäosuskontseptsioonide kohta. Intervjueerijad küsivad neid küsimusi, et saada sügav arusaam teie teadmistest tõenäosuse meetodite ja kasutusviiside kohta keerukate andmeuuringute lõpuleviimiseks, mida tavaliselt töökohal tehakse.

Tõenäosusintervjuu küsimuse näide

On väga tõenäoline, sõnamängu eesmärk, et teil tekib küsimus, kuidas arvutada täringu/kaartide komplektist teatud kaardi/numbri saamise tõenäosus. See näib olevat enamiku meie uuringus osalevate ettevõtete jaoks kõige levinum küsitlemise element, kuna paljud neist on seda tüüpi küsimusi esitanud.

Näide sellisest tõenäosus küsimus Facebookist:

KÜSIMUS: "Kui suur on tõenäosus saada paar, kui tõmbate 52-kaardilises pakis kaks kaarti eraldi?"

Sellele saate vastata järgmiselt:

VASTUS: "See esimene kaart, mille tõmbate, võib olla mis iganes, nii et see ei mõjuta tulemust muul viisil kui see, et pakis on üks kaart vähem alles. Kui esimene kaart on tõmmatud, on pakis kolm allesjäänud kaarti, mida saab paari saamiseks tõmmata. Seega on võimalus, et teie esimene kaart paariga sobitatakse, 3 51-st (ülejäänud kaardid). See tähendab, et selle sündmuse toimumise tõenäosus on 3/51 ehk 5.89%.

Kuna see on omamoodi "spetsiaalne" küsimus, mis käsitleb ainult tõenäosust, siis muid mõisteid ei küsita. Ainus erinevus seisneb selles, kui fantaasiarikas küsimus on. Kuid põhimõtteliselt peate alati arvutama mõne sündmuse tõenäosuse ja näitama oma mõtlemist.

Toode

Tooteintervjuu küsimustes palutakse teil hinnata toote/teenuse toimivust andmete kaudu. Need küsimused panevad proovile teie teadmised andmeteaduse põhimõtete kohandamisest ja kasutamisest igas keskkonnas, nagu igapäevase töö puhul.

Tooteintervjuu küsimuse näide

Selle kategooria silmapaistvaim tehniline kontseptsioon on ettevõtte toote tuvastamine ja parendusettepanekute tegemine andmeteadlase vaatenurgast. Tootepoolel testitud tehniliste kontseptsioonide suur erinevus on seletatav tooteküsimuste olemuse ja neile vastamiseks vajaliku suurema loovuse tasemega.

Näide a toote küsimus Facebookist oleks:

KÜSIMUS: "Mis on teie lemmik Facebooki toode ja kuidas te seda täiustaksite?"

VASTUS: Küsimuse olemuse tõttu laseme teil sellele küsimusele ise vastata.

Testitud üldkontseptsioonid sõltuvad suuresti teiega intervjueerivast ettevõttest. Lihtsalt veenduge, et olete ettevõtte äritegevuse ja toodetega kursis (ideaaljuhul olete ka nende kasutaja) ja kõik läheb hästi.

Ärihuvides

See kategooria hõlmab juhtumiuuringuid ja ettevõttega seotud üldisi küsimusi, mis panevad proovile andmeteaduse oskused. Nendele küsimustele vastamise teadmise tähtsus võib olla tohutu, kuna mõned intervjueerijad soovivad, et kandidaadid teaksid, kuidas rakendada andmeteaduse põhimõtteid ettevõtte konkreetsete probleemide lahendamiseks enne nende palkamist.

Ärijuhtumi küsimuse näide

Küsimuse tüübi olemuse tõttu ei suutnud ma tuvastada ühtki silmapaistvat tehnilist kontseptsiooni. Kuna enamik siin kategoriseeritud küsimusi on juhtumiuuringud, on need teatud mõttes ainulaadsed.

Siin on aga näide a ärijuhtumi küsimus Uberilt:

KÜSIMUS: „Seal on hulk inimesi, kes sõitsid Uberiga kahest lähedal asuvast linnast, näiteks Menlo Parkist ja Palo Altost, ning koguda saab kõiki andmeid, mida võiksite mõelda. Milliseid andmeid koguksite, et saaks kindlaks teha linna, kust reisija sõitis?"

VASTUS: „Linna määramiseks peab meil olema juurdepääs asukohale/geograafilistele andmetele. Kogutud andmed võivad olla GPS-koordinaadid, pikkus-/laiuskraad ja sihtnumber.

System Design

Süsteemi disaini küsimused on kõik tehnoloogiliste süsteemide projekteerimisega seotud küsimused. Neil palutakse analüüsida kandidaadi protsessi probleemide lahendamisel, klientide/klientide abistamiseks süsteemide loomisel ja kujundamisel. Süsteemi disaini tundmine võib andmeteadlase jaoks olla üsna oluline; isegi kui teie roll ei ole süsteemi kavandamine, mängite suure tõenäosusega rolli väljakujunenud süsteemis ja peate oma töö tegemiseks teadma, kuidas see töötab.

Süsteemikujunduse intervjuu küsimuse näide

Need küsimused hõlmavad erinevaid teemasid ja ülesandeid. Kuid üks, mis paistab silma, on andmebaasi loomine. Andmeteadlased tegelevad andmebaasidega iga päev palju, seega on mõttekas esitada see küsimus, et näha, kas saate andmebaasi nullist üles ehitada.

Siin on üks küsimuse näide Audible'ist meie uurimistöös avastanud:

KÜSIMUS: "Kas saate meile selgitada, kuidas koostaksite soovitussüsteemi?"

VASTUS: Kuna sellele küsimusele vastamiseks on nii palju erinevaid lähenemisviise, jätame teie enda otsustada selle loomiseks.

Jällegi, nendele küsimustele vastamiseks on oluline tunda ettevõtte äritegevust. Mõelge veidi andmebaasidele, mida ettevõte tõenäoliselt vajab, ja proovige oma lähenemisviisi veidi enne intervjuud täpsustada.

Tehniline

Tehnilised küsimused on kõik küsimused, mida küsitakse erinevate andmeteaduse tehniliste mõistete selgituste kohta. Tehnilised küsimused on teoreetilised ja nõuavad teadmisi ettevõttes kasutatava tehnoloogia kohta. Oma olemuselt võivad need tunduda sarnased kodeerimisküsimustega. Tegevuse taga oleva teooria tundmine on üsna oluline, nii et intervjuudes võidakse sageli esitada tehnilisi küsimusi.

Tehnilise intervjuu küsimuse näide

Enim testitud valdkond on Pythoni ja SQL-i teoreetilised teadmised. Pole üllatav, kuna need kaks keelt on andmeteaduses domineerivad koos R-ga, mis täiendab Pythoni.

Näide a tegelik tehniline küsimus Walmartilt oleks:

KÜSIMUS"Millised on Pythoni andmestruktuurid?"

VASTUS: „Andmestruktuure kasutatakse andmete salvestamiseks. Pythonis on neli andmestruktuuri: loend, sõnastik, tuple ja komplekt. Need on sisseehitatud andmestruktuurid. Loendeid kasutatakse loendite loomiseks, mis võivad sisaldada erinevat tüüpi andmeid. Sõnastik on põhimõtteliselt võtmete komplekt; neid kasutatakse võtmega väärtuse salvestamiseks ja andmete hankimiseks sama võtme abil. Kordad on samad, mis loendid. Erinevus seisneb selles, et korteežis ei saa andmeid muuta. Komplekt sisaldab järjestamata elemente ilma duplikaatideta. Lisaks sisseehitatud andmestruktuuridele on olemas ka kasutaja määratletud andmestruktuurid.

Need on kõikehõlmavad küsimused. See on kategooria kõikidele küsimustele, mis ei mahu teistesse kategooriatesse. Sellest tulenevalt puuduvad konkreetsed mõisted, mida sagedamini või harvemini ette tuleks.

Järeldus

See andmeteaduse intervjuude juhend on kirjutatud selleks, et toetada uurimistööd, et mõista andmeteaduse intervjuul esitatavate küsimuste tüüpe. Intervjuuküsimuste andmed on võetud kümnetelt ettevõtetelt nelja aasta jooksul ja neid analüüsitakse. Küsimused on jaotatud üheksa erineva küsimuse tüübi alla (algoritmid, ärijuhtum, kodeerimine, modelleerimine, tõenäosus, toode, statistika, süsteemikujundus ja tehnilised küsimused).

Analüüsi osana rääkisin mõnest enamlevinud tehnilisest mõistest igast küsimusetüübi kategooriast. Näiteks on enim küsitud statistikaküsimused seotud valimi ja jaotusega. Iga küsimuse kategooriat toetab üks praktiline näide tegelikust küsimusest.

See artikkel on mõeldud teile oluliseks juhendiks intervjuude ettevalmistamisel või lihtsalt andmeteaduse kohta lisateabe saamiseks. Loodan, et olen aidanud teil end andmeteaduse intervjuu protsessis mugavamalt tunda. Edu teile intervjuudel!

Originaal. Loaga uuesti postitatud.

Seotud:

Allikas: https://www.kdnuggets.com/2021/08/common-data-science-interview-questions-answers.html

Ajatempel:

Veel alates KDnuggets