Najpogostejša vprašanja in odgovori na področju podatkovne znanosti

Izvorno vozlišče: 1860815

Srebrni blogNajpogostejša vprašanja in odgovori na področju podatkovne znanosti

Po analizi več kot 900 vprašanj intervjujev podjetij iz podatkovnih znanosti v zadnjih nekaj letih so v tem priročniku pregledane najpogostejše kategorije vprašanj na področju podatkovnih znanosti, od katerih je vsaka razložena s primerom.


By Nate Rosidi, podatkovni znanstvenik in produktni vodja.

Postati podatkovni znanstvenik velja za prestižno lastnost. Že leta 2012 je Harvard Business Review 'podatkovnega znanstvenika' označil za najbolj seksi poklic 21. stoletja in zdi se, da naraščajoči trend vlog v industriji to izjavo potrjuje. Za potrditev, da ta seksipilnost še vedno traja, podatki Glassdoorja kažejo, da je biti podatkovni znanstvenik druga najboljša služba v Ameriki leta 2021.

Vir: Glassdoor.

Če želite dobiti tako prestižno službo, morate opraviti stroge zaposlitvene razgovore. Vprašanja podatkovne znanosti so lahko zelo široka in zapletena. To je pričakovano, saj vloga podatkovnega znanstvenika običajno vključuje toliko področij. Da bi vam pomagal pri pripravi na zaposlitvene razgovore o znanosti o podatkih, sem pregledal vsa ustrezna vprašanja in jih razdelil v različne kategorije vprašanj. Evo, kako sem to naredil.

Opis in metodologija analize

Podatke sem zbral z različnih forumov za iskanje zaposlitve in spletnih mest ter platform za pregled podjetij, kot so Glassdoor, Indeed, Reddit in Blind App. Če smo natančnejši, gre za 903 vprašanja, zbrana v zadnjih štirih letih.

Vprašanja so razdeljena v vnaprej določene kategorije. Te kategorije so rezultat strokovne analize opisa izkušenj na intervjuju, povzetih iz naših virov.

Kategorije so:

  1. Kodiranje
  2. Modeliranje
  3. Algoritmi
  4. Statistika
  5. Verjetnost
  6. Izdelek
  7. Poslovni primer
  8. Načrtovanje sistema
  9. tehnični

Kakšne vrste vprašanj za intervju lahko pričakujete?

Ta grafikon prikazuje vrsto vprašanja glede na kategorijo glede na zbrane podatke.

Prevedeno v odstotke, je grafikon videti takole:

Kot lahko vidite, so najbolj prevladujoča vprašanja kodiranja in modeliranja. Več kot polovica vseh vprašanj prihaja s tega področja. Ni presenetljivo, ko pomislite na to. Kodiranje in modeliranje sta verjetno dve najpomembnejši veščini podatkovnega znanstvenika. Vprašanja tipa kodiranja so zelo razširjena in obsegajo več kot eno tretjino vseh vprašanj. Tudi druge vrste vprašanj, kot so algoritmi in statistika, so precej pomembne; 24 % vseh vprašanj prihaja iz teh dveh kategorij. Druge kategorije niso tako zastopane. To se mi zdi razumno glede na naravo vloge podatkovnega znanstvenika.

Zdaj vas želim voditi skozi vsako kategorijo vprašanj in vam pokazati nekaj primerov zastavljenih vprašanj.

Najbolj preizkušeni koncepti o vprašanjih za intervjuje o znanosti o podatkih

Kodiranje

Kot ste že videli, so vprašanja o kodiranju najpomembnejša tema v podatkovni znanosti. Takšna vprašanja bodo zahtevala nekakšno manipulacijo podatkov z uporabo kode za prepoznavanje vpogledov. Vprašanja so namenjena preverjanju sposobnosti kodiranja, veščin reševanja problemov in ustvarjalnosti. Običajno to storite na računalniku ali na tabli.

Primer vprašanja za razgovor o kodiranju

One primer iz Microsofta je ta:

VPRAŠANJE: »Izračunajte delež novih in obstoječih uporabnikov. Izpišite mesec, delež novih uporabnikov in delež obstoječih uporabnikov kot razmerje. Novi uporabniki so definirani kot uporabniki, ki so storitve začeli uporabljati v tekočem mesecu. Obstoječi uporabniki so uporabniki, ki so storitve začeli uporabljati v tekočem mesecu in so storitve uporabljali v katerem koli prejšnjem mesecu. Predpostavimo, da so vsi datumi iz leta 2020."

Uporabili boste mizo fact_events, pri čemer so vzorčni podatki videti takole:

Če želite dobiti želeni rezultat, morate napisati to kodo:

z vsemi_uporabniki kot ( SELECT date_part('month', time_id) AS mesec, count(DISTINCT user_id) kot all_users FROM fact_events GROUP BY mesec), new_users kot ( SELECT date_part('month', new_user_start_date) AS mesec, count(DISTINCT user_id) kot novi_uporabniki FROM (SELECT user_id, min(time_id) kot new_user_start_date FROM fact_events GROUP BY user_id) sq GROUP BY mesec ) SELECT au.month, new_users / all_users::decimal kot share_new_users, 1- (new_users / all_users::decimal) kot share_existing_users FROM all_users au JOIN new_users nu ON nu.month = au.month 

Pisanje kode v SQL je najpogosteje preizkušen koncept, ko gre za kodiranje. To ni presenetljivo, saj je SQL najbolj uporabljeno orodje v podatkovni znanosti. Eden od konceptov, ki se mu skoraj ne morete izogniti v intervjujih, so spoji. Zato se prepričajte, da poznate razliko med različnimi spoji in kako jih uporabiti, da dobite zahtevani rezultat.

Prav tako lahko pričakujete, da boste zelo pogosto združevali podatke s klavzulo GROUP BY. Nekateri drugi koncepti, ki se običajno sprašujejo, so filtriranje podatkov s klavzulo WHERE in/ali HAVING. Prav tako boste morali izbrati ločene podatke. Prepričajte se tudi, da poznate agregatne funkcije, kot so SUM(), AVG(), COUNT(), MIN(), MAX().

Nekateri koncepti se ne pojavljajo tako pogosto, vendar jih je vredno omeniti in biti pripravljen na takšna vprašanja. Ena taka tema je na primer skupni tabelni izrazi ali CTE. Drugi je klavzula CASE(). Prav tako ne pozabite osvežiti spomina na ravnanje s podatkovnimi vrstami nizov in datumi.

Modeliranje

Modeliranje je bilo druga največja kategorija v naših raziskovalnih podatkih, saj je 20 % vseh vprašanj prišlo od tu. Ta vprašanja so namenjena preverjanju vašega znanja o gradnji statističnih modelov in izvajanju modelov strojnega učenja.

Primer vprašanja za intervju za modeliranje

Regresija, najpogostejši koncept znanosti o tehničnih podatkih, zastavljen v intervjujih. To ni presenetljivo, če upoštevamo naravo statističnega modeliranja.

One primer podjetja Galvanize bi bilo naslednje:

VPRAŠANJE: "Kaj je regulacija v regresiji?"

Tukaj lahko odgovorite na to vprašanje:

ODGOVOR: »Regulacija je posebna vrsta regresije, kjer so ocene koeficientov omejene (ali regulirane) na nič. S tem je mogoče zmanjšati varianco modela, hkrati pa zmanjšati napako vzorčenja. Regularizacija se uporablja za izogibanje ali zmanjšanje prekomernega opremljanja. Prekomerno opremljanje se zgodi, ko se model nauči podatkov o usposabljanju tako dobro, da zmanjša učinkovitost modela na novih podatkih. Da bi se izognili prekomernemu opremljanju, se običajno uporabljajo regulacije Ridge ali Lasso.«

Nekateri koncepti, ki se redno testirajo, so spet drugi koncepti regresijske analize, kot so logistična regresija, Bayesova logistična regresija in naivni Bayesovi klasifikatorji. Lahko vas vprašajo tudi o naključnih gozdovih, pa tudi o testiranju in ocenjevanju modelov.

Algoritmi

Vprašanja o algoritmih so vsa vprašanja, ki zahtevajo reševanje matematičnega problema, predvsem preko kode z uporabo enega od programskih jezikov. Ta vprašanja vključujejo postopek korak za korakom, ki običajno zahteva prilagoditev ali izračun za odgovor. Ta vprašanja preverjajo osnovno znanje o reševanju problemov in obdelavi podatkov, ki jih je mogoče uporabiti za kompleksne težave pri delu.

Primer vprašanja za intervju z algoritmom

Tehnični koncept, ki je največkrat preizkušen z algoritmi, je reševanje matematičnega ali sintaksnega problema s programskim jezikom.

Tukaj je en primer lahko najdete na Leetcode:

VPRAŠANJE: »Dana sta vam dva neprazna povezana seznama, ki predstavljata dve nenegativni celi števili. Številke so shranjene v obratnem vrstnem redu in vsako njihovo vozlišče vsebuje eno števko. Dodajte dve števili in vrnite vsoto kot povezan seznam.«

Primer podatkov je lahko nekaj takega:

Vir: Leetcode.

ODGOVOR: Koda, napisana v Javi, mora biti:

public ListNode addTwoNumbers(ListNode l1, ListNode l2) { ListNode dummyHead = new ListNode(0); ListNode p = l1, q = l2, curr = dummyHead; int prenos = 0; medtem ko (p != null || q != null) { int x = (p != null)? p.val: 0; int y = (q != null)? q.val: 0; int vsota = prenos + x + y; nosi = vsota / 10; curr.next = novo ListNode(vsota % 10); curr = curr.next; if (p != null) p = p.next; if (q != null) q = q.next; } if (carry > 0) {curr.next = new ListNode(carry); } return dummyHead.next; } 

Drugi splošni koncepti, ki jih ta vrsta vprašanj pogosto preverja, so polja, dinamično programiranje, nizi, pohlepni algoritem, iskanje najprej v globino, drevo, zgoščevalna tabela in binarno iskanje.

Statistika

Vprašanja za statistični intervju so vprašanja, ki preverjajo znanje statistične teorije in z njo povezanih načel. Namen teh vprašanj je preveriti, kako dobro ste seznanjeni z temeljnimi teoretičnimi načeli podatkovne znanosti. Pomembno je razumeti teoretično in matematično ozadje opravljenih analiz. Dobro odgovorite na ta vprašanja in vsak anketar vas bo cenil.

Primer vprašanja za statistični intervju

Največkrat omenjeni tehnični koncept je vzorčenje in distribucija. Za podatkovnega znanstvenika je to eno najpogosteje uporabljenih statističnih načel, ki jih podatkovni znanstvenik izvaja vsak dan.

Na primer, IBM-ovo vprašanje za intervju sprašuje:

VPRAŠANJE: "Kaj je primer podatkovnega tipa z ne-Gaussovo porazdelitvijo?"

Da bi odgovorili na vprašanje, bi lahko najprej definirali Gaussovo porazdelitev. Potem bi lahko temu sledili z navajanjem primerov ne-Gaussove porazdelitve. Nekaj ​​podobnega:

ODGOVOR: »Gaussova porazdelitev je porazdelitev, pri kateri je mogoče najti določen znani odstotek podatkov pri preučevanju standardnih odstopanj od povprečja, sicer znana kot normalna porazdelitev. Nekateri primeri ne-Gaussove porazdelitve so lahko eksponentna ali binomska porazdelitev.«

Ko se pripravljate na razgovor za službo, se prepričajte, da obravnavate tudi naslednje teme: varianco in standardni odklon, kovarianco in korelacijo, p-vrednost, povprečje in mediano, testiranje hipotez in Bayesovo statistiko. Vse to so pojmi, ki jih boste potrebovali kot podatkovni znanstvenik, zato jih pričakujte tudi na razgovorih za službo.

Verjetnost

Ta vprašanja zahtevajo samo teoretično znanje o konceptih verjetnosti. Anketarji postavljajo ta vprašanja, da bi bolje razumeli vaše znanje o metodah in uporabi verjetnosti za dokončanje kompleksnih podatkovnih študij, ki se običajno izvajajo na delovnem mestu.

Primer vprašanja za intervju z verjetnostjo

Zelo verjetno je, da je besedna igra namenjena, da je vprašanje, ki ga boste dobili, izračunati verjetnost, da dobite določeno karto/število iz niza kock/kart. Zdi se, da je to najpogostejši element spraševanja za večino podjetij v naši raziskavi, saj so mnoga od njih postavila tovrstna vprašanja.

Primer takega verjetnostno vprašanje s Facebooka:

VPRAŠANJE: "Kakšna je verjetnost, da dobite par, če ločeno vlečete dve karti v kompletu 52 kart?"

Tukaj lahko odgovorite na to:

ODGOVOR: »Ta prva karta, ki jo izvlečete, je lahko katera koli, tako da ne vpliva na rezultat, razen tega, da je v kompletu ostala ena karta manj. Ko je prva karta izvlečena, so v kompletu še tri preostale karte, ki jih je mogoče izvleči, da dobite par. Torej je možnost, da svojo prvo karto povežete s parom, 3 od 51 (preostale karte). To pomeni, da je verjetnost, da se ta dogodek zgodi, 3/51 ali 5.89 %.”

Ker je to nekakšno "specializirano" vprašanje, ki se ukvarja le z verjetnostjo, se ne postavljajo nobeni drugi pojmi. Edina razlika je v tem, kako domiselno je vprašanje. Toda v bistvu boste morali vedno izračunati verjetnost nekega dogodka in pokazati svoje razmišljanje.

Izdelek

Vprašanja za intervju z izdelkom bodo od vas zahtevala, da ocenite uspešnost izdelka/storitve s podatki. Ta vprašanja preverjajo vaše znanje o prilagajanju in uporabi načel podatkovne znanosti v katerem koli okolju, kot je to pri vsakodnevnem delu.

Primer vprašanja za razgovor o izdelku

Najvidnejši tehnični koncept v tej kategoriji je prepoznavanje izdelka podjetja in predlaganje izboljšav z vidika podatkovnega znanstvenika. Veliko razliko v tehničnih konceptih, preizkušenih na strani izdelka, je mogoče razložiti z naravo vprašanj o izdelku in višjo stopnjo ustvarjalnosti, ki je potrebna za odgovore na ta vprašanja.

Primer a vprašanje o izdelku s Facebooka bi bilo:

VPRAŠANJE: "Kateri je vaš najljubši Facebook izdelek in kako bi ga izboljšali?"

ODGOVOR: Zaradi narave vprašanja vam bomo dovolili, da nanj odgovorite sami.

Splošni preizkušeni koncepti so močno odvisni od podjetja, ki vas intervjuva. Prepričajte se, da ste seznanjeni s poslovanjem podjetja in njihovimi izdelki (v idealnem primeru ste tudi njihov uporabnik) in vse bo v redu.

Poslovni primer

Ta kategorija vključuje študije primerov in splošna vprašanja v zvezi s podjetjem, ki bi preizkusila veščino znanosti o podatkih. Pomen znanja, kako odgovoriti na ta vprašanja, je lahko ogromen, saj nekateri anketarji želijo, da bi kandidati vedeli, kako uporabiti načela podatkovne znanosti za reševanje specifičnih težav podjetja, preden jih zaposlijo.

Primer vprašanja o poslovnem primeru

Zaradi narave vrste vprašanja nisem mogel identificirati niti enega tehničnega koncepta, ki bi izstopal. Ker je večina tukaj kategoriziranih vprašanj študij primerov, so na nek način edinstvena.

Vendar je tukaj primer a Uberjevo vprašanje o poslovnem primeru:

VPRAŠANJE: »Obstaja skupina ljudi, ki so se z Uberjem vozili iz dveh bližnjih mest, na primer iz Menlo Parka in Pala Alta, in zbrati je bilo mogoče vse podatke, ki bi jih lahko pomislili. Katere podatke bi zbrali, da bi lahko ugotovili, iz katerega mesta se je potnik peljal?«

ODGOVOR: »Za določitev mesta moramo imeti dostop do lokacijskih/geografskih podatkov. Zbrani podatki so lahko koordinate GPS, dolžina/širina in poštna številka.

System design

Vprašanja o načrtovanju sistemov so vsa vprašanja, povezana z načrtovanjem tehnoloških sistemov. Od njih se zahteva, da analizirajo kandidatov proces pri reševanju problemov, ustvarjanju in načrtovanju sistemov za pomoč strankam/strankam. Poznavanje zasnove sistema je lahko zelo pomembno za podatkovnega znanstvenika; tudi če vaša vloga ni načrtovanje sistema, boste najverjetneje igrali vlogo v vzpostavljenem sistemu in morate vedeti, kako deluje, da lahko opravljate svoje delo.

Primer vprašanja za razgovor o oblikovanju sistema

Ta vprašanja zajemajo različne teme in naloge. Toda tisti, ki izstopa, je izgradnja baze podatkov. Podatkovni znanstveniki se dnevno veliko ukvarjajo z bazami podatkov, zato je smiselno zastaviti to vprašanje, da ugotovite, ali lahko zgradite bazo podatkov iz nič.

Tukaj je ena primer vprašanja iz Audible odkrili v naši raziskavi:

VPRAŠANJE: "Nam lahko predstavite, kako bi zgradili sistem priporočil?"

ODGOVOR: Ker obstaja tako raznovrsten pristop k odgovoru na to vprašanje, vam bomo prepustili, da si izmislite svoj način gradnje.

Še enkrat, da bi odgovorili na ta vprašanja, je bistveno poznati poslovanje podjetja. Malo razmislite o bazah podatkov, ki jih podjetje najverjetneje potrebuje, in poskušajte pred razgovorom malo razdelati svoj pristop.

tehnični

Tehnična vprašanja so vsa vprašanja, ki sprašujejo o razlagi različnih tehničnih konceptov podatkovne znanosti. Tehnična vprašanja so teoretična in zahtevajo poznavanje tehnologije, ki jo boste uporabljali v podjetju. Zaradi narave se lahko zdijo podobna vprašanjem kodiranja. Poznavanje teorije, ki stoji za tem, kar počnete, je zelo pomembno, zato se na razgovorih pogosto postavljajo tehnična vprašanja.

Primer vprašanja za tehnični razgovor

Najbolj testirano področje je teoretično znanje Pythona in SQL. Ni presenetljivo, saj sta ta dva jezika prevladujoča v podatkovni znanosti, skupaj z R, ki dopolnjuje Python.

Primer a Walmartovo tehnično vprašanje iz resničnega sveta bi bilo:

VPRAŠANJE: "Kakšne so podatkovne strukture v Pythonu?"

ODGOVOR: »Podatkovne strukture se uporabljajo za shranjevanje podatkov. V Pythonu obstajajo štiri podatkovne strukture: Seznam, Slovar, Tuple in Set. To so vgrajene podatkovne strukture. Seznami se uporabljajo za ustvarjanje seznamov, ki lahko vsebujejo različne vrste podatkov. Slovar je v bistvu niz ključev; uporabljajo se za shranjevanje vrednosti s ključem in pridobivanje podatkov z uporabo istega ključa. Tuples so enaki kot seznami. Razlika je v tem, da v tupleh podatkov ni mogoče spreminjati. Set vsebuje neurejene elemente brez dvojnikov. Poleg vgrajenih podatkovnih struktur obstajajo tudi uporabniško definirane podatkovne strukture.”

To so vprašanja, ki zajemajo vse. To je kategorija za vsa vprašanja, ki se ne morejo povsem umestiti v druge kategorije. Zaradi tega ni posebnih konceptov, ki bi se pojavljali bolj ali manj pogosto.

zaključek

Ta vodnik za intervjuje o podatkovni znanosti je bil napisan v podporo raziskavi, ki se izvaja za razumevanje vrst vprašanj, ki se postavljajo na intervjuju za podatkovno znanost. Podatki o vprašanjih za intervjuje so vzeti iz več deset podjetij v štiriletnem obdobju in analizirani. Vprašanja so bila razvrščena v devet različnih vrst vprašanj (algoritmi, poslovni primeri, kodiranje, modeliranje, verjetnost, izdelek, statistika, načrtovanje sistema in tehnična vprašanja).

Kot del analize sem govoril o nekaterih najpogostejših tehničnih konceptih iz vsake kategorije vrste vprašanja. Na primer, najbolj zastavljena statistična vprašanja so povezana z vzorčenjem in distribucijo. Vsaka kategorija vprašanj je podprta z enim praktičnim primerom pravega vprašanja.

Članek naj bi vam služil kot pomemben vodnik za pripravo na razgovor ali preprosto učenje več o podatkovni znanosti. Upam, da sem vam pomagal, da ste se počutili bolj udobno glede postopka intervjuja o podatkovni znanosti. Vso srečo pri intervjujih!

prvotni. Poročeno z dovoljenjem.

Povezano:

Vir: https://www.kdnuggets.com/2021/08/common-data-science-interview-questions-answers.html

Časovni žig:

Več od KDnuggets