Najczęstsze pytania i odpowiedzi podczas wywiadu dotyczącego nauki o danych

Węzeł źródłowy: 1860815

Srebrny blogNajczęstsze pytania i odpowiedzi podczas wywiadu dotyczącego nauki o danych

Po przeanalizowaniu ponad 900 pytań z wywiadów dotyczących nauki o danych z firm w ciągu ostatnich kilku lat, w tym przewodniku omówiono najczęstsze kategorie pytań z wywiadu w nauce o dane, przy czym każda z nich została wyjaśniona na przykładzie.


By Nate'a Rosidiego, Data Scientist i Product Manager.

Zostanie naukowcem danych jest uważane za cechę prestiżową. W 2012 roku Harvard Business Review nazwał „analityka danych” najseksowniejszym zawodem XXI wieku, a rosnący trend ról w branży wydaje się potwierdzać to stwierdzenie. Aby potwierdzić, że ta seksowność wciąż trwa, informacje z Glassdoor pokazują, że bycie naukowcem zajmującym się danymi jest drugą najlepszą pracą w Ameryce w 21 roku.

źródło: glassdoor.

Aby dostać tak prestiżową posadę, trzeba przejść przez rygorystyczne rozmowy kwalifikacyjne. Zadawane pytania związane z nauką o danych mogą być bardzo szerokie i złożone. Można się tego spodziewać, biorąc pod uwagę, że rola analityka danych zwykle obejmuje tak wiele obszarów. Aby pomóc Ci przygotować się do rozmów kwalifikacyjnych związanych z nauką o danych, przejrzałem wszystkie odpowiednie pytania i podzieliłem je na różne kategorie pytań. Oto jak to zrobiłem.

Opis i metodologia analizy

Zebrałem dane z różnych tablic i stron internetowych z ofertami pracy oraz platform z recenzjami firm, takich jak Glassdoor, Indeed, Reddit i Blind App. Mówiąc dokładniej, w ciągu ostatnich czterech lat zebrano 903 pytania.

Pytania są podzielone na z góry określone kategorie. Kategorie te są wynikiem eksperckiej analizy opisu doświadczenia z wywiadu zaczerpniętego z naszych źródeł.

Kategorie to:

  1. Kodowanie
  2. Modelowanie
  3. Algorytmy
  4. Statistics
  5. Prawdopodobieństwo
  6. Produkt
  7. Przypadek biznesowy
  8. Projekt systemu
  9. Techniczny

Jakich pytań na rozmowie kwalifikacyjnej należy się spodziewać?

Ten wykres pokazuje typ pytania według kategorii zgodnie z zebranymi danymi.

W przeliczeniu na procenty wykres wygląda następująco:

Jak widać, dominują pytania dotyczące kodowania i modelowania. Ponad połowa wszystkich pytań pochodzi z tego obszaru. Nie jest to zaskakujące, gdy się nad tym zastanowić. Kodowanie i modelowanie to prawdopodobnie dwie najważniejsze umiejętności dla analityka danych. Pytania typu kodowania są szeroko rozpowszechnione i obejmują ponad jedną trzecią wszystkich pytań. Inne rodzaje pytań, takie jak algorytmy i statystyki, są również dość istotne; 24% wszystkich pytań pochodzi z tych dwóch kategorii. Inne kategorie nie są reprezentowane. Uważam to za rozsądne, biorąc pod uwagę charakter roli analityka danych.

Teraz chcę przeprowadzić Cię przez każdą kategorię pytań i pokazać kilka przykładów zadawanych pytań.

Najbardziej przetestowane koncepcje dotyczące pytań do wywiadu z nauką o danych

Kodowanie

Jak już zauważyłeś, pytania dotyczące kodowania są najważniejszym tematem w nauce o danych. Takie pytania będą wymagały pewnego rodzaju manipulacji danymi przy użyciu kodu w celu zidentyfikowania spostrzeżeń. Pytania mają na celu sprawdzenie umiejętności kodowania, umiejętności rozwiązywania problemów i kreatywności. Zwykle robisz to na komputerze lub tablicy.

Kodowanie przykładu pytania do wywiadu

jeden przykład z Microsoftu czy to ten:

PYTANIE: „Oblicz udział nowych i istniejących użytkowników. Podaj miesiąc, udział nowych użytkowników i udział istniejących użytkowników jako stosunek. Nowi użytkownicy to użytkownicy, którzy rozpoczęli korzystanie z usług w bieżącym miesiącu. Istniejący użytkownicy to użytkownicy, którzy rozpoczęli korzystanie z usług w bieżącym miesiącu i korzystali z usług w dowolnym poprzednim miesiącu. Załóżmy, że wszystkie daty pochodzą z roku 2020”.

Będziesz korzystać ze stołu fakt_zdarzenia, z przykładowymi danymi wyglądającymi tak:

Aby uzyskać pożądane wyjście, powinieneś napisać ten kod:

z all_users as ( SELECT date_part('month', time_id) AS miesiąc, count(DISTINCT user_id) as all_users FROM fact_events GROUP BY Month), new_users as ( SELECT date_part('month', new_user_data_początkowa) AS miesiąc, count(DISTINCT user_id) as new_users FROM (SELECT user_id, min(time_id) as new_user_start_date FROM fact_events GROUP BY user_id) sq GROUP BY Month ) SELECT au.month, new_users / all_users::decimal as share_new_users, 1- (new_users / all_users::decimal) as share_existing_users Z all_users au DOŁĄCZ do new_users nu ON nu.month = au.month 

Pisanie kodu w SQL to najczęściej testowana koncepcja, jeśli chodzi o kodowanie. Nie jest to zaskoczeniem, ponieważ SQL jest najczęściej używanym narzędziem w nauce o danych. Jednym z pojęć, których prawie nie można uniknąć podczas wywiadów, są połączenia. Upewnij się więc, że znasz różnicę między różnymi połączeniami i wiesz, jak ich używać, aby uzyskać wymagany wynik.

Ponadto możesz spodziewać się bardzo częstego grupowania danych przy użyciu klauzuli GROUP BY. Niektóre inne koncepcje, które są zwykle zadawane, to filtrowanie danych przy użyciu klauzuli WHERE i/lub HAVING. Zostaniesz również poproszony o wybranie odrębnych danych. Upewnij się również, że znasz funkcje agregujące, takie jak SUMA(), AVG(), COUNT(), MIN(), MAX().

Niektóre pojęcia nie pojawiają się zbyt często, ale warto o nich wspomnieć i być przygotowanym na takie pytania. Na przykład wspólne wyrażenia tabelowe lub CTE to jeden z takich tematów. Drugi to klauzula CASE(). Nie zapomnij także odświeżyć pamięci na temat obsługi typów danych łańcuchowych i dat.

Modelowanie

Modelowanie było drugą co do wielkości kategorią w naszych danych badawczych, skąd pochodziło 20% wszystkich pytań. Te pytania mają na celu sprawdzenie Twojej wiedzy na temat budowania modeli statystycznych i wdrażania modeli uczenia maszynowego.

Modelowanie przykładu pytania do wywiadu

Regresja, najczęstsza koncepcja nauki o danych technicznych, o którą pyta się w wywiadach. Nie jest to zaskakujące, biorąc pod uwagę charakter modelowania statystycznego.

jeden przykład z Galvanize wyglądałoby następująco:

PYTANIE: „Czym jest regularyzacja w regresji?”

Oto jak możesz odpowiedzieć na to pytanie:

ODPOWIEDŹ: „Uregulowanie to specjalny rodzaj regresji, w którym oszacowania współczynników są ograniczone (lub uregulowane) do zera. W ten sposób możliwe jest zmniejszenie wariancji modelu przy jednoczesnym zmniejszeniu błędu próbkowania. Regularyzacja służy do unikania lub zmniejszania nadmiernego dopasowania. Nadmierne dopasowanie ma miejsce, gdy model uczy się danych treningowych tak dobrze, że obniża to wydajność modelu na nowych danych. Aby uniknąć nadmiernego dopasowania, zwykle stosuje się regularyzacje Ridge'a lub Lasso.

Niektóre koncepcje testowane regularnie to inne koncepcje analizy regresji, takie jak regresja logistyczna, Bayesowska regresja logistyczna i naiwne klasyfikatory Bayesa. Możesz również zostać zapytany o lasy losowe, a także o testowanie i ocenę modeli.

Algorytmy

Pytania dotyczące algorytmów to wszystkie pytania, które wymagają rozwiązania problemu matematycznego, głównie za pomocą kodu przy użyciu jednego z języków programowania. Pytania te obejmują proces krok po kroku, zwykle wymagający dostosowania lub obliczeń w celu uzyskania odpowiedzi. Te pytania sprawdzają podstawową wiedzę na temat rozwiązywania problemów i manipulacji danymi, które można zastosować w przypadku złożonych problemów w pracy.

Przykład pytania do wywiadu algorytmicznego

Koncepcją techniczną najczęściej testowaną w ramach algorytmów jest rozwiązywanie problemu matematycznego lub składniowego za pomocą języka programowania.

Oto jeden przykład można znaleźć na Leetcode:

PYTANIE: „Otrzymujesz dwie niepuste połączone listy reprezentujące dwie nieujemne liczby całkowite. Cyfry są przechowywane w odwrotnej kolejności, a każdy z ich węzłów zawiera pojedynczą cyfrę. Dodaj dwie liczby i zwróć sumę jako połączoną listę”.

Przykładowe dane mogą wyglądać następująco:

źródło: Leetcode.

ODPOWIEDŹ: Kod napisany w Javie powinien być:

public ListNode addTwoNumbers(ListNode l1, ListNode l2) { ListNode dummyHead = new ListNode(0); ListNode p = l1, q = l2, curr = dummyHead; int przeniesienie = 0; while (p != zero || q != zero) { int x = (p != zero) ? p.wartość: 0; int y = (q != zero) ? wartość q: 0; int suma = przeniesienie + x + y; przenieś = suma / 10; curr.next = new ListNode (suma % 10); bieżący = bieżący.następny; if (p != null) p = p.następny; if (q != zero) q = q.następny; } if (przenieś > 0) { curr.next = nowy Węzeł Listy (przenieś); } zwróć dummyHead.next; } 

Inne ogólne koncepcje często sprawdzane za pomocą tego typu pytań to tablice, programowanie dynamiczne, łańcuchy znaków, algorytm zachłanny, przeszukiwanie w głąb, drzewo, tablica skrótów i wyszukiwanie binarne.

Statistics

Pytania do wywiadu statystycznego to pytania sprawdzające znajomość teorii statystyki i związanych z nią zasad. Te pytania mają na celu sprawdzenie, jak dobrze znasz podstawowe zasady teoretyczne w nauce o danych. Ważna jest umiejętność zrozumienia teoretycznego i matematycznego podłoża przeprowadzanych analiz. Odpowiedz dobrze na te pytania, a każdy ankieter cię doceni.

Przykład pytania do wywiadu statystycznego

Najczęściej wymienianą koncepcją techniczną jest samplowanie i dystrybucja. Dla analityka danych jest to jedna z najczęściej stosowanych zasad statystycznych, które analityk danych wdraża codziennie.

Na przykład, pytanie wywiadu z IBM pyta:

PYTANIE: „Jaki jest przykład typu danych z rozkładem innym niż gaussowski?”

Aby odpowiedzieć na to pytanie, możesz najpierw zdefiniować rozkład Gaussa. Następnie możesz to śledzić, podając przykłady rozkładu niegaussowskiego. Coś takiego:

ODPOWIEDŹ: „Rozkład Gaussa to rozkład, w którym pewien znany procent danych można znaleźć podczas badania odchyleń standardowych od średniej, inaczej znany jako rozkład normalny. Niektóre przykłady rozkładu niegaussowskiego mogą być rozkładem wykładniczym lub rozkładem dwumianowym”.

Przygotowując się do rozmowy kwalifikacyjnej, upewnij się, że omówiłeś również następujące tematy: wariancja i odchylenie standardowe, kowariancja i korelacja, wartość p, średnia i mediana, testowanie hipotez i statystyka bayesowska. Są to wszystkie koncepcje, których będziesz potrzebować jako analityk danych, więc spodziewaj się ich również podczas rozmów kwalifikacyjnych.

Prawdopodobieństwo

Pytania te wymagają wiedzy teoretycznej tylko na temat pojęć prawdopodobieństwa. Ankieterzy zadają te pytania, aby uzyskać dogłębne zrozumienie Twojej wiedzy na temat metod i zastosowań prawdopodobieństwa w celu ukończenia złożonych badań danych, zwykle przeprowadzanych w miejscu pracy.

Przykład pytania do wywiadu prawdopodobieństwa

Jest wysoce prawdopodobne, że pytanie, które otrzymasz, polega na obliczeniu prawdopodobieństwa otrzymania określonej karty/liczby z zestawu kości/kart. Wydaje się, że jest to najczęstszy element zadawania pytań w przypadku większości firm w naszym badaniu, ponieważ wiele z nich zadawało tego typu pytania.

Przykład takiego pytanie prawdopodobieństwa z Facebooka:

PYTANIE: „Jakie jest prawdopodobieństwo otrzymania pary przez losowanie dwóch kart osobno w talii 52 kart?”

Oto jak możesz na to odpowiedzieć:

ODPOWIEDŹ: „Pierwsza karta, którą dobierasz, może być dowolna, więc nie wpływa to na wynik poza tym, że w talii pozostała o jedną kartę mniej. Po wylosowaniu pierwszej karty w talii pozostają trzy karty, które można dobrać, aby uzyskać parę. Tak więc szansa na dopasowanie pierwszej karty do pary wynosi 3 z 51 (pozostałe karty). Oznacza to, że prawdopodobieństwo wystąpienia tego zdarzenia wynosi 3/51, czyli 5.89%.

Ponieważ jest to rodzaj „specjalnego” pytania, które dotyczy tylko prawdopodobieństwa, nie zadaje się żadnych innych pojęć. Jedyną różnicą jest to, jak pomysłowe jest to pytanie. Ale w zasadzie zawsze będziesz musiał obliczyć prawdopodobieństwo jakiegoś zdarzenia i pokazać, jak myślisz.

Produkt

Pytania do wywiadu dotyczącego produktu będą wymagały oceny działania produktu/usługi na podstawie danych. Te pytania sprawdzają Twoją wiedzę na temat dostosowywania i wykorzystywania zasad nauki o danych w dowolnym środowisku, tak jak ma to miejsce w codziennej pracy.

Przykład pytania z wywiadu dotyczącego produktu

Najważniejszą koncepcją techniczną w tej kategorii jest identyfikacja produktu firmy i proponowanie ulepszeń z perspektywy analityka danych. Dużą różnorodność koncepcji technicznych testowanych po stronie produktu można wytłumaczyć charakterem pytań dotyczących produktu i wyższym poziomem kreatywności wymaganym do udzielenia na nie odpowiedzi.

Przykład pytanie o produkt z Facebooka byłoby:

PYTANIE: „Jaki jest twój ulubiony produkt na Facebooku i jak byś go ulepszył?”

ODPOWIEDŹ: Ze względu na charakter pytania, pozwolimy Ci odpowiedzieć na nie samodzielnie.

Testowane ogólne koncepcje w dużej mierze zależą od firmy, która przeprowadza z tobą rozmowę kwalifikacyjną. Po prostu upewnij się, że znasz działalność firmy i jej produkty (idealnie, jeśli jesteś również ich użytkownikiem), a wszystko będzie dobrze.

Business Case

Ta kategoria obejmuje studia przypadków i ogólne pytania związane z biznesem, które sprawdzają umiejętność nauki o danych. Znaczenie wiedzy o tym, jak odpowiedzieć na te pytania, może być ogromne, ponieważ niektórzy ankieterzy chcieliby, aby kandydaci wiedzieli, jak zastosować zasady nauki o danych w celu rozwiązania konkretnych problemów firmy przed ich zatrudnieniem.

Przykład pytania biznesowego

Ze względu na charakter tego typu pytań nie mogłem wskazać ani jednej wyróżniającej się koncepcji technicznej. Ponieważ większość pytań tutaj skategoryzowanych to studia przypadków, są one w pewien sposób wyjątkowe.

Jednak oto przykład a pytanie biznesowe od Ubera:

PYTANIE: „Istnieje pula osób, które korzystały z przejazdów Uberem z dwóch położonych blisko siebie miast, na przykład Menlo Park i Palo Alto, i można zebrać wszelkie dane, jakie tylko przyjdą Ci do głowy. Jakie dane zebrałbyś, aby określić miasto, z którego podróżował pasażer?”

ODPOWIEDŹ: „Aby określić miasto, musimy mieć dostęp do lokalizacji/danych geograficznych. Zebrane dane mogą obejmować współrzędne GPS, długość/szerokość geograficzną i kod pocztowy”.

Projekt systemu

Pytania dotyczące projektowania systemów to wszystkie pytania związane z projektowaniem systemów technologicznych. Są proszeni o analizę procesu kandydata w rozwiązywaniu problemów, tworzeniu i projektowaniu systemów pomocy klientom/klientom. Znajomość projektu systemu może być bardzo ważna dla analityka danych; nawet jeśli twoją rolą nie jest projektowanie systemu, najprawdopodobniej będziesz odgrywać rolę w istniejącym systemie i musisz wiedzieć, jak on działa, aby wykonywać swoją pracę.

Przykład pytania do wywiadu dotyczącego projektowania systemu

Te pytania dotyczą różnych tematów i zadań. Ale tym, co się wyróżnia, jest budowanie bazy danych. Analitycy danych codziennie mają do czynienia z bazami danych, więc warto zadać to pytanie, aby sprawdzić, czy możesz zbudować bazę danych od podstaw.

Tutaj jest jeden przykład pytania z Audible odkryte w naszych badaniach:

PYTANIE: „Czy możesz przeprowadzić nas przez proces budowania systemu rekomendacji?”

ODPOWIEDŹ: Ponieważ istnieje tak wiele podejść do odpowiedzi na to pytanie, zostawimy Ci wymyślenie własnego sposobu na zbudowanie jednego.

Ponownie, aby odpowiedzieć na te pytania, niezbędna jest znajomość działalności firmy. Pomyśl trochę o bazach danych, których firma najprawdopodobniej potrzebuje, i spróbuj nieco rozwinąć swoje podejście przed rozmową kwalifikacyjną.

Techniczny

Pytania techniczne to wszystkie pytania, które dotyczą wyjaśnienia różnych koncepcji technicznych związanych z nauką o danych. Pytania techniczne mają charakter teoretyczny i wymagają znajomości technologii, z której będziesz korzystać w firmie. Ze względu na naturę mogą wydawać się podobne do pytań do kodowania. Znajomość teorii stojącej za tym, co robisz, jest dość ważna, dlatego podczas wywiadów często można zadawać pytania techniczne.

Przykład pytania do wywiadu technicznego

Najczęściej testowanym obszarem jest teoretyczna znajomość języka Python i SQL. Nic dziwnego, ponieważ te dwa języki dominują w data science, wraz z R jako uzupełnieniem Pythona.

Przykład rzeczywiste pytanie techniczne od Walmart byłoby:

PYTANIE"Jakie są struktury danych w Pythonie?"

ODPOWIEDŹ: „Struktury danych służą do przechowywania danych. W Pythonie istnieją cztery struktury danych: List, Dictionary, Tuple i Set. To są wbudowane struktury danych. Listy służą do tworzenia list, które mogą zawierać różne typy danych. Słownik to w zasadzie zestaw kluczy; służą do przechowywania wartości z kluczem i pobierania danych za pomocą tego samego klucza. Krotki są tym samym co listy. Różnica polega na tym, że w krotce danych nie można zmienić. Zestaw zawiera elementy nieuporządkowane bez duplikatów. Oprócz wbudowanych struktur danych dostępne są również struktury danych zdefiniowane przez użytkownika”.

To są pytania typu catch-all. Jest to kategoria dla wszystkich pytań, które nie pasują do innych kategorii. W związku z tym nie ma konkretnych pojęć, które pojawiają się częściej lub rzadziej.

Wnioski

Ten przewodnik dotyczący wywiadu z nauką o danych został napisany w celu wsparcia badań podjętych w celu zrozumienia typów pytań zadawanych podczas wywiadu z nauką o danych. Dane z wywiadów są pobierane z kilkudziesięciu firm w okresie czterech lat i analizowane. Pytania zostały podzielone na dziewięć różnych typów pytań (algorytmy, uzasadnienie biznesowe, kodowanie, modelowanie, prawdopodobieństwo, produkt, statystyki, projekt systemu i pytania techniczne).

W ramach analizy omówiłem niektóre z najczęstszych koncepcji technicznych z każdej kategorii typów pytań. Na przykład najczęściej zadawane pytania dotyczące statystyki dotyczą próbkowania i dystrybucji. Każda kategoria pytań jest poparta jednym praktycznym przykładem prawdziwego pytania.

Artykuł ma służyć jako ważny przewodnik do przygotowania rozmowy kwalifikacyjnej lub po prostu dowiedzieć się więcej o data science. Mam nadzieję, że pomogłem Ci poczuć się bardziej komfortowo podczas rozmowy kwalifikacyjnej z nauką o danych. Powodzenia w rozmowach kwalifikacyjnych!

Oryginalny. Przesłane za zgodą.

Związane z:

Źródło: https://www.kdnuggets.com/2021/08/common-data-science-interview-questions-answers.html

Znak czasu:

Więcej z Knuggety