Domande e risposte per le interviste più comuni sulla scienza dei dati

Nodo di origine: 1860815

Blog d'argentoDomande e risposte per le interviste più comuni sulla scienza dei dati

Dopo aver analizzato oltre 900 domande di interviste di data science poste da aziende negli ultimi anni, in questa guida vengono esaminate le categorie di domande di interviste di data science più comuni, ognuna spiegata con un esempio.


By Nato Rosidi, Data Scientist e Product Manager.

Diventare un data scientist è considerato un tratto prestigioso. Nel 2012, l'Harvard Business Review definì il "data scientist" il lavoro più sexy del 21° secolo, e la crescente tendenza dei ruoli nel settore sembra confermare questa affermazione. Per confermare che questa sensualità è ancora in corso, le informazioni di Glassdoor mostrano che essere un data scientist è il secondo miglior lavoro in America nel 2021.

Fonte: Glassdoor.

Per ottenere un lavoro così prestigioso, devi superare rigorosi colloqui di lavoro. Le domande sulla scienza dei dati poste possono essere molto ampie e complesse. Questo è previsto, considerando che il ruolo di un data scientist di solito comprende così tante aree. Per aiutarti a prepararti per i colloqui di lavoro nel campo della scienza dei dati, ho esaminato tutte le domande pertinenti e le ho suddivise in diverse categorie di domande. Ecco come l'ho fatto.

Descrizione e metodologia dell'analisi

Ho raccolto dati da varie bacheche di ricerca di lavoro e siti Web e piattaforme di recensioni aziendali come Glassdoor, Indeed, Reddit e Blind App. Per essere più precisi, sono 903 le domande raccolte negli ultimi quattro anni.

Le domande sono suddivise in categorie predeterminate. Queste categorie sono il risultato di un'analisi esperta della descrizione dell'esperienza di intervista presa dalle nostre fonti.

Le categorie sono:

  1. codifica
  2. Modellazione
  3. Algoritmi
  4. Statistiche
  5. Probabilità
  6. Prodotto
  7. Caso aziendale
  8. Design di sistema
  9. Consulenza

Quali tipi di domande di intervista dovresti aspettarti?

Questo grafico mostra il tipo di domanda per categoria in base ai dati raccolti.

Tradotto in percentuale, il grafico si presenta così:

Come puoi vedere, le domande di codifica e modellazione sono le più dominanti. Più della metà di tutte le domande provengono da quella zona. Non è sorprendente se ci pensi. La codifica e la modellazione sono probabilmente le due abilità più importanti per un data scientist. Le domande di tipo codifica sono molto diffuse e comprendono più di un terzo di tutte le domande. Anche altri tipi di domande, come algoritmi e statistiche, sono abbastanza significativi; Il 24% di tutte le domande proviene da queste due categorie. Altre categorie non sono rappresentate. Lo trovo ragionevole, considerando la natura di un ruolo di data scientist.

Ora voglio guidarti attraverso ogni categoria di domande e mostrarti alcuni esempi delle domande poste.

I concetti più testati sulle domande di intervista di data science

Codifica

Come hai già visto, le domande di codifica sono l'argomento più importante nella scienza dei dati. Tali domande richiederanno una sorta di manipolazione dei dati utilizzando il codice per identificare gli approfondimenti. Le domande sono progettate per testare la capacità di codifica, le capacità di risoluzione dei problemi e la creatività. Di solito lo farai su un computer o una lavagna.

Esempio di domanda di intervista di codifica

Uno esempio da Microsoft è questo:

DOMANDA: “Calcola la quota di utenti nuovi ed esistenti. Emetti il ​​mese, la quota di nuovi utenti e la quota di utenti esistenti come rapporto. I nuovi utenti sono definiti come utenti che hanno iniziato a utilizzare i servizi nel mese corrente. Gli utenti esistenti sono utenti che hanno iniziato a utilizzare i servizi nel mese corrente e hanno utilizzato i servizi in qualsiasi mese precedente. Supponiamo che le date siano tutte dell'anno 2020.

Userai il tavolo fatti_eventi, con i dati di esempio simili a questi:

Per ottenere l'output desiderato, dovresti scrivere questo codice:

con all_users as ( SELECT date_part('month', time_id) AS mese, count(DISTINCT user_id) as all_users FROM fact_events GROUP BY month), new_users as ( SELECT date_part('month', new_user_start_date) AS month, count(DISTINCT user_id) as new_users FROM (SELECT user_id, min(time_id) as new_user_start_date FROM fact_events GROUP BY user_id) sq GROUP BY month ) SELECT au.month, new_users / all_users::decimal as share_new_users, 1- (new_users / all_users::decimal) as share_existing_users FROM all_users au ISCRIVITI new_users nu ON nu.month = au.month 

Scrivere un codice in SQL è il concetto più spesso testato quando si tratta di codifica. Non è una sorpresa poiché SQL è stato lo strumento più utilizzato nella scienza dei dati. Uno dei concetti che quasi non puoi evitare nelle interviste sono i join. Quindi assicurati di conoscere la differenza tra diversi join e come usarli per ottenere il risultato richiesto.

Inoltre, puoi aspettarti di raggruppare i dati utilizzando la clausola GROUP BY molto spesso. Alcuni altri concetti che di solito vengono richiesti sono il filtraggio dei dati utilizzando la clausola WHERE e/o HAVING. Ti verrà anche chiesto di selezionare dati distinti. Inoltre, assicurati di conoscere le funzioni di aggregazione, come SUM(), AVG(), COUNT(), MIN(), MAX().

Alcuni concetti non ricorrono molto spesso, ma vale la pena menzionarli ed essere preparati a tali domande. Ad esempio, le espressioni di tabella comuni o CTE sono uno di questi argomenti. L'altro è la clausola CASE(). Inoltre, non dimenticare di rinfrescare la memoria sulla gestione dei tipi di dati e delle date delle stringhe.

Modeling

La modellazione era la seconda categoria più grande nei nostri dati di ricerca, con il 20% di tutte le domande provenienti da qui. Queste domande sono progettate per testare la tua conoscenza della creazione di modelli statistici e dell'implementazione di modelli di machine learning.

Esempio di domanda di intervista di modellazione

Regressione, il concetto di scienza dei dati tecnici più comune chiesto nelle interviste. Non è sorprendente, considerando la natura della modellazione statistica.

Uno esempio da Galvanize sarebbe il seguente:

DOMANDA: "Cos'è la regolarizzazione nella regressione?"

Ecco come potresti rispondere a questa domanda:

RISPOSTA: “Una regolarizzazione è un tipo speciale di regressione in cui le stime dei coefficienti sono vincolate (o regolarizzate) a zero. In questo modo, è possibile ridurre la varianza del modello riducendo allo stesso tempo l'errore di campionamento. La regolarizzazione viene utilizzata per evitare o ridurre l'overfitting. L'overfitting si verifica quando il modello apprende i dati di addestramento così bene da compromettere le prestazioni del modello sui nuovi dati. Per evitare l'overfitting, vengono solitamente utilizzate le regolarizzazioni Ridge o Lasso.

Alcuni dei concetti testati regolarmente sono, ancora una volta, altri concetti di analisi di regressione, come la regressione logistica, la regressione logistica bayesiana e i classificatori ingenui di Bayes. È inoltre possibile chiedere informazioni sulle foreste casuali, nonché sul test e sulla valutazione dei modelli.

Algoritmi

Le domande sugli algoritmi sono tutte domande che richiedono la risoluzione di un problema matematico, principalmente attraverso il codice utilizzando uno dei linguaggi di programmazione. Queste domande implicano un processo graduale, che di solito richiede aggiustamenti o calcoli per produrre una risposta. Queste domande mettono alla prova le conoscenze di base della risoluzione dei problemi e della manipolazione dei dati, che possono essere implementate per problemi complessi sul lavoro.

Esempio di domanda di intervista sull'algoritmo

Il concetto tecnico più testato con gli algoritmi è risolvere un problema matematico o di sintassi con un linguaggio di programmazione.

Qui è un esempio che puoi trovare su Leetcode:

DOMANDA: “Ti vengono fornite due liste collegate non vuote che rappresentano due numeri interi non negativi. Le cifre sono memorizzate in ordine inverso e ciascuno dei loro nodi contiene una singola cifra. Aggiungi i due numeri e restituisci la somma come un elenco collegato.

L'esempio dei dati potrebbe essere qualcosa del genere:

Fonte: Leetcode.

RISPOSTA: Il codice scritto in Java dovrebbe essere:

public ListNode addTwoNumbers(ListNode l1, ListNode l2) { ListNode dummyHead = new ListNode(0); ListNode p = l1, q = l2, curr = dummyHead; int riporto = 0; while (p != null || q != null) { int x = (p != null) ? p.val : 0; int y = (q != null) ? q.val : 0; int somma = riporto + x + y; riporto = somma / 10; curr.next = new ListNode(somma % 10); curr = curr.successivo; if (p != null) p = p.next; if (q != null) q = q.next; } if (carry > 0) { curr.next = new ListNode(carry); } return dummyHead.next; } 

Gli altri concetti generali spesso testati da questo tipo di domande sono gli array, la programmazione dinamica, le stringhe, l'algoritmo greedy, la ricerca in profondità, l'albero, la tabella hash e la ricerca binaria.

Statistiche

Le domande dell'intervista statistica sono domande che mettono alla prova la conoscenza della teoria statistica e dei principi associati. Queste domande intendono verificare la tua familiarità con i principi teorici alla base della scienza dei dati. Essere in grado di comprendere il background teorico e matematico delle analisi in corso è importante. Rispondi bene a queste domande e ogni intervistatore ti apprezzerà.

Esempio di domanda di intervista statistica

Il concetto tecnico più menzionato è il campionamento e la distribuzione. Per un data scientist, questo è uno dei principi statistici più comunemente usati che il data scientist implementa quotidianamente.

Per esempio, una domanda di intervista da IBM chiede:

DOMANDA: "Qual è un esempio di un tipo di dati con una distribuzione non gaussiana?"

Per rispondere alla domanda, potresti prima definire una distribuzione gaussiana. Quindi potresti seguirlo fornendo esempi della distribuzione non gaussiana. Qualcosa come questo:

RISPOSTA: “Una distribuzione gaussiana è una distribuzione in cui è possibile trovare una certa percentuale nota dei dati quando si esaminano le deviazioni standard dalla media, altrimenti nota come distribuzione normale. Alcuni degli esempi di distribuzione non gaussiana possono essere la distribuzione esponenziale o la distribuzione binomiale.

Quando ti prepari per il colloquio di lavoro, assicurati di trattare anche i seguenti argomenti: varianza e deviazione standard, covarianza e correlazione, valore p, media e mediana, test di ipotesi e statistica bayesiana. Questi sono tutti concetti di cui avrai bisogno come data scientist, quindi aspettali anche nei colloqui di lavoro.

Probabilità

Queste domande richiedono conoscenze teoriche solo sui concetti di probabilità. Gli intervistatori pongono queste domande per ottenere una profonda comprensione delle tue conoscenze sui metodi e gli usi della probabilità per completare i complessi studi sui dati solitamente eseguiti sul posto di lavoro.

Esempio di domanda di intervista sulla probabilità

È altamente probabile, gioco di parole, che la domanda che otterrai sia calcolare la probabilità di ottenere una determinata carta/numero da un set di dadi/carte. Questo sembra essere l'elemento di domanda più comune per la maggior parte delle aziende nella nostra ricerca, poiché molte di loro hanno posto questo tipo di domande.

Un esempio di tale a domanda di probabilità da Facebook:

DOMANDA: "Qual è la probabilità di ottenere una coppia pescando due carte separatamente in un mazzo da 52 carte?"

Ecco come puoi rispondere:

RISPOSTA: “La prima carta che peschi può essere qualsiasi cosa, quindi non influisce sul risultato se non che è rimasta una carta in meno nel mazzo. Una volta pescata la prima carta, ci sono tre carte rimanenti nel mazzo che possono essere pescate per ottenere una coppia. Quindi, la possibilità di abbinare la tua prima carta con una coppia è di 3 su 51 (carte rimanenti). Ciò significa che la probabilità che questo evento si verifichi è 3/51 o 5.89%”.

Trattandosi di una sorta di domanda “specializzata” che tratta solo di probabilità, non vengono richiesti altri concetti. L'unica differenza è quanto sia fantasiosa la domanda. Ma fondamentalmente, dovrai sempre calcolare la probabilità di qualche evento e mostrare il tuo pensiero.

Prodotto

Le domande dell'intervista sul prodotto ti chiederanno di valutare le prestazioni di un prodotto/servizio attraverso i dati. Queste domande mettono alla prova la tua conoscenza dell'adattamento e dell'utilizzo dei principi della scienza dei dati in qualsiasi ambiente, come nel caso del lavoro quotidiano.

Esempio di domanda di intervista sul prodotto

Il concetto tecnico più importante in questa categoria è l'identificazione del prodotto di un'azienda e la proposta di miglioramenti dal punto di vista di un data scientist. L'elevata varianza nei concetti tecnici testati sul lato del prodotto può essere spiegata dalla natura delle domande sul prodotto e dal livello più elevato di creatività richiesto per rispondere a queste.

Un esempio di a domanda sul prodotto da Facebook sarebbe:

DOMANDA: "Qual è il tuo prodotto Facebook preferito e come lo miglioreresti?"

RISPOSTA: A causa della natura della domanda, ti lasceremo rispondere tu stesso.

I concetti generali testati dipendono fortemente dall'azienda che ti sta intervistando. Assicurati solo di avere familiarità con l'attività dell'azienda e i suoi prodotti (idealmente, sei anche il loro utente) e starai bene.

Business Case

Questa categoria include case study e domande generiche relative all'attività che metterebbero alla prova un'abilità di data science. L'importanza di sapere come rispondere a queste domande può essere enorme poiché alcuni intervistatori vorrebbero che i candidati sapessero come applicare i principi della scienza dei dati per risolvere i problemi specifici di un'azienda prima di assumerli.

Esempio di domanda di caso aziendale

A causa della natura del tipo di domanda, non sono riuscito a identificare un singolo concetto tecnico che si distingua. Poiché la maggior parte delle domande classificate qui sono casi di studio, sono uniche in un certo modo.

Tuttavia, ecco un esempio di a domanda di business case da parte di Uber:

DOMANDA: “C'è un pool di persone che ha preso corse Uber da due città vicine, ad esempio Menlo Park e Palo Alto, e tutti i dati a cui potresti pensare potrebbero essere raccolti. Quali dati raccoglieresti in modo da poter determinare la città da cui il passeggero ha preso un passaggio?

RISPOSTA: “Per determinare la città, dobbiamo avere accesso alla posizione/dati geografici. I dati raccolti potrebbero essere coordinate GPS, longitudine/latitudine e codice postale.

Sistema di design

Le domande sulla progettazione di sistemi sono tutte domande relative alla progettazione di sistemi tecnologici. Viene chiesto loro di analizzare il processo del candidato nel risolvere problemi, creare e progettare sistemi per aiutare i clienti/clienti. Conoscere la progettazione del sistema può essere molto importante per un data scientist; anche se il tuo ruolo non è quello di progettare un sistema, molto probabilmente giocherai un ruolo in un sistema consolidato e avrai bisogno di sapere come funziona per svolgere il tuo lavoro.

Esempio di domanda di intervista sulla progettazione del sistema

Queste domande coprono diversi argomenti e attività. Ma quello che spicca è la costruzione di un database. I data scientist si occupano quotidianamente di database, quindi ha senso porre questa domanda per vedere se è possibile creare un database da zero.

Eccone uno esempio di domanda da Audible scoperto nella nostra ricerca:

DOMANDA: "Puoi spiegarci come costruiresti un sistema di raccomandazioni?"

RISPOSTA: Poiché esiste una tale varietà di approcci per rispondere a questa domanda, ti lasceremo trovare il tuo modo di costruirne uno.

Anche in questo caso, per rispondere a queste domande, è essenziale conoscere l'attività dell'azienda. Pensa un po' ai database di cui l'azienda molto probabilmente ha bisogno e cerca di elaborare il tuo approccio un po' prima del colloquio.

Consulenza

Le domande tecniche sono tutte domande che riguardano la spiegazione di vari concetti tecnici di data science. Le domande tecniche sono teoriche e richiedono la conoscenza della tecnologia che utilizzerai in azienda. A causa della natura, possono sembrare simili alle domande di codifica. Conoscere la teoria alla base di ciò che stai facendo è piuttosto importante, quindi spesso durante le interviste possono essere poste domande tecniche.

Esempio di domanda di colloquio tecnico

L'area più testata è la conoscenza teorica di Python e SQL. Non sorprende, dal momento che questi due linguaggi sono dominanti nella scienza dei dati, insieme a R per completare Python.

Un esempio di a domanda tecnica del mondo reale da Walmart sarebbe:

DOMANDA"Quali sono le strutture dati in Python?"

RISPOSTA: “Le strutture dati sono utilizzate per memorizzare i dati. Esistono quattro strutture dati in Python: List, Dictionary, Tuple e Set. Quelle sono le strutture dati integrate. Gli elenchi vengono utilizzati per creare elenchi che possono contenere diversi tipi di dati. Il dizionario è fondamentalmente un insieme di chiavi; vengono utilizzati per memorizzare un valore con una chiave e ottenere i dati utilizzando la stessa chiave. Le tuple sono le stesse delle liste. La differenza è che in una tupla i dati non possono essere modificati. Il set contiene gli elementi non ordinati senza duplicati. Insieme alle strutture dati integrate, ci sono anche le strutture dati definite dall'utente.

Questi sono tutti i tipi di domande. È una categoria per tutte le domande che non possono rientrare perfettamente in altre categorie. Per questo motivo, non ci sono concetti specifici che si verificano più o meno spesso.

Conclusione

Questa guida ai colloqui di data science è stata scritta per supportare la ricerca intrapresa per comprendere i tipi di domande poste durante un colloquio di data science. I dati delle domande dell'intervista vengono presi da dozzine di aziende in un periodo di quattro anni e analizzati. Le domande sono state classificate in nove diversi tipi di domande (algoritmi, casi aziendali, codifica, modellazione, probabilità, prodotto, statistiche, progettazione del sistema e domande tecniche).

Come parte dell'analisi, ho parlato di alcuni dei concetti tecnici più comuni di ogni categoria di tipo di domanda. Ad esempio, le domande statistiche più frequenti hanno a che fare con il campionamento e la distribuzione. Ogni categoria di domande è supportata da un esempio pratico della vera domanda.

L'articolo ha lo scopo di servirti come guida importante per la preparazione del colloquio o semplicemente per saperne di più sulla scienza dei dati. Spero di averti aiutato a sentirti più a tuo agio riguardo al processo di intervista sulla scienza dei dati. Buona fortuna con le tue interviste!

Originale. Ripubblicato con il permesso.

Correlato:

Fonte: https://www.kdnuggets.com/2021/08/common-data-science-interview-questions-answers.html

Timestamp:

Di più da KDnuggets