Questions et réponses d'entretien les plus courantes en science des données

Nœud source: 1860815

Blog ArgentQuestions et réponses d'entretien les plus courantes en science des données

Après avoir analysé plus de 900 questions d'entretien sur la science des données posées par des entreprises au cours des dernières années, les catégories de questions d'entretien sur la science des données les plus courantes sont passées en revue dans ce guide, chacune expliquée avec un exemple.


By Nate Rosidi, Data Scientist et Product Manager.

Becoming a data scientist is considered a prestigious trait. Back in 2012, Harvard Business Review called ‘data scientist’ the sexiest job of the 21st century, and the growing trend of roles in the industry seems to be confirming that statement. To confirm this sexiness is still ongoing, the info from Glassdoor shows being a data scientist is the second-best job in America in 2021.

Source : Glassdoor.

Pour obtenir un emploi aussi prestigieux, il faut passer des entretiens d’embauche rigoureux. Les questions posées en matière de science des données peuvent être très vastes et complexes. Cela est prévisible, étant donné que le rôle d’un data scientist englobe généralement de nombreux domaines. Pour vous aider à vous préparer aux entretiens d'embauche en science des données, j'ai examiné toutes les questions applicables et les ai séparées en différentes catégories de questions. Voici comment j’ai procédé.

Description et méthodologie de l'analyse

J'ai collecté des données à partir de divers tableaux de recherche d'emploi, sites Web et plateformes d'évaluation d'entreprises telles que Glassdoor, Indeed, Reddit et Blind App. Pour être plus précis, 903 questions ont été collectées au cours des quatre dernières années.

Les questions sont divisées en catégories prédéterminées. Ces catégories sont le résultat d’une analyse experte de la description de l’expérience d’entretien issue de nos sources.

Les catégories sont les suivantes:

  1. Codage
  2. La modélisation
  3. Algorithmes
  4. Statistique
  5. Probabilité
  6. Produit
  7. Business case
  8. La conception du système
  9. Technique

À quels types de questions d’entretien devez-vous vous attendre ?

Ce graphique vous montre le type de question par catégorie en fonction des données collectées.

Traduit en pourcentages, le graphique ressemble à ceci :

Comme vous pouvez le constater, les questions de codage et de modélisation sont les plus dominantes. Plus de la moitié de toutes les questions proviennent de ce domaine. Ce n’est pas surprenant quand on y pense. Le codage et la modélisation sont probablement les deux compétences les plus importantes pour un data scientist. Les questions de type codage sont très répandues et représentent plus d’un tiers de toutes les questions. D’autres types de questions, comme les algorithmes et les statistiques, sont également assez importants ; 24% de toutes les questions proviennent de ces deux catégories. Les autres catégories ne sont pas aussi représentées. Je trouve cela raisonnable, compte tenu de la nature du rôle de data scientist.

Je souhaite maintenant vous guider à travers chaque catégorie de questions et vous montrer quelques exemples de questions posées.

Les concepts les plus testés sur les questions d'entretien en science des données

Codage​

Comme vous l'avez déjà vu, les questions de codage constituent le sujet le plus important en science des données. De telles questions nécessiteront une sorte de manipulation des données à l’aide du code pour identifier des informations. Les questions sont conçues pour tester la capacité de codage, les compétences en résolution de problèmes et la créativité. Vous le ferez généralement sur un ordinateur ou un tableau blanc.

Exemple de question d'entretien de codage

UN exemple de Microsoft est-ce celui-ci :

QUESTION: « Calculez la part des utilisateurs nouveaux et existants. Sortie du mois, part des nouveaux utilisateurs et part des utilisateurs existants sous forme de ratio. Les nouveaux utilisateurs sont définis comme les utilisateurs qui ont commencé à utiliser les services au cours du mois en cours. Les utilisateurs existants sont les utilisateurs qui ont commencé à utiliser les services au cours du mois en cours et qui ont utilisé les services au cours d'un mois précédent. Supposons que les dates datent toutes de l’année 2020. »

Vous utiliserez la table faits_events, avec les exemples de données ressemblant à ceci :

Pour obtenir le résultat souhaité, vous devez écrire ce code :

avec all_users comme ( SELECT date_part('month', time_id) AS mois, count(DISTINCT user_id) comme all_users FROM fact_events GROUP BY mois),
new_users as ( SELECT date_part('month', new_user_start_date) AS mois, count(DISTINCT user_id) as new_users FROM (SELECT user_id, min(time_id) as new_user_start_date FROM fact_events GROUP BY user_id) sq GROUP BY mois
)
SELECT au.month, new_users / all_users::decimal comme share_new_users, 1- (new_users / all_users::decimal) comme share_existing_users
DE all_users au
REJOIGNEZ new_users nu ON nu.month = au.month 

L'écriture d'un code en SQL est le concept le plus souvent testé en matière de codage. Ce n’est pas une surprise puisque SQL est l’outil le plus utilisé en science des données. L’un des concepts que vous ne pouvez presque pas éviter lors des entretiens est celui des jointures. Assurez-vous donc de connaître la différence entre les différentes jointures et comment les utiliser pour obtenir le résultat souhaité.

De plus, vous pouvez vous attendre à regrouper très souvent des données à l’aide de la clause GROUP BY. Certains autres concepts généralement demandés sont le filtrage des données à l'aide de la clause WHERE et/ou HAVING. Il vous sera également demandé de sélectionner des données distinctes. Et assurez-vous également de connaître les fonctions d'agrégation, telles que SUM(), AVG(), COUNT(), MIN(), MAX().

Certains concepts ne reviennent pas très souvent, mais cela vaut la peine de les mentionner et de se préparer à de telles questions. Par exemple, les expressions de table communes ou CTE sont l'un de ces sujets. L'autre est la clause CASE(). N’oubliez pas non plus de vous rafraîchir la mémoire sur la gestion des types de données de chaîne et des dates.

Modélisation

La modélisation était la deuxième plus grande catégorie de nos données de recherche, avec 20 % de toutes les questions provenant d'ici. Ces questions sont conçues pour tester vos connaissances sur la création de modèles statistiques et la mise en œuvre de modèles d'apprentissage automatique.

Exemple de question d'entretien de modélisation

La régression, le concept de science des données techniques le plus couramment posé lors des entretiens. Ce n’est pas surprenant, compte tenu de la nature de la modélisation statistique.

UN exemple de Galvanize serait le suivant:

QUESTION: « Qu'est-ce que la régularisation en régression ? »

Voici comment vous pourriez répondre à cette question :

RÉPONDRE: « Une régularisation est un type spécial de régression dans lequel les estimations des coefficients sont contraintes (ou régularisées) à zéro. Ce faisant, il est possible de réduire la variance du modèle tout en diminuant l’erreur d’échantillonnage. La régularisation est utilisée pour éviter ou réduire le surapprentissage. Le surajustement se produit lorsque le modèle apprend si bien les données d’entraînement qu’il compromet les performances du modèle sur les nouvelles données. Pour éviter le surajustement, des régularisations Ridge ou Lasso sont généralement utilisées.

Certains des concepts testés régulièrement sont, encore une fois, d'autres concepts d'analyse de régression, tels que la régression logistique, la régression logistique bayésienne et les classificateurs naïfs de Bayes. Vous pouvez également être interrogé sur les forêts aléatoires, ainsi que sur les modèles de test et d'évaluation.

Algorithmes

Les questions sur les algorithmes sont toutes des questions qui nécessitent de résoudre un problème mathématique, principalement via du code en utilisant l'un des langages de programmation. Ces questions impliquent un processus étape par étape, nécessitant généralement un ajustement ou un calcul pour produire une réponse. Ces questions testent les connaissances de base en résolution de problèmes et en manipulation de données, qui peuvent être mises en œuvre pour des problèmes complexes au travail.

Exemple de question d'entretien d'algorithme

Le concept technique le plus testé dans le cadre des algorithmes consiste à résoudre un problème mathématique ou syntaxique avec un langage de programmation.

Voici un exemple que vous pouvez trouver sur Leetcode:

QUESTION: “You are given two non-empty linked lists representing two non-negative integers. The digits are stored in reverse order, and each of their nodes contains a single digit. Add the two numbers and return the sum as a linked list.”

L'exemple des données pourrait ressembler à ceci :

Source : Leetcode.

RÉPONDRE: Le code écrit en Java doit être :

public ListNode addTwoNumbers (ListNode l1, ListNode l2) { ListNode dummyHead = new ListNode (0); ListNode p = l1, q = l2, curr = dummyHead ; int porter = 0; while (p != null || q != null) { int x = (p != null) ? p.val : 0; int y = (q != nul) ? q.val : 0; somme int = porter + x + y ; report = somme / 10 ; curr.next = new ListNode (somme % 10); curr = curr.next; si (p != null) p = p.next; si (q != null) q = q.next; } if (carry > 0) { curr.next = new ListNode(carry); } return dummyHead.next;
} 

Les autres concepts généraux souvent testés par ce type de questions sont les tableaux, la programmation dynamique, les chaînes, l'algorithme glouton, la recherche en profondeur d'abord, l'arbre, la table de hachage et la recherche binaire.

Statistique

Les questions d'entretien statistiques sont des questions testant la connaissance de la théorie statistique et des principes associés. Ces questions visent à évaluer dans quelle mesure vous êtes familier avec les principes théoriques fondateurs de la science des données. Être capable de comprendre le contexte théorique et mathématique des analyses effectuées est important. Répondez bien à ces questions et chaque intervieweur vous appréciera.

Exemple de question d'entretien statistique

Le concept technique le plus évoqué est celui de l’échantillonnage et de la distribution. Pour un data scientist, il s’agit de l’un des principes statistiques les plus couramment utilisés et mis en œuvre quotidiennement.

Par exemple, une question d'entretien d'IBM demande:

QUESTION: « Quel est un exemple de type de données avec une distribution non gaussienne ? »

Pour répondre à la question, vous pouvez d'abord définir une distribution gaussienne. Ensuite, vous pouvez suivre cela en donnant des exemples de distribution non gaussienne. Quelque chose comme ça:

RÉPONDRE: « Une distribution gaussienne est une distribution dans laquelle un certain pourcentage connu des données peut être trouvé lors de l'examen des écarts types par rapport à la moyenne, également connue sous le nom de distribution normale. Certains des exemples de distribution non gaussienne peuvent être une distribution exponentielle ou une distribution binomiale.

Lors de la préparation de l'entretien d'embauche, assurez-vous de couvrir également les sujets suivants : la variance et l'écart type, la covariance et la corrélation, la valeur p, la moyenne et la médiane, les tests d'hypothèse et les statistiques bayésiennes. Ce sont tous des concepts dont vous aurez besoin en tant que data scientist, alors attendez-vous également à les retrouver lors des entretiens d’embauche.

Probabilité

Ces questions nécessitent des connaissances théoriques uniquement sur les concepts de probabilité. Les enquêteurs posent ces questions pour bien comprendre vos connaissances sur les méthodes et les utilisations des probabilités pour réaliser les études de données complexes habituellement effectuées sur le lieu de travail.

Exemple de question d'entretien probabiliste

Il est très probable, jeu de mots, que la question qui vous sera posée sera de calculer la probabilité d’obtenir une certaine carte/un certain numéro à partir d’un jeu de dés/de cartes. Cela semble être l’élément de questionnement le plus courant pour la plupart des entreprises dans notre recherche, car nombre d’entre elles ont posé ce type de questions.

Un exemple d'un tel question de probabilité de Facebook:

QUESTION: "Quelle est la probabilité d'obtenir une paire en piochant deux cartes séparément dans un jeu de 52 cartes ?"

Voici comment vous pouvez répondre à cette question :

RÉPONDRE: « La première carte que vous piochez peut être n'importe laquelle, elle n'a donc aucun impact sur le résultat, si ce n'est qu'il reste une carte de moins dans le jeu. Une fois la première carte tirée, il reste trois cartes dans le jeu qui peuvent être tirées pour obtenir une paire. Ainsi, la chance de faire correspondre votre première carte avec une paire est de 3 sur 51 (cartes restantes). Cela signifie que la probabilité que cet événement se produise est de 3/51 ou 5.89 %.

Puisqu’il s’agit d’une sorte de question « spécialisée » qui ne porte que sur les probabilités, aucun autre concept n’est posé. La seule différence réside dans l’imagination de la question. Mais fondamentalement, vous devrez toujours calculer la probabilité d’un événement et montrer votre réflexion.

Produit

Les questions d'entretien sur les produits vous demanderont d'évaluer les performances d'un produit/service à l'aide de données. Ces questions testent vos connaissances sur l'adaptation et l'utilisation des principes de la science des données dans n'importe quel environnement, comme c'est le cas dans le travail quotidien.

Exemple de question d'entretien sur le produit

Le concept technique le plus important dans cette catégorie consiste à identifier le produit d’une entreprise et à proposer des améliorations du point de vue d’un data scientist. La grande diversité des concepts techniques testés du côté des produits peut s'expliquer par la nature des questions relatives aux produits et par le niveau plus élevé de créativité requis pour y répondre.

Un exemple d'une question produit de Facebook serait:

QUESTION: « Quel est votre produit Facebook préféré et comment l'amélioreriez-vous ? »

RÉPONDRE: En raison de la nature de la question, nous vous laisserons répondre vous-même à celle-ci.

Les concepts généraux testés dépendent fortement de l’entreprise qui vous interviewe. Assurez-vous simplement que vous connaissez les activités de l’entreprise et ses produits (idéalement, vous êtes également leur utilisateur), et tout ira bien.

Business Case

Cette catégorie comprend des études de cas et des questions génériques liées à l'entreprise qui testeraient une compétence en science des données. L’importance de savoir comment répondre à ces questions peut être énorme, car certains intervieweurs aimeraient que les candidats sachent comment appliquer les principes de la science des données pour résoudre les problèmes spécifiques d’une entreprise avant de les embaucher.

Exemple de question de rentabilisation

En raison de la nature du type de question, je n’ai pas pu identifier un seul concept technique qui ressort. Étant donné que la plupart des questions classées ici sont des études de cas, elles sont uniques d’une certaine manière.

Voici cependant un exemple de question d'analyse de rentabilisation d'Uber:

QUESTION: « Il existe un groupe de personnes qui ont emprunté des trajets Uber depuis deux villes proches, par exemple Menlo Park et Palo Alto, et toutes les données imaginables pourraient être collectées. Quelles données collecteriez-vous pour déterminer la ville à partir de laquelle le passager a pris son trajet ? »

RÉPONDRE: « Pour déterminer la ville, nous devons avoir accès aux données de localisation/géographiques. Les données collectées peuvent être les coordonnées GPS, la longitude/latitude et le code postal.

Conception d'un système

Les questions de conception de systèmes sont toutes des questions liées à la conception de systèmes technologiques. Il leur est demandé d’analyser le processus du candidat pour résoudre des problèmes, créer et concevoir des systèmes pour aider les clients. Connaître la conception du système peut être très important pour un data scientist ; même si votre rôle n’est pas de concevoir un système, vous jouerez très probablement un rôle dans un système établi et aurez besoin de savoir comment il fonctionne pour pouvoir effectuer votre travail.

Exemple de question d'entretien sur la conception du système

Ces questions couvrent différents sujets et tâches. Mais celui qui ressort est la création d’une base de données. Les data scientists traitent quotidiennement des bases de données, il est donc logique de poser cette question pour voir si vous pouvez créer une base de données à partir de zéro.

En voici un exemple de question d'Audible découverts dans nos recherches :

QUESTION: « Pouvez-vous nous expliquer comment vous créeriez un système de recommandation ? »

RÉPONDRE: Puisqu’il existe une grande variété d’approches pour répondre à cette question, nous vous laissons trouver votre propre façon d’en construire une.

Là encore, pour répondre à ces questions, il est essentiel de connaître le métier de l’entreprise. Réfléchissez un peu aux bases de données dont l'entreprise a très probablement besoin et essayez d'élaborer un peu votre approche avant l'entretien.

Technique

Les questions techniques sont toutes des questions qui portent sur l'explication de divers concepts techniques de la science des données. Les questions techniques sont théoriques et nécessitent une connaissance de la technologie que vous utiliserez dans l'entreprise. De par leur nature, elles peuvent ressembler à des questions de codage. Connaître la théorie derrière ce que vous faites est très important, c'est pourquoi des questions techniques peuvent souvent être posées lors des entretiens.

Exemple de question d'entretien technique

Le domaine le plus testé est la connaissance théorique de Python et SQL. Pas étonnant, puisque ces deux langages sont dominants en science des données, aux côtés de R pour compléter Python.

Un exemple d'une question technique réelle de Walmart serait:

QUESTION« Quelles sont les structures de données en Python ? »

RÉPONDRE: « Les structures de données sont utilisées pour stocker des données. Il existe quatre structures de données en Python : Liste, Dictionnaire, Tuple et Set. Ce sont les structures de données intégrées. Les listes sont utilisées pour créer des listes pouvant contenir différents types de données. Le dictionnaire est essentiellement un ensemble de clés ; ils sont utilisés pour stocker une valeur avec une clé et obtenir les données en utilisant la même clé. Les tuples sont identiques aux listes. La différence est que dans un tuple, les données ne peuvent pas être modifiées. L'ensemble contient les éléments non ordonnés sans doublons. Outre les structures de données intégrées, il existe également les structures de données définies par l'utilisateur.

Ce sont des types de questions fourre-tout. C’est une catégorie pour toutes les questions qui ne peuvent pas rentrer clairement dans d’autres catégories. De ce fait, il n’y a pas de concepts spécifiques qui reviennent plus ou moins souvent.

Conclusion

Ce guide d'entretien en science des données a été rédigé pour soutenir les recherches entreprises pour comprendre les types de questions posées lors d'un entretien en science des données. Les données des questions d’entretien sont collectées auprès de dizaines d’entreprises sur une période de quatre ans et analysées. Les questions ont été classées en neuf types de questions différents (algorithmes, analyse de rentabilisation, codage, modélisation, probabilités, produits, statistiques, conception de systèmes et questions techniques).

Dans le cadre de l'analyse, j'ai parlé de certains des concepts techniques les plus courants de chaque catégorie de type de questions. Par exemple, les questions statistiques les plus posées concernent l’échantillonnage et la distribution. Chaque catégorie de question est étayée par un exemple pratique de la vraie question.

L'article est destiné à vous servir de guide important pour la préparation des entretiens ou simplement pour en apprendre davantage sur la science des données. J'espère vous avoir aidé à vous sentir plus à l'aise avec le processus d'entretien en science des données. Bonne chance pour vos entretiens !

ORIGINALE. Republié avec permission.

Connexe:

Source : https://www.kdnuggets.com/2021/08/common-data-science-interview-questions-answers.html

Horodatage:

Plus de KDnuggetsGenericName