Preguntas y respuestas más comunes de entrevistas sobre ciencia de datos

Nodo de origen: 1860815

Blog de plataPreguntas y respuestas más comunes de entrevistas sobre ciencia de datos

Después de analizar más de 900 preguntas de entrevistas de ciencia de datos de empresas en los últimos años, en esta guía se revisan las categorías de preguntas de entrevistas de ciencia de datos más comunes, cada una explicada con un ejemplo.


By Nate Rosidi, Data Scientist y Product Manager.

Convertirse en científico de datos se considera un rasgo prestigioso. En 2012, Harvard Business Review llamó al "científico de datos" el trabajo más sexy del siglo XXI, y la creciente tendencia de roles en la industria parece confirmar esa afirmación. Para confirmar que esta sensualidad aún continúa, la información de Glassdoor muestra que ser científico de datos es el segundo mejor trabajo en Estados Unidos en 21.

Fuente: Glassdoor.

Para conseguir un trabajo tan prestigioso, hay que pasar por rigurosas entrevistas de trabajo. Las preguntas sobre ciencia de datos que se formulan pueden ser muy amplias y complejas. Esto es de esperar, teniendo en cuenta que el papel de un científico de datos suele incorporar tantas áreas. Para ayudarlo a prepararse para las entrevistas de trabajo en ciencia de datos, revisé todas las preguntas aplicables y las separé en diferentes categorías de preguntas. Así es como lo hice.

Descripción y Metodología del Análisis

Reuní datos de varios foros de búsqueda de empleo y sitios web y plataformas de reseñas de empresas como Glassdoor, Indeed, Reddit y Blind App. Para ser más precisos, se han recopilado 903 preguntas durante los últimos cuatro años.

Las preguntas se dividen en categorías predeterminadas. Estas categorías son el resultado de un análisis experto de la descripción de la experiencia de la entrevista tomada de nuestras fuentes.

Las categorías son:

  1. Codificación
  2. Modelado
  3. Algoritmos
  4. Estadística
  5. Probabilidad
  6. Producto
  7. Caso comercial
  8. El diseño del sistema
  9. Técnico

¿Qué tipos de preguntas de la entrevista debería esperar?

Este gráfico le muestra el tipo de pregunta por categoría según los datos recopilados.

Traducido a porcentajes, el gráfico se ve así:

Como puede ver, las preguntas de codificación y modelado son las más dominantes. Más de la mitad de todas las preguntas provienen de esa área. No es sorprendente si lo piensas. La codificación y el modelado son probablemente las dos habilidades más importantes de un científico de datos. Las preguntas de tipo codificación están muy extendidas y comprenden más de un tercio de todas las preguntas. Otros tipos de preguntas, como algoritmos y estadísticas, también son bastante importantes; El 24% de todas las preguntas provienen de estas dos categorías. Otras categorías no están tan representadas. Lo encuentro razonable, considerando la naturaleza del rol de científico de datos.

Ahora quiero guiarte a través de cada categoría de preguntas y mostrarte algunos ejemplos de las preguntas que se hacen.

Los conceptos más probados sobre las preguntas de la entrevista sobre ciencia de datos

Codificación

Como ya vio, las preguntas sobre codificación son el tema más importante en la ciencia de datos. Estas preguntas requerirán algún tipo de manipulación de datos utilizando el código para identificar ideas. Las preguntas están diseñadas para evaluar la capacidad de codificación, la capacidad de resolución de problemas y la creatividad. Normalmente lo harás en una computadora o una pizarra.

Ejemplo de pregunta de entrevista de codificación

Un ejemplo de Microsoft es este:

PREGUNTA: “Calcule la proporción de usuarios nuevos y existentes. Genere el mes, la proporción de nuevos usuarios y la proporción de usuarios existentes como proporción. Los nuevos usuarios se definen como usuarios que comenzaron a utilizar los servicios en el mes actual. Los usuarios existentes son usuarios que comenzaron a utilizar los servicios en el mes actual y utilizaron los servicios en cualquier mes anterior. Supongamos que todas las fechas son del año 2020”.

Estarás usando la mesa hechos_eventos, con los datos de muestra parecidos a estos:

Para obtener el resultado deseado, debe escribir este código:

con todos_usuarios como (SELECT date_part('mes', time_id) COMO mes, contar(DISTINCT user_id) como all_users FROM fact_events GROUP BY mes), new_users as (SELECT date_part('mes', new_user_start_date) COMO mes, contar(DISTINCT user_id) como nuevos_usuarios FROM (SELECT user_id, min(time_id) as new_user_start_date FROM fact_events GROUP BY user_id) sq GROUP BY mes ) SELECCIONE au.month, new_users / all_users::decimal as share_new_users, 1- (new_users / all_users::decimal) as share_existing_users FROM all_users au JOIN new_users nu ON nu.mes = au.mes 

Escribir un código en SQL es el concepto que se prueba con más frecuencia cuando se trata de codificación. No sorprende que SQL haya sido la herramienta más utilizada en la ciencia de datos. Uno de los conceptos que casi no puedes evitar en las entrevistas son las uniones. Así que asegúrese de conocer la diferencia entre las diferentes uniones y cómo usarlas para obtener el resultado requerido.

Además, puede esperar agrupar datos utilizando la cláusula GROUP BY con mucha frecuencia. Algunos otros conceptos que generalmente se preguntan son el filtrado de datos usando la cláusula WHERE y/o HAVING. También se le pedirá que seleccione datos distintos. Y también, asegúrese de conocer las funciones agregadas, como SUM(), AVG(), COUNT(), MIN(), MAX().

Algunos conceptos no aparecen con tanta frecuencia, pero vale la pena mencionarlos y estar preparado para este tipo de preguntas. Por ejemplo, las expresiones de tabla comunes o CTE son uno de esos temas. La otra es la cláusula CASE(). Además, no olvide actualizar su memoria sobre el manejo de fechas y tipos de datos de cadenas.

Modelado

El modelado fue la segunda categoría más grande en los datos de nuestra investigación, con el 20% de todas las preguntas provenientes de aquí. Estas preguntas están diseñadas para poner a prueba sus conocimientos sobre la creación de modelos estadísticos y la implementación de modelos de aprendizaje automático.

Ejemplo de pregunta de entrevista de modelado

Regresión, el concepto de ciencia de datos técnicos más común que se pregunta en las entrevistas. No es sorprendente, considerando la naturaleza del modelo estadístico.

Un ejemplo de Galvanizar sería el siguiente:

PREGUNTA: "¿Qué es la regularización en regresión?"

Así es como podrías responder esta pregunta:

RESPONDER: “Una regularización es un tipo especial de regresión en la que las estimaciones de los coeficientes se limitan (o regularizan) a cero. Al hacer esto, es posible reducir la varianza del modelo y al mismo tiempo disminuir el error de muestreo. La regularización se utiliza para evitar o reducir el sobreajuste. El sobreajuste ocurre cuando el modelo aprende tan bien los datos de entrenamiento que socava el rendimiento del modelo con datos nuevos. Para evitar el sobreajuste, se suelen utilizar regularizaciones Ridge o Lasso”.

Algunos de los conceptos que se prueban periódicamente son, nuevamente, otros conceptos de análisis de regresión, como la regresión logística, la regresión logística bayesiana y los clasificadores ingenuos de Bayes. También se le puede preguntar sobre los bosques aleatorios, así como sobre los modelos de prueba y evaluación.

Algoritmos

Las preguntas sobre algoritmos son todas aquellas preguntas que requieren resolver un problema matemático, principalmente a través de código utilizando uno de los lenguajes de programación. Estas preguntas implican un proceso paso a paso, que generalmente requiere ajustes o cálculos para producir una respuesta. Estas preguntas ponen a prueba los conocimientos básicos de resolución de problemas y manipulación de datos, que pueden implementarse para problemas complejos en el trabajo.

Ejemplo de pregunta de entrevista de algoritmo

El concepto técnico más probado con algoritmos es la resolución de un problema matemático o de sintaxis con un lenguaje de programación.

Esta es un ejemplo que puedes encontrar en Leetcode:

PREGUNTA: “Se le dan dos listas enlazadas no vacías que representan dos números enteros no negativos. Los dígitos se almacenan en orden inverso y cada uno de sus nodos contiene un solo dígito. Suma los dos números y devuelve la suma como una lista enlazada”.

El ejemplo de los datos podría ser algo como esto:

Fuente: Leetcode.

RESPONDER: El código escrito en Java debería ser:

public ListNode addTwoNumbers(ListNode l1, ListNode l2) { ListNode dummyHead = nuevo ListNode(0); ListNode p = l1, q = l2, curr = dummyHead; acarreo int = 0; while (p!= nulo || q!= nulo) { int x = (p!= nulo)? p.val : 0; int y = (q! = nulo)? q.val : 0; int suma = llevar + x + y; llevar = suma / 10; curr.next = new ListNode(suma % 10); actual = actual.siguiente; si (p != nulo) p = p.siguiente; si (q != nulo) q = q.siguiente; } if (carry > 0) { curr.next = nuevo ListNode(carry); } devolver dummyHead.next; } 

Los otros conceptos generales que a menudo se prueban en este tipo de preguntas son matrices, programación dinámica, cadenas, algoritmo codicioso, búsqueda en profundidad, árbol, tabla hash y búsqueda binaria.

Estadística

Las preguntas de la entrevista de estadística son preguntas que ponen a prueba el conocimiento de la teoría estadística y los principios asociados. Estas preguntas tienen como objetivo comprobar qué tan familiarizado está con los principios teóricos fundamentales de la ciencia de datos. Es importante poder comprender los antecedentes teóricos y matemáticos de los análisis que se realizan. Responda bien esas preguntas y todos los entrevistadores lo apreciarán.

Ejemplo de pregunta de entrevista de estadística

El concepto técnico más mencionado es el de muestreo y distribución. Para un científico de datos, este es uno de los principios estadísticos más utilizados que el científico de datos implementa a diario.

Por ejemplo, una pregunta de entrevista de IBM pregunta:

PREGUNTA: "¿Cuál es un ejemplo de un tipo de datos con una distribución no gaussiana?"

Para responder a la pregunta, primero podría definir una distribución gaussiana. Luego podrías seguir esto dando ejemplos de la distribución no gaussiana. Algo como esto:

RESPONDER: “Una distribución gaussiana es una distribución en la que se puede encontrar un cierto porcentaje conocido de los datos al examinar las desviaciones estándar de la media, también conocida como distribución normal. Algunos de los ejemplos de distribución no gaussiana pueden ser una distribución exponencial o una distribución binomial”.

Al prepararse para la entrevista de trabajo, asegúrese de cubrir también los siguientes temas: varianza y desviación estándar, covarianza y correlación, valor p, media y mediana, prueba de hipótesis y estadística bayesiana. Todos estos son conceptos que necesitará como científico de datos, así que espérelos también en las entrevistas de trabajo.

Probabilidad

Estas preguntas requieren conocimientos teóricos sólo sobre conceptos de probabilidad. Los entrevistadores hacen estas preguntas para obtener una comprensión profunda de su conocimiento sobre los métodos y usos de la probabilidad para completar los estudios de datos complejos que generalmente se realizan en el lugar de trabajo.

Ejemplo de pregunta de entrevista de probabilidad

Es muy probable, juego de palabras, que la pregunta que te hagan sea calcular la probabilidad de obtener una determinada carta/número de un conjunto de dados/cartas. Este parece ser el elemento de pregunta más común para la mayoría de las empresas en nuestra investigación, ya que muchas de ellas han hecho este tipo de preguntas.

Un ejemplo de tal pregunta de probabilidad de facebook:

PREGUNTA: "¿Cuál es la probabilidad de obtener un par al sacar dos cartas por separado en una baraja de 52 cartas?"

Así es como puedes responder esto:

RESPONDER: “Esta primera carta que robas puede ser cualquier cosa, por lo que no afecta el resultado, excepto que queda una carta menos en la baraja. Una vez que se roba la primera carta, quedan tres cartas en la baraja que se pueden sacar para obtener un par. Entonces, la probabilidad de hacer coincidir tu primera carta con un par es de 3 sobre 51 (cartas restantes). Esto significa que la probabilidad de que ocurra este evento es de 3/51 o 5.89%”.

Dado que se trata de una especie de pregunta “especializada” que trata únicamente de probabilidad, no se preguntan otros conceptos. La única diferencia es cuán imaginativa es la pregunta. Pero básicamente siempre tendrás que calcular la probabilidad de algún evento y mostrar tu pensamiento.

Producto

Las preguntas de la entrevista de producto le pedirán que evalúe el rendimiento de un producto/servicio a través de datos. Estas preguntas ponen a prueba su conocimiento sobre la adaptación y el uso de los principios de la ciencia de datos en cualquier entorno, como es el caso del trabajo diario.

Ejemplo de pregunta de entrevista de producto

El concepto técnico más destacado en esta categoría es identificar el producto de una empresa y proponer mejoras desde la perspectiva de un científico de datos. La gran variación en los conceptos técnicos probados en el lado del producto puede explicarse por la naturaleza de las preguntas sobre el producto y el mayor nivel de creatividad necesario para responderlas.

Un ejemplo de un pregunta sobre producto de Facebook sería:

PREGUNTA: "¿Cuál es tu producto de Facebook favorito y cómo lo mejorarías?"

RESPONDER: Debido a la naturaleza de la pregunta, le permitiremos responderla usted mismo.

Los conceptos generales evaluados dependen en gran medida de la empresa que lo entrevista. Solo asegúrese de estar familiarizado con el negocio de la empresa y sus productos (idealmente, también sea su usuario) y todo estará bien.

Caso de Negocio

Esta categoría incluye estudios de casos y preguntas genéricas relacionadas con el negocio que pondrían a prueba una habilidad en ciencia de datos. La importancia de saber cómo responder estas preguntas puede ser enorme, ya que a algunos entrevistadores les gustaría que los candidatos supieran cómo aplicar los principios de la ciencia de datos para resolver los problemas específicos de una empresa antes de contratarlos.

Ejemplo de pregunta de caso de negocio

Debido a la naturaleza del tipo de pregunta, no pude identificar un solo concepto técnico que se destaque. Dado que la mayoría de las preguntas categorizadas aquí son estudios de casos, en cierto modo son únicas.

Sin embargo, he aquí un ejemplo de pregunta de caso de negocio de Uber:

PREGUNTA: “Hay un grupo de personas que tomaron viajes en Uber desde dos ciudades cercanas, por ejemplo, Menlo Park y Palo Alto, y se podría recopilar cualquier dato que se pueda imaginar. ¿Qué datos recopilaría para poder determinar la ciudad desde la que viajó el pasajero?

RESPONDER: “Para determinar la ciudad, necesitamos tener acceso a la ubicación/datos geográficos. Los datos recopilados podrían ser coordenadas GPS, longitud/latitud y código postal”.

Diseño de sistemas

Las preguntas sobre diseño de sistemas son todas preguntas relacionadas con el diseño de sistemas tecnológicos. Se les pide que analicen el proceso del candidato para resolver problemas, crear y diseñar sistemas para ayudar a los clientes. Conocer el diseño de sistemas puede ser muy importante para un científico de datos; Incluso si su función no es diseñar un sistema, lo más probable es que desempeñe un papel en un sistema establecido y necesite saber cómo funciona para poder realizar su trabajo.

Ejemplo de pregunta de entrevista de diseño de sistema

Estas preguntas cubren diferentes temas y tareas. Pero lo que destaca es la creación de una base de datos. Los científicos de datos tratan mucho con bases de datos a diario, por lo que tiene sentido hacer esta pregunta para ver si se puede crear una base de datos desde cero.

Acá hay uno ejemplo de pregunta de Audible descubierto en nuestra investigación:

PREGUNTA: "¿Puede explicarnos cómo crearía un sistema de recomendación?"

RESPONDER: Dado que existe una gran variedad de enfoques para responder a esta pregunta, le dejaremos encontrar su propia forma de construir uno.

Nuevamente, para responder a estas preguntas es fundamental conocer el negocio de la empresa. Piensa un poco en las bases de datos que probablemente la empresa necesite e intenta elaborar tu planteamiento un poco antes de la entrevista.

Técnico

Las preguntas técnicas son todas preguntas que se refieren a la explicación de varios conceptos técnicos de la ciencia de datos. Las preguntas técnicas son teóricas y requieren conocimiento de la tecnología que utilizará en la empresa. Debido a su naturaleza, pueden parecer similares a preguntas de codificación. Conocer la teoría detrás de lo que estás haciendo es muy importante, por lo que a menudo se pueden hacer preguntas técnicas en las entrevistas.

Ejemplo de pregunta de entrevista técnica

El área más probada es el conocimiento teórico de Python y SQL. No es sorprendente, ya que estos dos lenguajes son dominantes en la ciencia de datos, junto con R para complementar Python.

Un ejemplo de un pregunta técnica del mundo real de Walmart sería:

PREGUNTA"¿Cuáles son las estructuras de datos en Python?"

RESPONDER: “Las estructuras de datos se utilizan para almacenar datos. Hay cuatro estructuras de datos en Python: lista, diccionario, tupla y conjunto. Esas son las estructuras de datos integradas. Las listas se utilizan para crear listas que pueden contener diferentes tipos de datos. El diccionario es básicamente un conjunto de claves; se utilizan para almacenar un valor con una clave y obtener los datos usando la misma clave. Las tuplas son lo mismo que las listas. La diferencia es que en una tupla los datos no se pueden cambiar. El conjunto contiene elementos desordenados sin duplicados. Junto con las estructuras de datos integradas, también existen estructuras de datos definidas por el usuario”.

Se trata de preguntas generales para todo tipo de personas. Es una categoría para todas las preguntas que no pueden encajar claramente en otras categorías. Debido a eso, no hay conceptos específicos que ocurran con mayor o menor frecuencia.

Conclusión

Esta guía de entrevistas sobre ciencia de datos se ha escrito para respaldar la investigación realizada para comprender los tipos de preguntas que se hacen en una entrevista sobre ciencia de datos. Los datos de las preguntas de la entrevista se toman y analizan de decenas de empresas durante un período de cuatro años. Las preguntas se han clasificado en nueve tipos diferentes (algoritmos, casos de negocio, codificación, modelado, probabilidad, producto, estadísticas, diseño de sistemas y preguntas técnicas).

Como parte del análisis, hablé sobre algunos de los conceptos técnicos más comunes de cada categoría de tipo de pregunta. Por ejemplo, las preguntas estadísticas más frecuentes tienen que ver con el muestreo y la distribución. Cada categoría de preguntas está respaldada por un ejemplo práctico de la pregunta real.

El artículo está destinado a servirle como una guía importante para la preparación de entrevistas o simplemente para aprender más sobre ciencia de datos. Espero haberte ayudado a sentirte más cómodo con el proceso de entrevista sobre ciencia de datos. ¡Buena suerte con tus entrevistas!

Original. Publicado de nuevo con permiso.

Relacionado:

Fuente: https://www.kdnuggets.com/2021/08/common-data-science-interview-questions-answers.html

Sello de tiempo:

Mas de nuggets