Перевидано Платоном

читають: 0

Найпоширеніші запитання та відповіді на співбесіду в галузі даних

Ключові слова: наука даних, Питання інтерв'ю

Після аналізу понад 900 запитань на інтерв’ю з науковими даними, які поставили компанії за останні кілька років, у цьому посібнику розглядаються найпоширеніші категорії запитань на інтерв’ю з науковими даними, кожне з яких пояснюється на прикладі.

коментарі

By Нейт Розіді, спеціаліст із обробки даних і менеджер із продуктів.

Стати науковцем з даних вважається престижною рисою. У 2012 році журнал Harvard Business Review назвав «фахівця з обробки даних» найсексуальнішою професією 21-го століття, і тенденція зростання ролей у галузі, здається, підтверджує це твердження. Щоб підтвердити, що ця сексуальність все ще триває, інформація від Glassdoor показує, що посада спеціаліста з даних є другою найкращою професією в Америці у 2021 році.

Джерело: Glassdoor.

Щоб отримати таку престижну роботу, потрібно пройти суворі співбесіди. Питання, які задають наукові дані, можуть бути дуже широкими та складними. Це очікувано, враховуючи, що роль спеціаліста з даних зазвичай охоплює так багато сфер. Щоб допомогти вам підготуватися до співбесід із вивчення даних, я переглянув усі відповідні запитання та розподілив їх за різними категоріями. Ось як я це зробив.

Опис і методологія аналізу

Я зібрав дані з різних дошок пошуку роботи та веб-сайтів і платформ огляду компаній, таких як Glassdoor, Indeed, Reddit і Blind App. А точніше, за останні чотири роки зібрано 903 питання.

Питання розділені на заздалегідь визначені категорії. Ці категорії є результатом експертного аналізу опису досвіду співбесіди, взятого з наших джерел.

Категорії:

Кодування
моделювання
Алгоритми
Статистика
Ймовірність
Product
Бізнес-кейс
Дизайн системи
технічний

Які типи запитань на співбесіді слід очікувати?

На цій діаграмі показано тип запитання для кожної категорії відповідно до зібраних даних.

У відсотках діаграма виглядає так:

Як бачите, питання кодування та моделювання є найбільш домінуючими. Більше половини всіх запитань надходить з цієї сфери. Це й не дивно, якщо подумати про це. Кодування та моделювання, мабуть, є двома найважливішими навичками для спеціаліста з обробки даних. Питання типу кодування широко поширені, складають більше однієї третини всіх питань. Інші типи питань, такі як алгоритми та статистика, також є досить важливими; 24% усіх питань походять із цих двох категорій. Інші категорії представлені не так. Я вважаю це розумним, враховуючи природу ролі спеціаліста з даних.

Тепер я хочу провести вас через кожну категорію запитань і показати вам кілька прикладів запитань, які ставляться.

Найбільш перевірені концепції щодо запитань для співбесід із наукою про дані

Кодування

Як ви вже бачили, питання кодування є найважливішою темою в науці про дані. Такі запитання вимагатимуть певного маніпулювання даними за допомогою коду для ідентифікації розуміння. Запитання призначені для перевірки вміння кодувати, навичок вирішення проблем і креативності. Зазвичай ви робите це на комп’ютері або на дошці.

Приклад запитання до співбесіди щодо кодування

Один приклад від Microsoft це один:

ПИТАННЯ: «Порахуйте частку нових і існуючих користувачів. Виведіть місяць, частку нових користувачів і частку існуючих користувачів як співвідношення. Нові користувачі – це користувачі, які почали користуватися послугами в поточному місяці. Існуючі користувачі – це користувачі, які почали користуватися послугами в поточному місяці та користувалися послугами в будь-якому попередньому місяці. Припустимо, що всі дати починаються з 2020 року».

Ви будете використовувати таблицю fact_events, із зразковими даними, які виглядають так:

Щоб отримати бажаний результат, вам слід написати цей код:

з all_users як ( SELECT date_part('month', time_id) AS month, count(DISTINCT user_id) as all_users FROM fact_events GROUP BY month),
new_users as ( SELECT date_part('month', new_user_start_date) AS month, count(DISTINCT user_id) as new_users FROM (SELECT user_id, min(time_id) as new_user_start_date FROM fact_events GROUP BY user_id) sq GROUP BY місяць
)
ВИБРАТИ au.month, new_users / all_users::decimal як share_new_users, 1- (new_users / all_users::decimal) як share_existing_users
FROM all_users au
ПРИЄДНУЙТЕСЯ до нових_користувачів nu ON nu.month = au.month

Написання коду на SQL є найбільш часто перевіреною концепцією, коли мова йде про кодування. Це не дивно, оскільки SQL був найбільш використовуваним інструментом у науці про дані. Одна з концепцій, яку ви майже не можете уникнути під час інтерв’ю, це об’єднання. Тому переконайтеся, що ви знаєте різницю між різними об’єднаннями та як їх використовувати для отримання необхідного результату.

Крім того, можна очікувати групування даних за допомогою пропозиції GROUP BY дуже часто. Деякі інші поняття, про які зазвичай запитують, — це фільтрація даних за допомогою пропозиції WHERE та/або HAVING. Вас також попросять вибрати окремі дані. А також переконайтеся, що ви знаєте агрегатні функції, такі як SUM(), AVG(), COUNT(), MIN(), MAX().

Деякі поняття зустрічаються не так часто, але згадати про них і бути готовим до подібних запитань варто. Наприклад, загальні табличні вирази або CTE є однією з таких тем. Інший — пропозиція CASE(). Крім того, не забудьте оновити пам’ять про обробку рядкових типів даних і дат.

Моделювання

Моделювання було другою за величиною категорією в наших дослідницьких даних: 20% усіх запитань надходили звідси. Ці запитання призначені для перевірки ваших знань про створення статистичних моделей і впровадження моделей машинного навчання.

Приклад запитання щодо моделювання співбесіди

Регресія, найпоширеніша концепція науки про технічні дані, яку запитують під час інтерв’ю. Це й не дивно, враховуючи природу статистичного моделювання.

Один приклад від Galvanize буде наступним:

ПИТАННЯ: «Що таке регулярізація в регресії?»

Ось як ви можете відповісти на це запитання:

ВІДПОВІДЬ: «Регулярізація — це особливий тип регресії, коли оцінки коефіцієнтів обмежуються (або регуляризуються) до нуля. Роблячи це, можна зменшити дисперсію моделі, одночасно зменшуючи помилку вибірки. Регуляризація використовується, щоб уникнути або зменшити переобладнання. Переобладнання відбувається, коли модель вивчає навчальні дані настільки добре, що це підриває продуктивність моделі на нових даних. Щоб уникнути переобладнання, зазвичай використовується регулярізація Ridge або Lasso».

Деякі з концепцій, які регулярно перевіряються, знову ж таки є іншими концепціями регресійного аналізу, такими як логістична регресія, логістична регресія Баєса та наївні класифікатори Байєса. Вас також можуть запитати про випадкові ліси, а також про тестування та оцінку моделей.

Алгоритми

Запитання про алгоритми – це всі питання, які вимагають вирішення математичної задачі, головним чином за допомогою коду з використанням однієї з мов програмування. Ці запитання передбачають покроковий процес, який зазвичай потребує коригування або обчислення для отримання відповіді. Ці запитання перевіряють базові знання щодо вирішення проблем і маніпулювання даними, які можна застосувати для складних проблем на роботі.

Приклад запитання щодо алгоритму співбесіди

Технічна концепція, яка найчастіше перевіряється в алгоритмах, полягає в розв’язанні математичної чи синтаксичної задачі за допомогою мови програмування.

Ось один приклад можна знайти на Leetcode:

ПИТАННЯ: «Вам надано два непорожніх пов’язаних списку, що представляють два невід’ємних цілі числа. Цифри зберігаються у зворотному порядку, і кожен їх вузол містить одну цифру. Додайте два числа та поверніть суму як зв’язаний список».

Приклад даних може бути приблизно таким:

Джерело: Leetcode.

ВІДПОВІДЬ: код, написаний на Java, має бути таким:

public ListNode addTwoNumbers(ListNode l1, ListNode l2) { ListNode dummyHead = new ListNode(0); ListNode p = l1, q = l2, curr = dummyHead; int перенос = 0; while (p != null || q != null) { int x = (p != null) ? p.val : 0; int y = (q != null)? q.val: 0; int sum = перенос + x + y; перенос = сума / 10; curr.next = новий ListNode(сума % 10); curr = curr.next; if (p != null) p = p.next; if (q != null) q = q.next; } if (carry > 0) { curr.next = new ListNode(carry); } return dummyHead.next;
}

Інші загальні поняття, які часто перевіряються цим типом запитань, це масиви, динамічне програмування, рядки, жадібний алгоритм, пошук у глибину, дерево, хеш-таблиця та двійковий пошук.

Статистика

Питання статистичної інтерв’ю – це запитання, які перевіряють знання статистичної теорії та пов’язаних з нею принципів. Ці запитання мають на меті перевірити, наскільки ви знайомі з основоположними теоретичними принципами науки про дані. Важливо вміти розуміти теоретичну та математичну основу проведеного аналізу. Дайте гарні відповіді на ці запитання, і кожен інтерв’юер оцінить вас.

Приклад запитання до інтерв’ю зі статистикою

Найбільш згадувана технічна концепція – вибірка та розподіл. Для фахівця з обробки даних це один із найпоширеніших принципів статистики, який спеціаліст із обробки даних використовує щодня.

Наприклад, запитання на співбесіді від IBM питає:

ПИТАННЯ: «Що є прикладом типу даних із негаусовим розподілом?»

Щоб відповісти на запитання, ви можете спочатку визначити розподіл Гауса. Тоді ви можете слідкувати за цим, наводячи приклади негаусового розподілу. Щось на зразок цього:

ВІДПОВІДЬ: «Розподіл Гаусса — це розподіл, де певний відомий відсоток даних можна знайти під час дослідження стандартних відхилень від середнього значення, інакше відомий як нормальний розподіл. Деякі приклади негаусового розподілу можуть бути експоненціальним або біноміальним розподілом».

Готуючись до співбесіди, переконайтеся, що ви також охопили такі теми: дисперсія та стандартне відхилення, коваріація та кореляція, p-значення, середнє та медіана, перевірка гіпотез та статистика Байєса. Усі ці концепції знадобляться вам як науковцю даних, тож очікуйте їх також під час співбесіди.

Ймовірність

Ці питання вимагають лише теоретичних знань про ймовірнісні поняття. Інтерв'юери ставлять ці запитання, щоб отримати глибоке розуміння ваших знань щодо методів і використання ймовірності для завершення комплексних досліджень даних, які зазвичай проводяться на робочому місці.

Приклад питання інтерв'ю про ймовірність

Цілком ймовірно, каламбур, що ви отримаєте запитання про обчислення ймовірності отримання певної картки/числа з набору кубиків/карт. Здається, це найпоширеніший елемент опитування для більшості компаній у нашому дослідженні, оскільки багато з них ставили такі типи питань.

Приклад такого питання ймовірності з Facebook:

ПИТАННЯ: «Яка ймовірність отримати пару, витягнувши дві карти окремо в колоді з 52 карт?»

Ось як ви можете на це відповісти:

ВІДПОВІДЬ: «Ця перша карта, яку ви візьмете, може бути будь-якою, тому це не вплине на результат, окрім того, що в колоді залишиться на одну карту менше. Коли витягнуто першу карту, у колоді залишаються три карти, які можна взяти, щоб отримати пару. Таким чином, шанс зіставлення вашої першої карти з парою становить 3 з 51 (решта карт). Це означає, що ймовірність цієї події становить 3/51 або 5.89%».

Оскільки це своєрідне «спеціалізоване» питання, яке стосується лише ймовірності, інші поняття не ставляться. Єдина різниця в тому, наскільки образне це питання. Але в основному вам завжди доведеться прораховувати ймовірність якоїсь події і проявляти своє мислення.

Product

Питання для співбесіди про продукт попросять вас оцінити ефективність продукту/послуги за допомогою даних. Ці запитання перевіряють ваші знання щодо адаптації та використання принципів науки про дані в будь-якому середовищі, як і у щоденній роботі.

Приклад запитання на співбесіді щодо продукту

Найвидатнішою технічною концепцією в цій категорії є ідентифікація продукту компанії та пропозиція вдосконалень з точки зору спеціаліста з даних. Значні відмінності в технічних концепціях, перевірених на стороні продукту, можна пояснити природою запитань про продукт і вищим рівнем творчості, необхідного для відповіді на них.

Приклад а запитання щодо продукту від Facebook було б:

ПИТАННЯ: «Який ваш улюблений продукт Facebook і як би ви його покращили?»

ВІДПОВІДЬ: Зважаючи на характер питання, ми дозволимо вам відповісти на нього самостійно.

Загальні концепції, які перевіряються, значною мірою залежать від компанії, яка проводить у вас співбесіду. Просто переконайтеся, що ви знайомі з бізнесом компанії та її продуктами (в ідеалі, ви також є їхнім користувачем), і все буде добре.

Бізнес-кейс

Ця категорія включає тематичні дослідження та загальні запитання, пов’язані з бізнесом, які перевірятимуть навички обробки даних. Значення того, як відповісти на ці запитання, може бути величезним, оскільки деякі інтерв’юери хотіли б, щоб кандидати знали, як застосовувати принципи науки про дані для вирішення конкретних проблем компанії, перш ніж наймати їх.

Приклад питання про бізнес-кейс

Через природу типу запитання я не зміг визначити жодну технічну концепцію, яка виділяється. Оскільки більшість питань, класифікованих тут, є прикладами, вони певним чином унікальні.

Однак ось приклад а питання про бізнес-кейс від Uber:

ПИТАННЯ: «Є група людей, які їздили Uber з двох міст, розташованих неподалік, наприклад, Менло-Парк і Пало-Альто, і можна зібрати будь-які дані, які ви могли б придумати. Які дані ви зібрали б, щоб можна було визначити місто, з якого їхав пасажир?»

ВІДПОВІДЬ: «Щоб визначити місто, нам потрібен доступ до місцезнаходження/географічних даних. Зібраними даними можуть бути GPS-координати, довгота/широта та поштовий індекс».

Проектування системи

Питання проектування системи – це всі питання, пов’язані з проектуванням технологічних систем. Їх просять проаналізувати процес кандидата у вирішенні проблем, створенні та проектуванні систем для допомоги клієнтам/клієнтам. Знання дизайну системи може бути дуже важливим для спеціаліста з даних; навіть якщо ваша роль не полягає в розробці системи, ви, швидше за все, відіграватимете певну роль у встановленій системі, і вам потрібно знати, як вона працює, щоб виконувати свою роботу.

Приклад запитання для співбесіди щодо дизайну системи

Ці запитання стосуються різних тем і завдань. Але те, що виділяється, це створення бази даних. Науковці даних щодня активно працюють з базами даних, тому має сенс поставити це запитання, щоб дізнатися, чи можна створити базу даних з нуля.

Ось один приклад запитання від Audible виявлено в нашому дослідженні:

ПИТАННЯ: «Чи можете ви розповісти нам, як створити систему рекомендацій?»

ВІДПОВІДЬ: Оскільки існує така різноманітність підходів, щоб відповісти на це питання, ми залишимо вас самим придумати свій спосіб створення.

Знову ж таки, щоб відповісти на ці запитання, важливо знати бізнес компанії. Подумайте трохи про бази даних, які, швидше за все, потрібні компанії, і постарайтеся дещо розробити свій підхід до співбесіди.

технічний

Технічні запитання – це всі запитання щодо пояснення різних технічних концепцій науки про дані. Технічні питання є теоретичними та вимагають знання технології, яку ви використовуватимете в компанії. За своєю природою вони можуть здаватися схожими на питання кодування. Знати теорію, що лежить в основі того, що ви робите, дуже важливо, тому на співбесіді часто можна задавати технічні запитання.

Приклад питання для технічної співбесіди

Найбільш перевірена сфера – теоретичні знання Python та SQL. Не дивно, оскільки ці дві мови домінують у науці про дані разом із R, що доповнює Python.

Приклад а реальне технічне запитання від Walmart було б:

ПИТАННЯ: «Що таке структури даних у Python?"

ВІДПОВІДЬ: «Структури даних використовуються для зберігання даних. У Python є чотири структури даних: список, словник, кортеж і набір. Це вбудовані структури даних. Списки використовуються для створення списків, які можуть містити різні типи даних. Словник — це в основному набір ключів; вони використовуються для зберігання значення з ключем і отримання даних за допомогою того самого ключа. Кортежі — це те саме, що списки. Різниця в тому, що в кортежі дані не можна змінити. Набір містить невпорядковані елементи без дублікатів. Разом із вбудованими структурами даних існують також визначені користувачем структури даних».

Це всеосяжні типи запитань. Це категорія для всіх запитань, які не можна чітко вписати в інші категорії. У зв’язку з цим немає конкретних понять, які зустрічаються частіше чи рідше.

Висновок

Цей посібник з інтерв’ю з науковими даними було написано для підтримки дослідження, проведеного для розуміння типів запитань, які ставлять під час інтерв’ю з науковими даними. Дані запитань для інтерв’ю беруться з десятків компаній протягом чотирьох років і аналізуються. Запитання були розділені на дев’ять різних типів запитань (алгоритми, бізнес-випадки, кодування, моделювання, ймовірність, продукт, статистика, дизайн системи та технічні запитання).

У рамках аналізу я розповів про деякі з найпоширеніших технічних концепцій із кожної категорії типів питань. Наприклад, найчастіше ставляться статистичні запитання щодо вибірки та розподілу. Кожна категорія запитань підтримується одним практичним прикладом справжнього запитання.

Ця стаття покликана служити вам важливим посібником для підготовки до співбесіди або просто дізнатися більше про науку про дані. Сподіваюся, я допоміг вам почуватися зручніше в процесі інтерв’ю з науковими даними. Успіхів на співбесідах!

Оригінал. Повідомлено з дозволу.

За темою: