رایج ترین پرسش ها و پاسخ های مصاحبه علوم داده

گره منبع: 1860815

وبلاگ نقره ایرایج ترین پرسش ها و پاسخ های مصاحبه علوم داده

پس از تجزیه و تحلیل بیش از 900 سؤال مصاحبه علوم داده از شرکت‌ها در چند سال گذشته، رایج‌ترین دسته‌های سؤالات مصاحبه علوم داده در این راهنما بررسی می‌شوند که هر کدام با یک مثال توضیح داده شده‌اند.


By ناتی روزیدی، دانشمند داده و مدیر محصول.

تبدیل شدن به یک دانشمند داده یک ویژگی معتبر در نظر گرفته می شود. در سال 2012، هاروارد بیزینس ریویو «دانشمند داده» را جذاب‌ترین شغل قرن بیست و یکم نامید و به نظر می‌رسد روند رو به رشد نقش‌ها در صنعت این گفته را تأیید می‌کند. برای تأیید این جذابیت هنوز ادامه دارد، اطلاعات Glassdoor نشان می دهد که دانشمند داده دومین شغل برتر در آمریکا در سال 21 است.

منبع: Glassdoor.

برای به دست آوردن چنین شغل معتبری، باید مصاحبه های شغلی سختی را پشت سر بگذارید. سوالات علم داده می تواند بسیار گسترده و پیچیده باشد. با توجه به اینکه نقش یک دانشمند داده معمولاً حوزه های زیادی را در بر می گیرد، انتظار می رود. برای کمک به شما برای آماده شدن برای مصاحبه های شغلی علم داده، من تمام سوالات کاربردی را بررسی کرده و آنها را به دسته های مختلف سوال تفکیک کرده ام. در اینجا نحوه انجام من این است.

شرح و روش تجزیه و تحلیل

من داده‌ها را از تابلوها و وب‌سایت‌های مختلف کاریابی و پلت‌فرم‌های بررسی شرکت‌ها مانند Glassdoor، Indeed، Reddit و Blind App جمع‌آوری کردم. به طور دقیق تر، 903 سؤال در چهار سال گذشته جمع آوری شده است.

سوالات به دسته های از پیش تعیین شده تقسیم می شوند. این دسته بندی ها نتیجه یک تحلیل تخصصی از شرح تجربه مصاحبه است که از منابع ما گرفته شده است.

دسته بندی ها عبارتند از:

  1. برنامه نویسی
  2. مدلسازی
  3. الگوریتم
  4. آمار
  5. احتمال
  6. محصول
  7. مورد تجاری
  8. طراحی سیستم
  9. فنی

چه نوع سوالات مصاحبه باید انتظار داشته باشید؟

این نمودار با توجه به داده های جمع آوری شده، نوع سوال را در هر دسته به شما نشان می دهد.

در ترجمه به درصد، نمودار به شکل زیر است:

همانطور که می بینید، سوالات کدنویسی و مدل سازی غالب هستند. بیش از نیمی از سوالات مربوط به آن منطقه است. وقتی به آن فکر می کنید تعجب آور نیست. کدنویسی و مدل سازی احتمالاً دو مهارت مهم برای یک دانشمند داده هستند. سوالات از نوع کدگذاری گسترده هستند و بیش از یک سوم کل سوالات را شامل می شوند. انواع سؤالات دیگر، مانند الگوریتم ها و آمار، نیز نسبتاً مهم هستند. 24 درصد از کل سوالات مربوط به این دو دسته است. سایر دسته‌ها آنطور که نشان داده نمی‌شوند. من آن را با توجه به ماهیت نقش دانشمند داده منطقی می دانم.

اکنون می‌خواهم شما را از طریق هر دسته سؤال راهنمایی کنم و نمونه‌هایی از سؤالات مطرح شده را به شما نشان دهم.

تست شده ترین مفاهیم در مورد سوالات مصاحبه علوم داده

کد نویسی

همانطور که قبلاً دیدید، سؤالات کدنویسی تنها موضوع مهم در علم داده است. چنین سوالاتی به نوعی دستکاری داده ها با استفاده از کد برای شناسایی بینش ها نیاز دارند. سوالات برای آزمون توانایی کدنویسی، مهارت های حل مسئله و خلاقیت طراحی شده اند. معمولاً این کار را روی رایانه یا تخته سفید انجام می دهید.

نمونه سوال کدنویسی مصاحبه

یک مثال از مایکروسافت این یکی است:

پرسش: سهم کاربران جدید و موجود را محاسبه کنید. ماه، سهم کاربران جدید و سهم کاربران موجود را به صورت نسبت خروجی بگیرید. کاربران جدید به عنوان کاربرانی تعریف می شوند که در ماه جاری شروع به استفاده از خدمات کرده اند. کاربران موجود کاربرانی هستند که در ماه جاری شروع به استفاده از خدمات کرده اند و در هر ماه قبل از خدمات استفاده کرده اند. فرض کنید که تاریخ ها همه مربوط به سال 2020 هستند.

شما از جدول استفاده خواهید کرد واقعه_رویدادها، با داده های نمونه به شکل زیر است:

برای دریافت خروجی مورد نظر باید این کد را بنویسید:

با all_users به ​​عنوان ( SELECT date_part('month', time_id) AS month, count (DISTINCT user_id) as all_users FROM fact_events GROUP BY,
new_users به ​​عنوان ( SELECT date_part('month', new_user_start_date) AS month, count(DISTINCT user_id) as new_users FROM (SELECT user_id, min(time_id) as new_user_start_date FROM fact_events GROUP BY user_id) ماه Y GROUP مربع
)
AU.month، new_users / all_users::اعشاری به عنوان share_new_users، 1- (new_users / all_users::decimal) به عنوان share_existing_users انتخاب کنید
FROM all_users au
به new_users بپیوندید nu ON nu.month = au.month 

نوشتن یک کد در SQL رایج ترین مفهوم آزمایش شده در مورد کدنویسی است. جای تعجب نیست زیرا SQL پر استفاده ترین ابزار در علم داده بوده است. یکی از مفاهیمی که تقریباً نمی توانید در مصاحبه ها از آن اجتناب کنید، پیوستن ها است. بنابراین مطمئن شوید که تفاوت بین اتصالات مختلف و نحوه استفاده از آنها برای به دست آوردن نتیجه مورد نیاز را می دانید.

همچنین، می توانید انتظار داشته باشید که داده ها را با استفاده از بند GROUP BY اغلب گروه بندی کنید. برخی دیگر از مفاهیمی که معمولا پرسیده می شوند، فیلتر کردن داده ها با استفاده از عبارت WHERE و/یا HAVING هستند. همچنین از شما خواسته می شود که داده های متمایز را انتخاب کنید. و همچنین مطمئن شوید که توابع جمعی مانند SUM()، AVG()، COUNT()، MIN()، MAX() را می شناسید.

برخی از مفاهیم زیاد به وجود نمی آیند، اما ذکر آنها و آماده شدن برای چنین سؤالاتی ارزش دارد. برای مثال Common Table Expressions یا CTE یکی از این موضوعات است. مورد دیگر عبارت CASE() است. همچنین، فراموش نکنید که حافظه خود را هنگام مدیریت انواع داده ها و تاریخ های رشته ای تازه کنید.

مدل سازی

مدل‌سازی دومین دسته بزرگ در داده‌های تحقیق ما بود که 20 درصد از کل سؤالات از اینجا می‌آمد. این سوالات برای آزمایش دانش شما از ساخت مدل‌های آماری و پیاده‌سازی مدل‌های یادگیری ماشین طراحی شده‌اند.

نمونه سوال مدلسازی مصاحبه

رگرسیون، رایج ترین مفهوم علم داده های فنی که در مصاحبه ها پرسیده می شود. با توجه به ماهیت مدل سازی آماری، تعجب آور نیست.

یک مثال از Galvanize زیر خواهد بود:

پرسش: "قاعده سازی در رگرسیون چیست؟"

در اینجا نحوه پاسخ به این سوال آمده است:

پاسخ: «قاعده‌سازی نوع خاصی از رگرسیون است که در آن تخمین‌های ضریب به صفر محدود می‌شوند (یا منظم می‌شوند). با انجام این کار می توان واریانس مدل را کاهش داد و در عین حال خطای نمونه گیری را کاهش داد. منظم سازی برای جلوگیری یا کاهش بیش از حد برازش استفاده می شود. برازش بیش از حد زمانی اتفاق می‌افتد که مدل داده‌های آموزشی را به خوبی یاد می‌گیرد که عملکرد مدل را در داده‌های جدید تضعیف می‌کند. برای جلوگیری از برازش بیش از حد، معمولاً از منظم‌سازی ریج یا کمند استفاده می‌شود.

برخی از مفاهیمی که به طور منظم مورد آزمایش قرار می‌گیرند، دوباره مفاهیم تحلیل رگرسیون دیگری مانند رگرسیون لجستیک، رگرسیون لجستیک بیزی و طبقه‌بندی‌کننده‌های ساده بیز هستند. همچنین می‌توانید در مورد جنگل‌های تصادفی و همچنین آزمایش و ارزیابی مدل‌ها از شما سؤال شود.

الگوریتم

سؤالات مربوط به الگوریتم ها همه سؤالاتی هستند که نیاز به حل یک مسئله ریاضی، عمدتاً از طریق کد با استفاده از یکی از زبان های برنامه نویسی دارند. این سؤالات شامل یک فرآیند گام به گام است که معمولاً برای ایجاد پاسخ نیاز به تنظیم یا محاسبه دارد. این سوالات دانش اولیه حل مسئله و دستکاری داده ها را آزمایش می کند که می تواند برای مشکلات پیچیده در محل کار پیاده سازی شود.

نمونه سوال مصاحبه الگوریتمی

مفهوم فنی که بیشتر تحت الگوریتم ها آزمایش می شود، حل یک مسئله ریاضی یا نحوی با یک زبان برنامه نویسی است.

در اینجا این است یک نمونه را می توانید در Leetcode پیدا کنید:

پرسش: "دو لیست پیوندی غیرخالی به شما داده می شود که نشان دهنده دو عدد صحیح غیر منفی است. ارقام به ترتیب معکوس ذخیره می شوند و هر گره آنها دارای یک رقم واحد است. دو عدد را اضافه کنید و مجموع را به عنوان یک لیست پیوندی برگردانید."

مثال داده ها می تواند چیزی شبیه به این باشد:

منبع: Leetcode.

پاسخ: کد نوشته شده در جاوا باید به صورت زیر باشد:

public ListNode addTwoNumbers(ListNode l1, ListNode l2) { ListNode dummyHead = new ListNode(0); ListNode p = l1, q = l2, curr = dummyHead; int carry = 0; while (p != null || q != null) { int x = (p != null) ? p.val : 0; int y = (q != null) ? q.val : 0; int sum = حمل + x + y; حمل = جمع / 10; curr.next = ListNode جدید (جمع % 10); curr = curr.next; if (p != null) p = p.next; if (q != null) q = q.next; } if (carry > 0) { curr.next = new ListNode(carry); } بازگشت dummyHead.next;
} 

سایر مفاهیم کلی که اغلب توسط این نوع سوال مورد آزمایش قرار می گیرند عبارتند از: آرایه ها، برنامه نویسی پویا، رشته ها، الگوریتم حریص، جستجوی اول عمق، درخت، جدول هش و جستجوی باینری.

آمار

سؤالات مصاحبه آماری سؤالاتی است که دانش تئوری آماری و اصول مرتبط را آزمایش می کند. این سؤالات قصد دارند تا میزان آشنایی شما با اصول نظری پایه در علم داده را امتحان کنند. توانایی درک پیشینه نظری و ریاضی تحلیل های انجام شده مهم است. به این سوالات به خوبی پاسخ دهید و هر مصاحبه کننده از شما قدردانی خواهد کرد.

نمونه سوال مصاحبه آماری

مهمترین مفهوم فنی که به آن اشاره شد، نمونه برداری و توزیع است. برای یک دانشمند داده، این یکی از متداول ترین اصول آماری است که دانشمند داده روزانه پیاده سازی می کند.

به عنوان مثال، یک سوال مصاحبه از IBM می پرسد:

پرسش: نمونه ای از نوع داده با توزیع غیر گاوسی چیست؟

برای پاسخ به این سوال، ابتدا می توانید یک توزیع گاوسی را تعریف کنید. سپس می توانید این را با مثال هایی از توزیع غیر گاوسی دنبال کنید. چیزی شبیه به این:

پاسخ: توزیع گاوسی توزیعی است که در آن درصد مشخصی از داده ها را می توان در هنگام بررسی انحرافات استاندارد از میانگین یافت که در غیر این صورت به عنوان توزیع نرمال شناخته می شود. برخی از نمونه های توزیع غیر گاوسی می توانند توزیع نمایی یا توزیع دو جمله ای باشند.

هنگام آماده شدن برای مصاحبه شغلی، مطمئن شوید که موضوعات زیر را نیز پوشش می دهید: واریانس و انحراف معیار، کوواریانس و همبستگی، p-value، میانگین و میانه، آزمون فرضیه، و آمار بیزی. همه اینها مفاهیمی هستند که شما به عنوان یک دانشمند داده به آن نیاز دارید، بنابراین در مصاحبه های شغلی نیز منتظر آنها باشید.

احتمال

این سوالات فقط در مورد مفاهیم احتمال نیاز به دانش نظری دارند. مصاحبه‌کنندگان این سؤال‌ها را می‌پرسند تا درک عمیقی از دانش شما در مورد روش‌ها و کاربردهای احتمال برای تکمیل مطالعات پیچیده داده‌ای که معمولاً در محل کار انجام می‌شود، به دست آورند.

نمونه سوال مصاحبه احتمالی

بسیار محتمل است، سوالی که برای شما پیش می آید محاسبه احتمال به دست آوردن یک کارت/عدد خاص از مجموعه تاس/کارت است. به نظر می رسد این رایج ترین عنصر پرسش برای اکثر شرکت ها در تحقیقات ما باشد، زیرا بسیاری از آنها این نوع سوالات را مطرح کرده اند.

نمونه ای از این قبیل سوال احتمال از فیس بوک:

پرسش: "احتمال به دست آوردن یک جفت با کشیدن دو کارت به طور جداگانه در یک عرشه 52 کارتی چقدر است؟"

در اینجا این است که چگونه می توانید به این پاسخ دهید:

پاسخ: «این اولین کارتی که می کشید می تواند هر چیزی باشد، بنابراین تأثیری بر نتیجه ندارد جز اینکه یک کارت کمتر در عرشه باقی بماند. هنگامی که اولین کارت کشیده شد، سه کارت باقی مانده در عرشه وجود دارد که می توان آنها را برای به دست آوردن یک جفت کشید. بنابراین، شانس تطبیق کارت اول خود با یک جفت، 3 از 51 (کارت های باقیمانده) است. این بدان معنی است که احتمال وقوع این رویداد 3/51 یا 5.89٪ است.

از آنجایی که این یک نوع سؤال «تخصصی» است که فقط به احتمال می پردازد، هیچ مفهوم دیگری پرسیده نمی شود. تنها تفاوت این است که سوال چقدر تخیلی است. اما اساسا، شما همیشه باید احتمال وقوع یک رویداد را محاسبه کنید و تفکر خود را نشان دهید.

محصول

سوالات مصاحبه محصول از شما می خواهد که عملکرد محصول/خدمت را از طریق داده ها ارزیابی کنید. این سوالات دانش شما را در مورد انطباق و استفاده از اصول علم داده در هر محیطی، مانند کار روزانه، آزمایش می کند.

نمونه سوال مصاحبه محصول

برجسته ترین مفهوم فنی در این دسته، شناسایی محصول یک شرکت و پیشنهاد بهبود از دیدگاه یک دانشمند داده است. واریانس بالا در مفاهیم فنی تست شده در سمت محصول را می توان با ماهیت سؤالات محصول و سطح بالاتر خلاقیت مورد نیاز برای پاسخ به آنها توضیح داد.

یک نمونه از یک سوال محصول از فیس بوک خواهد بود:

پرسش: "محصول فیس بوک مورد علاقه شما چیست و چگونه آن را بهبود می بخشید؟"

پاسخ: با توجه به ماهیت سوال، به شما اجازه می دهیم که خودتان به این سوال پاسخ دهید.

مفاهیم کلی آزمایش شده به شدت به شرکتی بستگی دارد که با شما مصاحبه می کند. فقط مطمئن شوید که با کسب و کار شرکت و محصولات آن آشنا هستید (در حالت ایده آل، شما نیز کاربر آنها هستید)، و خوب خواهید بود.

وضعیت کسب و کار

این دسته شامل مطالعات موردی و سؤالات عمومی مرتبط با کسب و کار است که مهارت علم داده را آزمایش می کند. اهمیت دانستن نحوه پاسخ به این سؤالات می تواند بسیار زیاد باشد زیرا برخی از مصاحبه کنندگان مایلند که داوطلبان قبل از استخدام آنها بدانند که چگونه اصول علم داده را برای حل مشکلات خاص یک شرکت به کار گیرند.

نمونه سوال مورد تجاری

به دلیل ماهیت نوع سوال، نتوانستم یک مفهوم فنی را که برجسته باشد شناسایی کنم. از آنجایی که بیشتر سوالاتی که در اینجا دسته بندی می شوند، مطالعات موردی هستند، به نوعی منحصر به فرد هستند.

با این حال، در اینجا یک مثال از a سوال پرونده تجاری از اوبر:

پرسش: مجموعه‌ای از افرادی وجود دارند که از دو شهر نزدیک به اوبر سوار شده‌اند، به عنوان مثال، منلو پارک و پالو آلتو، و هر داده‌ای که فکرش را بکنید می‌تواند جمع‌آوری شود. چه داده‌هایی را جمع‌آوری می‌کنید تا شهری که مسافر از آن سوار شده است، مشخص شود؟»

پاسخ: برای تعیین شهر، باید به مکان/داده های جغرافیایی دسترسی داشته باشیم. داده های جمع آوری شده می تواند مختصات GPS، طول و عرض جغرافیایی و کد پستی باشد.

طراحی سیستم

سوالات طراحی سیستم همگی سوالات مربوط به طراحی سیستم های تکنولوژی هستند. از آنها خواسته می شود که فرآیند نامزد را در حل مشکلات، ایجاد و طراحی سیستم هایی برای کمک به مشتریان/مشتریان تجزیه و تحلیل کنند. دانستن طراحی سیستم می تواند برای یک دانشمند داده بسیار مهم باشد. حتی اگر نقش شما طراحی یک سیستم نباشد، به احتمال زیاد در یک سیستم مستقر نقش خواهید داشت و باید بدانید که چگونه کار می کند تا کار خود را انجام دهید.

نمونه سوال مصاحبه طراحی سیستم

این سوالات موضوعات و وظایف مختلفی را در بر می گیرد. اما چیزی که برجسته می شود ساخت یک پایگاه داده است. دانشمندان داده روزانه به شدت با پایگاه های داده سر و کار دارند، بنابراین منطقی است که این سوال را بپرسیم تا ببینیم آیا می توانید یک پایگاه داده از ابتدا بسازید یا خیر.

در اینجا یکی است نمونه سوال از Audible در تحقیقات ما کشف شد:

پرسش: "آیا می توانید نحوه ایجاد یک سیستم توصیه را به ما راهنمایی کنید؟"

پاسخ: از آنجایی که رویکردهای متنوعی برای پاسخ به این سوال وجود دارد، ما به شما اجازه می دهیم تا راه خود را برای ساختن آن بیابید.

باز هم، برای پاسخ به این سوالات، شناخت کسب و کار شرکت ضروری است. کمی در مورد پایگاه های داده ای که شرکت به احتمال زیاد به آنها نیاز دارد فکر کنید و سعی کنید روش خود را کمی قبل از مصاحبه توضیح دهید.

فنی

سوالات فنی همه سوالاتی هستند که در مورد توضیح مفاهیم مختلف فنی علم داده می پرسند. سؤالات فنی تئوری هستند و نیاز به دانش در مورد فناوری مورد استفاده در شرکت دارند. به دلیل ماهیت، آنها می توانند شبیه به سوالات کدنویسی به نظر برسند. دانستن تئوری پشت کاری که انجام می دهید بسیار مهم است، بنابراین سوالات فنی اغلب در مصاحبه ها پرسیده می شود.

نمونه سوال مصاحبه فنی

بیشترین حوزه آزمایش شده، دانش نظری پایتون و SQL است. جای تعجب نیست، زیرا این دو زبان در علم داده و R برای تکمیل پایتون غالب هستند.

یک نمونه از یک سوال فنی دنیای واقعی از Walmart خواهد بود:

پرسش: "ساختارهای داده در پایتون چیست؟"

پاسخ: "ساختارهای داده برای ذخیره داده ها استفاده می شوند. چهار ساختار داده در پایتون وجود دارد: List، Dictionary، Tuple و Set. اینها ساختارهای داده داخلی هستند. لیست ها برای ایجاد لیست هایی استفاده می شوند که می توانند انواع مختلفی از داده ها را داشته باشند. دیکشنری اساسا مجموعه ای از کلیدها است. آنها برای ذخیره یک مقدار با یک کلید و گرفتن داده ها با استفاده از همان کلید استفاده می شوند. تاپل ها همان لیست ها هستند. تفاوت این است که در یک تاپل، داده ها قابل تغییر نیستند. مجموعه شامل عناصر نامرتب و بدون تکرار است. در کنار ساختارهای داده داخلی، ساختارهای داده تعریف شده توسط کاربر نیز وجود دارد.

اینها همه نوع سوال هستند. این یک مقوله برای تمام سوالاتی است که نمی توانند به طور واضح در دسته های دیگر قرار بگیرند. به همین دلیل، هیچ مفهوم خاصی وجود ندارد که کم و بیش اتفاق بیفتد.

نتیجه

این راهنمای مصاحبه علم داده برای حمایت از تحقیقات انجام شده برای درک انواع سؤالات مطرح شده در مصاحبه علم داده نوشته شده است. داده های سوالات مصاحبه از ده ها شرکت در یک دوره چهار ساله گرفته شده و مورد تجزیه و تحلیل قرار گرفته است. سوالات در 9 نوع سوال مختلف (الگوریتم، مورد تجاری، کدگذاری، مدل سازی، احتمال، محصول، آمار، طراحی سیستم و سوالات فنی) دسته بندی شده اند.

به عنوان بخشی از تجزیه و تحلیل، من در مورد برخی از رایج ترین مفاهیم فنی از هر دسته بندی سوال صحبت کردم. به عنوان مثال، بیشترین سؤالات آماری مربوط به نمونه گیری و توزیع است. هر دسته سؤال با یک مثال عملی از سؤال واقعی پشتیبانی می شود.

هدف از این مقاله به عنوان راهنمای مهمی برای آماده سازی مصاحبه یا یادگیری بیشتر در مورد علم داده است. امیدوارم به شما کمک کرده باشم تا در فرآیند مصاحبه علم داده احساس راحتی بیشتری داشته باشید. در مصاحبه های خود موفق باشید!

اصلی. مجدداً با اجازه دوباره ارسال شد.

مرتبط:

منبع: https://www.kdnuggets.com/2021/08/common-data-science-interview-questions-answers.html

تمبر زمان:

بیشتر از kdnuggets