أسئلة وأجوبة المقابلة الأكثر شيوعًا في علوم البيانات

عقدة المصدر: 1860815

مدونة الفضةأسئلة وأجوبة المقابلة الأكثر شيوعًا في علوم البيانات

بعد تحليل أكثر من 900 سؤال من أسئلة مقابلة علوم البيانات من الشركات على مدار السنوات القليلة الماضية ، تتم مراجعة فئات أسئلة المقابلة الخاصة بعلوم البيانات الأكثر شيوعًا في هذا الدليل ، ويتم شرح كل منها بمثال.


By نيت روزيدي، عالم بيانات ومدير منتج.

يعتبر أن تصبح عالم بيانات سمة مرموقة. في عام 2012، وصفت مجلة Harvard Business Review وظيفة "عالم البيانات" بأنها الوظيفة الأكثر جاذبية في القرن الحادي والعشرين، ويبدو أن الاتجاه المتزايد للأدوار في الصناعة يؤكد هذا البيان. للتأكد من أن هذا الجاذبية لا تزال مستمرة، تظهر المعلومات الواردة من Glassdoor أن وظيفة عالم البيانات هي ثاني أفضل وظيفة في أمريكا في عام 21.

المصدر: باب زجاجي.

للحصول على مثل هذه الوظيفة المرموقة، عليك إجراء مقابلات عمل صارمة. يمكن أن تكون أسئلة علم البيانات المطروحة واسعة جدًا ومعقدة. وهذا أمر متوقع، نظرًا لأن دور عالم البيانات يتضمن عادةً العديد من المجالات. لمساعدتك في الاستعداد للمقابلات الوظيفية لعلم البيانات، قمت بمراجعة جميع الأسئلة القابلة للتطبيق وفصلتها إلى فئات أسئلة مختلفة. وإليك كيف فعلت ذلك.

وصف ومنهجية التحليل

لقد قمت بجمع البيانات من مختلف لوحات البحث عن الوظائف ومواقع الويب ومنصات مراجعة الشركات مثل Glassdoor وIndeed وReddit وBlind App. ولكي نكون أكثر دقة، هناك 903 أسئلة تم جمعها على مدى السنوات الأربع الماضية.

يتم تقسيم الأسئلة إلى فئات محددة مسبقا. هذه الفئات هي نتيجة تحليل الخبراء لوصف تجربة المقابلة المأخوذ من مصادرنا.

الفئات هي:

  1. البرمجة
  2. نمذجة
  3. خوارزميات
  4. إحصائيات
  5. احتمال
  6. المنتج
  7. قضية أعمال
  8. تصميم النظام
  9. تقني

ما هي أنواع أسئلة المقابلة التي يجب أن تتوقعها؟

يوضح لك هذا المخطط نوع السؤال لكل فئة وفقًا للبيانات المجمعة.

عند ترجمته إلى النسب المئوية، يبدو الرسم البياني كما يلي:

كما ترون، فإن أسئلة البرمجة والنمذجة هي الأكثر شيوعًا. أكثر من نصف الأسئلة تأتي من هذا المجال. ليس من المستغرب عندما تفكر في ذلك. من المحتمل أن يكون الترميز والنمذجة من أهم المهارات لعالم البيانات. الأسئلة من نوع الترميز منتشرة على نطاق واسع، حيث تضم أكثر من ثلث جميع الأسئلة. تعتبر أنواع الأسئلة الأخرى، مثل الخوارزميات والإحصائيات، مهمة أيضًا إلى حد ما؛ 24% من الأسئلة تأتي من هاتين الفئتين. الفئات الأخرى ليست ممثلة. أجد ذلك معقولًا، مع الأخذ في الاعتبار طبيعة دور عالم البيانات.

الآن أريد إرشادك خلال كل فئة من فئات الأسئلة وأعرض لك بعض الأمثلة على الأسئلة المطروحة.

المفاهيم الأكثر اختبارًا في أسئلة المقابلة الخاصة بعلم البيانات

الترميز​

كما رأيت بالفعل، تعد أسئلة البرمجة هي الموضوع الأكثر أهمية في علم البيانات. ستتطلب مثل هذه الأسئلة نوعًا من معالجة البيانات باستخدام الكود لتحديد الرؤى. تم تصميم الأسئلة لاختبار القدرة على البرمجة ومهارات حل المشكلات والإبداع. ستفعل ذلك عادةً على جهاز كمبيوتر أو على السبورة البيضاء.

مثال على سؤال مقابلة الترميز

واحد مثال من مايكروسوفت هل هذا واحد:

سؤال: "احسب حصة المستخدمين الجدد والحاليين. قم بإخراج الشهر، ومشاركة المستخدمين الجدد، ومشاركة المستخدمين الحاليين كنسبة. يتم تعريف المستخدمين الجدد على أنهم المستخدمون الذين بدأوا في استخدام الخدمات في الشهر الحالي. المستخدمون الحاليون هم المستخدمون الذين بدأوا في استخدام الخدمات في الشهر الحالي واستخدموا الخدمات في أي شهر سابق. لنفترض أن التواريخ كلها من عام 2020."

سوف تستخدم الجدول حقيقة_الأحداث، حيث تبدو بيانات العينة كما يلي:

للحصول على النتيجة المطلوبة عليك كتابة هذا الكود:

مع جميع المستخدمين كـ ( SELECT date_part('month', time_id) AS شهر، العد (DISTINCT user_id) كجميع_المستخدمين من FROMact_events GROUP BY Month)، new_users كـ ( SELECT date_part('month', new_user_start_date) كشهر، count(DISTINCT user_id) كمستخدمين جدد من (حدد معرف المستخدم، الحد الأدنى (معرف الوقت) كـ new_user_start_date من حقيقة_الأحداث GROUP BY user_id) sq GROUP BY شهر) SELECT au.month، new_users / all_users::decimal كـ share_new_users، 1- (new_users / all_users::decimal) كـ share_existing_users من جميع المستخدمين انضم إلى new_users nu على nu.month = au.month 

تعد كتابة التعليمات البرمجية في SQL هي المفهوم الأكثر اختبارًا عندما يتعلق الأمر بالبرمجة. ليس من المستغرب أن SQL كانت الأداة الأكثر استخدامًا في علم البيانات. إحدى المفاهيم التي لا يمكنك تجنبها تقريبًا في المقابلات هي الانضمامات. لذا تأكد من معرفة الفرق بين الصلات المختلفة وكيفية استخدامها للحصول على النتيجة المطلوبة.

يمكنك أيضًا أن تتوقع تجميع البيانات باستخدام عبارة GROUP BY في كثير من الأحيان. بعض المفاهيم الأخرى التي يتم طرحها عادةً هي تصفية البيانات باستخدام جملة WHERE و/أو HAVING. سيُطلب منك أيضًا تحديد بيانات مميزة. وتأكد أيضًا من أنك تعرف الوظائف المجمعة، مثل SUM() وAVG() وCOUNT() وMIN() وMAX().

بعض المفاهيم لا تتكرر كثيرًا، لكن من الجدير ذكرها والاستعداد لمثل هذه الأسئلة. على سبيل المثال، تعد تعبيرات الجدول الشائعة أو CTEs أحد هذه المواضيع. والآخر هو جملة CASE(). لا تنس أيضًا تحديث ذاكرتك عند التعامل مع أنواع بيانات السلسلة وتواريخها.

تصميم

كانت النمذجة هي ثاني أكبر فئة في بيانات بحثنا، حيث تأتي 20% من جميع الأسئلة من هنا. تم تصميم هذه الأسئلة لاختبار معرفتك ببناء النماذج الإحصائية وتنفيذ نماذج التعلم الآلي.

مثال على أسئلة المقابلة النمذجة

الانحدار، هو المفهوم الأكثر شيوعًا لعلم البيانات التقنية الذي يتم طرحه في المقابلات. وهذا ليس مفاجئا، بالنظر إلى طبيعة النمذجة الإحصائية.

واحد مثال من الجلفنة سيكون على النحو التالي:

سؤال: "ما هو التنظيم في الانحدار؟"

إليك كيف يمكنك الإجابة على هذا السؤال:

إجابة: "التنظيم هو نوع خاص من الانحدار حيث تكون تقديرات المعامل مقيدة (أو منظمة) إلى الصفر. ومن خلال القيام بذلك، من الممكن تقليل تباين النموذج وفي نفس الوقت تقليل خطأ العينة. يتم استخدام التنظيم لتجنب أو تقليل التجهيز الزائد. يحدث التجاوز عندما يتعلم النموذج بيانات التدريب جيدًا مما يؤدي إلى تقويض أداء النموذج في البيانات الجديدة. ولتجنب التجهيز الزائد، عادةً ما يتم استخدام عمليات تنظيم Ridge أو Lasso.

بعض المفاهيم التي يتم اختبارها بانتظام هي، مرة أخرى، مفاهيم تحليل الانحدار الأخرى، مثل الانحدار اللوجستي، والانحدار اللوجستي بايزي، ومصنفات بايز الساذجة. يمكنك أيضًا سؤالك عن الغابات العشوائية، بالإضافة إلى اختبار النماذج وتقييمها.

خوارزميات

الأسئلة المتعلقة بالخوارزميات هي جميع الأسئلة التي تتطلب حل مسألة رياضية، وذلك بشكل رئيسي من خلال التعليمات البرمجية باستخدام إحدى لغات البرمجة. تتضمن هذه الأسئلة عملية خطوة بخطوة، وعادة ما تتطلب التعديل أو الحساب للحصول على إجابة. تختبر هذه الأسئلة المعرفة الأساسية بحل المشكلات ومعالجة البيانات، والتي يمكن تنفيذها للمشكلات المعقدة في العمل.

مثال على سؤال مقابلة الخوارزمية

إن المفهوم الفني الذي يتم اختباره بشكل أكبر في ظل الخوارزميات هو حل مشكلة رياضية أو نحوية باستخدام لغة برمجة.

ها هو أحد الأمثلة التي يمكنك العثور عليها على Leetcode:

سؤال: "يتم إعطاؤك قائمتين مرتبطتين غير فارغتين تمثلان عددين صحيحين غير سالبين. يتم تخزين الأرقام بترتيب عكسي، وتحتوي كل عقدة منها على رقم واحد. أضف الرقمين وأعد المجموع كقائمة مرتبطة.

مثال البيانات يمكن أن يكون مثل هذا:

المصدر: ليتكود.

إجابة: الكود المكتوب بلغة جافا يجب أن يكون:

public ListNode addTwoNumbers(ListNode l1, ListNode l2) { ListNode dummyHead = new ListNode(0); ListNode p = l1, q = l2, curr = dummyHead; كثافة العمليات = 0؛ while (p != null || q != null) { int x = (p != null) ? ص.فال : 0; int y = (q != null) ? س.فال : 0; int sum = تحمل + x + y; احمل = المبلغ / 10؛ curr.next = new ListNode(sum % 10); cur = curr.next; if (p != null) p = p.next; if (q != null) q = q.next; } if (carry > 0) { curr.next = new ListNode(carry); } return dummyHead.next; } 

المفاهيم العامة الأخرى التي يتم اختبارها غالبًا بواسطة هذا النوع من الأسئلة هي المصفوفات، والبرمجة الديناميكية، والسلاسل، والخوارزمية الجشعة، والبحث العميق الأول، والشجرة، وجدول التجزئة، والبحث الثنائي.

إحصائيات

أسئلة المقابلة الإحصائية هي أسئلة تختبر معرفة النظرية الإحصائية والمبادئ المرتبطة بها. تهدف هذه الأسئلة إلى اختبار مدى معرفتك بالمبادئ النظرية التأسيسية في علم البيانات. من المهم أن تكون قادرًا على فهم الخلفية النظرية والرياضية للتحليلات التي يتم إجراؤها. أجب عن هذه الأسئلة جيدًا، وسيقدرك كل من يجري معك المقابلة.

مثال على أسئلة المقابلة الإحصائية

المفهوم الفني الأكثر ذكرًا هو أخذ العينات والتوزيع. بالنسبة لعالم البيانات، يعد هذا أحد المبادئ الإحصائية الأكثر استخدامًا التي ينفذها عالم البيانات يوميًا.

على سبيل المثال، سؤال مقابلة من IBM يسأل:

سؤال: "ما هو مثال لنوع البيانات مع توزيع غير غاوسي؟"

للإجابة على السؤال، يمكنك أولاً تعريف التوزيع الغوسي. ثم يمكنك متابعة ذلك بإعطاء أمثلة على التوزيع غير الغوسي. شيء من هذا القبيل:

إجابة: "التوزيع الغوسي هو توزيع حيث يمكن العثور على نسبة معينة معروفة من البيانات عند فحص الانحرافات المعيارية عن المتوسط، والمعروف باسم التوزيع الطبيعي. بعض أمثلة التوزيع غير الغوسي يمكن أن تكون التوزيع الأسي أو التوزيع ذي الحدين.

عند التحضير لمقابلة العمل، تأكد أيضًا من تغطية المواضيع التالية: التباين والانحراف المعياري، والتباين والارتباط، والقيمة الاحتمالية، والمتوسط ​​والوسيط، واختبار الفرضيات، وإحصائيات بايزي. هذه كلها مفاهيم ستحتاج إليها كعالم بيانات، لذا توقعها في مقابلات العمل أيضًا.

احتمال

تتطلب هذه الأسئلة معرفة نظرية فقط بمفاهيم الاحتمالية. يطرح القائمون على المقابلات هذه الأسئلة للحصول على فهم عميق لمعرفتك حول أساليب واستخدامات الاحتمالية لإكمال دراسات البيانات المعقدة التي يتم إجراؤها عادةً في مكان العمل.

مثال سؤال المقابلة الاحتمالية

من المحتمل جدًا، المقصود من التورية، أن السؤال الذي ستحصل عليه هو حساب احتمالية الحصول على بطاقة/رقم معين من مجموعة من النرد/البطاقات. يبدو أن هذا هو العنصر الأكثر شيوعًا في طرح الأسئلة بالنسبة لمعظم الشركات في بحثنا، حيث أن العديد منها طرحت هذا النوع من الأسئلة.

مثال على هذا سؤال الاحتمال من الفيسبوك:

سؤال: "ما هو احتمال الحصول على زوج من خلال سحب ورقتين منفصلتين في مجموعة مكونة من 52 ورقة؟"

إليك كيف يمكنك الإجابة على هذا:

إجابة: "يمكن أن تكون هذه البطاقة الأولى التي تسحبها أيًا كانت، لذا فهي لا تؤثر على النتيجة بخلاف وجود بطاقة واحدة أقل في المجموعة. بمجرد سحب البطاقة الأولى، هناك ثلاث بطاقات متبقية في المجموعة يمكن سحبها للحصول على زوج. لذا، فإن فرصة مطابقة بطاقتك الأولى مع زوج هي 3 من أصل 51 (البطاقات المتبقية). وهذا يعني أن احتمال وقوع هذا الحدث هو 3/51 أو 5.89%.

وبما أن هذا نوع من الأسئلة "المتخصصة" التي تتناول الاحتمالية فقط، فلا يتم طرح أي مفاهيم أخرى. والفرق الوحيد هو مدى خيال السؤال. ولكن في الأساس، سيتعين عليك دائما حساب احتمالية وقوع حدث ما وإظهار تفكيرك.

المنتج

ستطلب منك أسئلة المقابلة الخاصة بالمنتج تقييم أداء المنتج/الخدمة من خلال البيانات. تختبر هذه الأسئلة معرفتك بتكييف واستخدام مبادئ علم البيانات في أي بيئة، كما هو الحال مع العمل اليومي.

مثال على سؤال مقابلة المنتج

المفهوم التقني الأبرز في هذه الفئة هو تحديد منتج الشركة واقتراح التحسينات من وجهة نظر عالم البيانات. يمكن تفسير التباين الكبير في المفاهيم التقنية التي تم اختبارها على جانب المنتج من خلال طبيعة الأسئلة المتعلقة بالمنتج والمستوى العالي من الإبداع المطلوب للإجابة عليها.

مثال على سؤال المنتج من الفيسبوك سيكون:

سؤال: "ما هو منتج فيسبوك المفضل لديك، وكيف يمكنك تحسينه؟"

إجابة: ونظرًا لطبيعة السؤال، سنترك لك الإجابة على هذا السؤال بنفسك.

تعتمد المفاهيم العامة التي تم اختبارها بشكل كبير على الشركة التي تجري معك المقابلة. فقط تأكد من أنك على دراية بأعمال الشركة ومنتجاتها (من الأفضل أن تكون مستخدمًا لها أيضًا)، وستكون الأمور على ما يرام.

حالة الأعمال

تتضمن هذه الفئة دراسات حالة وأسئلة عامة تتعلق بالأعمال التجارية والتي من شأنها اختبار مهارة علم البيانات. يمكن أن تكون أهمية معرفة كيفية الإجابة على هذه الأسئلة هائلة، حيث يرغب بعض القائمين على المقابلات في أن يعرف المرشحون كيفية تطبيق مبادئ علم البيانات لحل المشكلات المحددة للشركة قبل توظيفهم.

مثال على سؤال حالة الأعمال

نظرًا لطبيعة نوع السؤال، لم أتمكن من تحديد مفهوم تقني واحد بارز. وبما أن معظم الأسئلة المصنفة هنا هي دراسات حالة، فهي فريدة من نوعها بطريقة معينة.

ومع ذلك، هنا مثال على أ سؤال حالة العمل من أوبر:

سؤال: "هناك مجموعة من الأشخاص الذين استقلوا رحلات أوبر من مدينتين قريبتين من بعضهما البعض، على سبيل المثال، مينلو بارك وبالو ألتو، ويمكن جمع أي بيانات قد تخطر على بالك. ما هي البيانات التي ستجمعها حتى يمكن تحديد المدينة التي أخذ منها الراكب الرحلة؟

إجابة: "لتحديد المدينة، نحتاج إلى الوصول إلى الموقع/البيانات الجغرافية. يمكن أن تكون البيانات التي تم جمعها عبارة عن إحداثيات نظام تحديد المواقع العالمي (GPS)، وخط الطول/خط العرض، والرمز البريدي.

تصميم النظام

أسئلة تصميم النظام هي جميع الأسئلة المتعلقة بتصميم أنظمة التكنولوجيا. يُطلب منهم تحليل عملية المرشح في حل المشكلات وإنشاء وتصميم الأنظمة لمساعدة العملاء/العملاء. يمكن أن تكون معرفة تصميم النظام أمرًا مهمًا للغاية بالنسبة لعالم البيانات؛ حتى لو لم يكن دورك هو تصميم النظام، فمن المرجح أن تلعب دورًا في نظام قائم وتحتاج إلى معرفة كيفية عمله من أجل القيام بعملك.

مثال على سؤال مقابلة تصميم النظام

تغطي هذه الأسئلة مواضيع ومهام مختلفة. ولكن ما يبرز هو بناء قاعدة بيانات. يتعامل علماء البيانات بشكل كبير مع قواعد البيانات يوميًا، لذا فمن المنطقي طرح هذا السؤال لمعرفة ما إذا كان بإمكانك إنشاء قاعدة بيانات من الصفر.

هنا واحد مثال السؤال من Audible اكتشفنا في بحثنا:

سؤال: "هل يمكنك إرشادنا حول كيفية بناء نظام التوصيات؟"

إجابة: نظرًا لوجود مجموعة متنوعة من الأساليب للإجابة على هذا السؤال، فسوف نتركك لتتوصل إلى طريقتك الخاصة لبناء واحدة.

مرة أخرى، للإجابة على هذه الأسئلة، من الضروري معرفة أعمال الشركة. فكر قليلاً في قواعد البيانات التي من المحتمل أن تحتاجها الشركة، وحاول توضيح منهجك قليلاً قبل المقابلة.

تقني

الأسئلة الفنية هي جميع الأسئلة التي تطرح حول شرح المفاهيم الفنية المختلفة لعلم البيانات. الأسئلة الفنية نظرية وتتطلب معرفة بالتكنولوجيا التي ستستخدمها في الشركة. نظرًا لطبيعتها، قد تبدو مشابهة لأسئلة البرمجة. من المهم جدًا معرفة النظرية وراء ما تفعله، لذلك غالبًا ما يتم طرح الأسئلة الفنية في المقابلات.

مثال على سؤال المقابلة الفنية

المجال الأكثر اختبارًا هو المعرفة النظرية لـ Python وSQL. ليس من المستغرب، لأن هاتين اللغتين هي المهيمنة في علم البيانات، إلى جانب لغة R المكملة لبايثون.

مثال على سؤال فني في العالم الحقيقي من وول مارت سيكون:

سؤال"ما هي هياكل البيانات في بايثون؟"

إجابة: "يتم استخدام هياكل البيانات لتخزين البيانات. هناك أربع هياكل بيانات في بايثون: List، Dictionary، Tuple، وSet. هذه هي هياكل البيانات المضمنة. تُستخدم القوائم لإنشاء قوائم يمكن أن تحتوي على أنواع مختلفة من البيانات. القاموس هو في الأساس مجموعة من المفاتيح؛ يتم استخدامها لتخزين قيمة باستخدام مفتاح والحصول على البيانات باستخدام نفس المفتاح. Tuples هي نفس القوائم. الفرق هو أنه في الصف، لا يمكن تغيير البيانات. تحتوي المجموعة على العناصر غير المرتبة بدون تكرارات. وإلى جانب هياكل البيانات المضمنة، هناك أيضًا هياكل البيانات المعرفة من قبل المستخدم.

هذه هي أنواع الأسئلة الشاملة. إنها فئة لجميع الأسئلة التي لا يمكن وضعها في الفئات الأخرى. ونتيجة لذلك، لا توجد مفاهيم محددة تحدث في كثير من الأحيان.

وفي الختام

تمت كتابة دليل مقابلة علوم البيانات هذا لدعم البحث الذي تم إجراؤه لفهم أنواع الأسئلة التي يتم طرحها في مقابلة علوم البيانات. يتم أخذ بيانات أسئلة المقابلة من عشرات الشركات على مدار أربع سنوات ويتم تحليلها. تم تصنيف الأسئلة ضمن تسعة أنواع مختلفة من الأسئلة (الخوارزميات، حالة العمل، الترميز، النمذجة، الاحتمالية، المنتج، الإحصائيات، تصميم النظام، والأسئلة الفنية).

وكجزء من التحليل، تحدثت عن بعض المفاهيم الفنية الأكثر شيوعًا من كل فئة من فئات الأسئلة. على سبيل المثال، تتعلق الأسئلة الإحصائية الأكثر شيوعًا بأخذ العينات والتوزيع. يتم دعم كل فئة سؤال بمثال عملي واحد للسؤال الحقيقي.

تهدف المقالة إلى خدمتك كدليل مهم للتحضير للمقابلة أو ببساطة تعلم المزيد عن علم البيانات. أتمنى أن أكون قد ساعدتك على الشعور براحة أكبر بشأن عملية المقابلة الخاصة بعلم البيانات. حظا سعيدا في المقابلات الخاصة بك!

أصلي. تم إعادة النشر بإذن.

هذا الموضوع ذو علاقة بـ:

المصدر: https://www.kdnuggets.com/2021/08/common-data-science-interview-questions-answers.html

الطابع الزمني:

اكثر من KD nuggets