Câu hỏi và câu trả lời phỏng vấn khoa học dữ liệu phổ biến nhất

Nút nguồn: 1860815

Blog bạcCâu hỏi và câu trả lời phỏng vấn khoa học dữ liệu phổ biến nhất

Sau khi phân tích hơn 900 câu hỏi phỏng vấn khoa học dữ liệu từ các công ty trong vài năm qua, các danh mục câu hỏi phỏng vấn khoa học dữ liệu phổ biến nhất được xem xét trong hướng dẫn này, mỗi loại được giải thích với một ví dụ.


By Nate Rosidi, Nhà khoa học dữ liệu và Giám đốc sản phẩm.

Trở thành một nhà khoa học dữ liệu được coi là một đặc điểm có uy tín. Trở lại năm 2012, Harvard Business Review đã gọi 'nhà khoa học dữ liệu' là công việc quyến rũ nhất thế kỷ 21 và xu hướng ngày càng tăng về vai trò trong ngành dường như đang xác nhận tuyên bố đó. Để xác nhận sự quyến rũ này vẫn đang tiếp diễn, thông tin từ Glassdoor cho thấy nhà khoa học dữ liệu là công việc tốt thứ hai ở Mỹ vào năm 2021.

Nguồn: Glassdoor.

Để có được một công việc danh giá như vậy, bạn phải trải qua các cuộc phỏng vấn xin việc khắt khe. Các câu hỏi về khoa học dữ liệu được hỏi có thể rất rộng và phức tạp. Điều này được mong đợi, xem xét vai trò của một nhà khoa học dữ liệu thường kết hợp rất nhiều lĩnh vực. Để giúp bạn chuẩn bị cho các cuộc phỏng vấn việc làm ngành khoa học dữ liệu, tôi đã xem xét tất cả các câu hỏi áp dụng và tách chúng thành các loại câu hỏi khác nhau. Đây là cách tôi đã làm điều đó.

Mô tả và Phương pháp Phân tích

Tôi đã thu thập dữ liệu từ các bảng và trang web tìm kiếm việc làm khác nhau và các nền tảng đánh giá công ty như Glassdoor, Indeed, Reddit và Blind App. Nói chính xác hơn, có 903 câu hỏi được thu thập trong bốn năm qua.

Các câu hỏi được chia thành các loại được xác định trước. Các danh mục này là kết quả phân tích của chuyên gia về mô tả trải nghiệm phỏng vấn được lấy từ các nguồn của chúng tôi.

Các loại là:

  1. Lập trình
  2. Mô Hình
  3. Các thuật toán
  4. Thống kê học
  5. Xác suất
  6. Sản phẩm
  7. Trường hợp kinh doanh
  8. Thiết kế hệ thống
  9. Kỹ thuật

Bạn nên mong đợi những loại câu hỏi phỏng vấn nào?

Biểu đồ này hiển thị cho bạn loại câu hỏi cho mỗi danh mục theo dữ liệu thu thập được.

Được dịch sang tỷ lệ phần trăm, biểu đồ trông như thế này:

Như bạn có thể thấy, các câu hỏi về mã hóa và mô hình hóa chiếm ưu thế nhất. Hơn một nửa số câu hỏi đến từ lĩnh vực đó. Không có gì đáng ngạc nhiên khi bạn nghĩ về nó. Mã hóa và mô hình hóa có lẽ là hai kỹ năng quan trọng nhất đối với một nhà khoa học dữ liệu. Các câu hỏi dạng mã hóa rất phổ biến, chiếm hơn một phần ba tổng số câu hỏi. Các loại câu hỏi khác, chẳng hạn như thuật toán và thống kê, cũng khá quan trọng; 24% của tất cả các câu hỏi đến từ hai loại này. Các danh mục khác không được đại diện. Tôi thấy điều đó hợp lý, xét về bản chất của vai trò nhà khoa học dữ liệu.

Bây giờ tôi muốn hướng dẫn bạn qua từng loại câu hỏi và chỉ cho bạn một số ví dụ về các câu hỏi đang được hỏi.

Các khái niệm được thử nghiệm nhiều nhất về câu hỏi phỏng vấn khoa học dữ liệu

Mã hóa

Như bạn đã thấy, câu hỏi mã hóa là chủ đề quan trọng nhất trong khoa học dữ liệu. Những câu hỏi như vậy sẽ yêu cầu một số thao tác dữ liệu bằng cách sử dụng mã để xác định thông tin chi tiết. Các câu hỏi được thiết kế để kiểm tra khả năng viết mã, kỹ năng giải quyết vấn đề và sự sáng tạo. Bạn sẽ thường làm điều đó trên máy tính hoặc bảng trắng.

Ví dụ về mã hóa câu hỏi phỏng vấn

Một ví dụ từ Microsoft cái này là:

CÂU HỎI: “Tính toán tỷ lệ người dùng mới và người dùng hiện tại. Kết quả tháng, tỷ lệ người dùng mới và tỷ lệ người dùng hiện tại. Người dùng mới được định nghĩa là người dùng đã bắt đầu sử dụng dịch vụ trong tháng hiện tại. Người dùng hiện tại là người dùng đã bắt đầu sử dụng dịch vụ trong tháng hiện tại và đã sử dụng dịch vụ trong tháng trước đó. Giả sử rằng tất cả các ngày đều từ năm 2020. "

Bạn sẽ sử dụng bảng sự kiện_sự kiện, với dữ liệu mẫu trông như thế này:

Để có được đầu ra mong muốn, bạn nên viết mã này:

với all_users là (SELECT date_part ('month', time_id) AS tháng, đếm (DISTINCT user_id) là all_users FROM fact_events GROUP BY theo tháng), new_users là (SELECT date_part ('month', new_user_start_date) AS tháng, số lượng (DISTINCT user_id) as new_users FROM (SELECT user_id, min (time_id) as new_user_start_date FROM fact_events GROUP BY user_id) sq GROUP BY theo tháng) CHỌN au.month, new_users / all_users :: decimal as share_new_users, 1- (new_users / all_users :: decimal) as share_existing_users TỪ all_users au THAM GIA new_users nu ON nu.month = au.month 

Viết mã trong SQL là khái niệm thường được thử nghiệm nhất khi nói đến viết mã. Không có gì ngạc nhiên khi SQL là công cụ được sử dụng nhiều nhất trong khoa học dữ liệu. Một trong những khái niệm bạn hầu như không thể tránh khỏi trong các cuộc phỏng vấn là tham gia. Vì vậy, hãy đảm bảo rằng bạn biết sự khác biệt giữa các phép nối khác nhau và cách sử dụng chúng để nhận được kết quả cần thiết.

Ngoài ra, bạn có thể mong đợi nhóm dữ liệu bằng cách sử dụng mệnh đề GROUP BY rất thường xuyên. Một số khái niệm khác thường được hỏi là lọc dữ liệu bằng mệnh đề WHERE và / hoặc HAVING. Bạn cũng sẽ được yêu cầu chọn dữ liệu riêng biệt. Ngoài ra, hãy đảm bảo rằng bạn biết các hàm tổng hợp, chẳng hạn như SUM (), AVG (), COUNT (), MIN (), MAX ().

Một số khái niệm không xảy ra thường xuyên, nhưng điều đáng nói là chúng ta phải chuẩn bị cho những câu hỏi như vậy. Ví dụ, Biểu thức Bảng chung hoặc CTE là một trong những chủ đề như vậy. Cái còn lại là mệnh đề CASE (). Ngoài ra, đừng quên làm mới bộ nhớ của bạn về việc xử lý các kiểu dữ liệu chuỗi và ngày tháng.

Mô hình hóa

Mô hình hóa là danh mục lớn thứ hai trong dữ liệu nghiên cứu của chúng tôi, với 20% tổng số câu hỏi đến từ đây. Những câu hỏi này được thiết kế để kiểm tra kiến ​​thức của bạn về việc xây dựng mô hình thống kê và triển khai mô hình học máy.

Ví dụ về mô hình câu hỏi phỏng vấn

Hồi quy, khái niệm khoa học dữ liệu kỹ thuật phổ biến nhất được hỏi trong các cuộc phỏng vấn. Không có gì đáng ngạc nhiên khi xem xét bản chất của mô hình thống kê.

Một ví dụ từ Galvanize sẽ như sau:

CÂU HỎI: "Chính quy hóa trong hồi quy là gì?"

Đây là cách bạn có thể trả lời câu hỏi này:

CÂU TRẢ LỜI: “Chính quy hóa là một loại hồi quy đặc biệt trong đó các ước lượng hệ số bị ràng buộc (hoặc chính quy) bằng không. Bằng cách này, có thể giảm phương sai của mô hình đồng thời giảm sai số lấy mẫu. Việc điều tiết hóa được sử dụng để tránh hoặc giảm việc trang bị quá nhiều. Việc trang bị quá mức xảy ra khi mô hình học dữ liệu đào tạo quá tốt, nó làm suy yếu hiệu suất của mô hình trên dữ liệu mới. Để tránh trang bị quá nhiều, các quy định của Ridge hoặc Lasso thường được sử dụng. "

Một số khái niệm được kiểm tra thường xuyên lại là các khái niệm phân tích hồi quy khác, chẳng hạn như hồi quy logistic, hồi quy logistic Bayes và bộ phân loại Bayes ngây thơ. Bạn cũng có thể được hỏi về các khu rừng ngẫu nhiên, cũng như thử nghiệm và đánh giá các mô hình.

Các thuật toán

Các câu hỏi về thuật toán là tất cả các câu hỏi yêu cầu giải quyết một vấn đề toán học, chủ yếu thông qua mã bằng cách sử dụng một trong các ngôn ngữ lập trình. Những câu hỏi này liên quan đến quá trình từng bước, thường yêu cầu điều chỉnh hoặc tính toán để đưa ra câu trả lời. Những câu hỏi này kiểm tra kiến ​​thức cơ bản về giải quyết vấn đề và thao tác dữ liệu, có thể được thực hiện cho các vấn đề phức tạp trong công việc.

Ví dụ câu hỏi phỏng vấn thuật toán

Khái niệm kỹ thuật được thử nghiệm nhiều nhất dưới các thuật toán là giải quyết một vấn đề toán học hoặc cú pháp bằng một ngôn ngữ lập trình.

Đây là một ví dụ bạn có thể tìm thấy trên Leetcode:

CÂU HỎI: “Bạn được cho hai danh sách liên kết không trống, biểu thị hai số nguyên không âm. Các chữ số được lưu theo thứ tự ngược lại và mỗi nút của chúng chứa một chữ số. Cộng hai số và trả về tổng dưới dạng danh sách liên kết.”

Ví dụ về dữ liệu có thể là một cái gì đó như sau:

Nguồn: Leetcode.

CÂU TRẢ LỜI: Mã được viết bằng Java phải là:

public ListNode addTwoNumbers (ListNode l1, ListNode l2) {ListNode dummyHead = new ListNode (0); ListNode p = l1, q = l2, curr = dummyHead; int carry = 0; while (p! = null || q! = null) {int x = (p! = null)? p.val: 0; int y = (q! = null)? q.val: 0; int sum = carry + x + y; mang = sum / 10; curr.next = new ListNode (sum% 10); curr = curr.next; if (p! = null) p = p.next; if (q! = null) q = q.next; } if (carry> 0) {curr.next = new ListNode (carry); } trả về dummyHead.next; } 

Các khái niệm chung khác thường được kiểm tra bởi loại câu hỏi này là mảng, lập trình động, chuỗi, thuật toán tham lam, tìm kiếm theo chiều sâu, cây, bảng băm và tìm kiếm nhị phân.

Thống kê học

Câu hỏi phỏng vấn thống kê là câu hỏi kiểm tra kiến ​​thức về lý thuyết thống kê và các nguyên tắc liên quan. Những câu hỏi này nhằm thử mức độ quen thuộc của bạn với các nguyên tắc lý thuyết cơ bản trong khoa học dữ liệu. Có thể hiểu được nền tảng lý thuyết và toán học của các phân tích đang được thực hiện là điều quan trọng. Hãy trả lời tốt những câu hỏi đó, và mọi người phỏng vấn sẽ đánh giá cao bạn.

Ví dụ câu hỏi phỏng vấn thống kê

Khái niệm kỹ thuật được đề cập nhiều nhất là lấy mẫu và phân phối. Đối với một nhà khoa học dữ liệu, đây là một trong những nguyên tắc thống kê được sử dụng phổ biến nhất mà nhà khoa học dữ liệu thực hiện hàng ngày.

Ví dụ, một câu hỏi phỏng vấn từ IBM yêu cầu:

CÂU HỎI: “Ví dụ về kiểu dữ liệu có phân phối không phải Gauss là gì?”

Để trả lời câu hỏi, trước tiên bạn có thể xác định phân phối Gaussian. Sau đó, bạn có thể làm theo điều này bằng cách đưa ra các ví dụ về phân phối không theo Gauss. Một cái gì đó như thế này:

CÂU TRẢ LỜI: “Phân phối Gauss là một phân phối trong đó một phần trăm dữ liệu đã biết nhất định có thể được tìm thấy khi kiểm tra độ lệch chuẩn so với giá trị trung bình, hay còn được gọi là phân phối chuẩn. Một số ví dụ về phân phối không theo Gauss có thể là phân phối hàm mũ hoặc phân phối nhị thức ”.

Khi chuẩn bị cho cuộc phỏng vấn xin việc, hãy đảm bảo bạn cũng bao gồm các chủ đề sau: phương sai và độ lệch chuẩn, hiệp phương sai và tương quan, giá trị p, trung bình và trung vị, kiểm định giả thuyết và thống kê Bayes. Đây là tất cả các khái niệm bạn sẽ cần với tư cách là một nhà khoa học dữ liệu, vì vậy hãy mong đợi chúng trong các cuộc phỏng vấn xin việc.

Xác suất

Những câu hỏi này chỉ yêu cầu kiến ​​thức lý thuyết về các khái niệm xác suất. Người phỏng vấn hỏi những câu hỏi này để hiểu sâu hơn kiến ​​thức của bạn về các phương pháp và cách sử dụng xác suất để hoàn thành các nghiên cứu dữ liệu phức tạp thường được thực hiện tại nơi làm việc.

Ví dụ câu hỏi phỏng vấn xác suất

Rất có thể xảy ra, nhằm mục đích chơi chữ, câu hỏi bạn sẽ nhận được là tính xác suất nhận được một thẻ / số nhất định từ một bộ xúc xắc / thẻ. Đây dường như là yếu tố câu hỏi phổ biến nhất đối với hầu hết các công ty trong nghiên cứu của chúng tôi, vì nhiều công ty đã hỏi những loại câu hỏi này.

Một ví dụ về một câu hỏi xác suất từ ​​Facebook:

CÂU HỎI: "Xác suất để có được một cặp bằng cách rút hai thẻ riêng biệt trong bộ bài 52 lá là bao nhiêu?"

Đây là cách bạn có thể trả lời điều này:

CÂU TRẢ LỜI: “Lá bài đầu tiên bạn rút có thể là bất cứ thứ gì, vì vậy nó không ảnh hưởng đến kết quả ngoài việc bộ bài còn lại một lá bài ít hơn. Khi lá bài đầu tiên được rút ra, có ba lá bài còn lại trong bộ bài có thể được rút ra để lấy một cặp. Vì vậy, cơ hội kết hợp thẻ đầu tiên của bạn với một cặp là 3 trong số 51 (thẻ còn lại). Điều này có nghĩa là xác suất sự kiện này xảy ra là 3/51 hoặc 5.89% ”.

Vì đây là một dạng câu hỏi "chuyên biệt" chỉ đề cập đến xác suất, không có khái niệm nào khác được hỏi. Sự khác biệt duy nhất là mức độ tưởng tượng của câu hỏi. Nhưng về cơ bản, bạn sẽ luôn phải tính toán xác suất của một số sự kiện và thể hiện tư duy của mình.

Sản phẩm

Các câu hỏi phỏng vấn sản phẩm sẽ yêu cầu bạn đánh giá hiệu suất của một sản phẩm / dịch vụ thông qua dữ liệu. Những câu hỏi này kiểm tra kiến ​​thức của bạn về việc thích ứng và sử dụng các nguyên tắc khoa học dữ liệu trong bất kỳ môi trường nào, như trường hợp của công việc hàng ngày.

Ví dụ câu hỏi phỏng vấn sản phẩm

Khái niệm kỹ thuật nổi bật nhất trong danh mục này là xác định sản phẩm của công ty và đề xuất cải tiến từ quan điểm của nhà khoa học dữ liệu. Sự khác biệt cao trong các khái niệm kỹ thuật được thử nghiệm trên mặt sản phẩm có thể được giải thích bởi bản chất của các câu hỏi về sản phẩm và mức độ sáng tạo cao hơn cần thiết để trả lời những câu hỏi này.

Một ví dụ về một câu hỏi về sản phẩm từ Facebook sẽ là:

CÂU HỎI: “Sản phẩm Facebook yêu thích của bạn là gì và bạn sẽ cải thiện sản phẩm đó như thế nào?”

CÂU TRẢ LỜI: Do tính chất của câu hỏi, chúng tôi sẽ để bạn tự trả lời câu hỏi này.

Các khái niệm chung được kiểm tra phụ thuộc rất nhiều vào công ty đang phỏng vấn bạn. Chỉ cần đảm bảo rằng bạn đã quen thuộc với hoạt động kinh doanh của công ty và sản phẩm của họ (lý tưởng nhất là bạn cũng là người dùng của họ), và bạn sẽ ổn thôi.

Trường hợp kinh doanh

Danh mục này bao gồm các nghiên cứu điển hình và các câu hỏi chung chung liên quan đến doanh nghiệp sẽ kiểm tra kỹ năng khoa học dữ liệu. Ý nghĩa của việc biết cách trả lời những câu hỏi này có thể rất lớn vì một số người phỏng vấn muốn ứng viên biết cách áp dụng các nguyên tắc khoa học dữ liệu để giải quyết các vấn đề cụ thể của công ty trước khi tuyển dụng họ.

Ví dụ câu hỏi tình huống kinh doanh

Do bản chất của loại câu hỏi, tôi không thể xác định một khái niệm kỹ thuật nào nổi bật. Vì hầu hết các câu hỏi được phân loại ở đây là nghiên cứu điển hình, chúng là duy nhất theo một cách nhất định.

Tuy nhiên, đây là một ví dụ về câu hỏi tình huống kinh doanh từ Uber:

CÂU HỎI: “Có một nhóm người đã đi Uber từ hai thành phố gần nhau, chẳng hạn như Menlo Park và Palo Alto, và bất kỳ dữ liệu nào bạn có thể nghĩ đến đều có thể được thu thập. Bạn sẽ thu thập dữ liệu nào để có thể xác định được thành phố mà hành khách đã đi xe? "

CÂU TRẢ LỜI: “Để xác định thành phố, chúng ta cần có quyền truy cập vào dữ liệu vị trí / địa lý. Dữ liệu được thu thập có thể là tọa độ GPS, kinh độ / vĩ độ và mã ZIP. ”

Thiết kế hệ thống

Câu hỏi thiết kế hệ thống là tất cả các câu hỏi liên quan đến thiết kế hệ thống công nghệ. Họ được yêu cầu phân tích quy trình của ứng viên trong việc giải quyết vấn đề, tạo và thiết kế hệ thống để giúp đỡ khách hàng / khách hàng. Biết thiết kế hệ thống có thể khá quan trọng đối với một nhà khoa học dữ liệu; ngay cả khi vai trò của bạn không phải là thiết kế một hệ thống, bạn rất có thể sẽ đóng một vai trò nào đó trong một hệ thống đã được thiết lập và cần biết nó hoạt động như thế nào để thực hiện công việc của bạn.

Ví dụ câu hỏi phỏng vấn thiết kế hệ thống

Những câu hỏi này bao gồm các chủ đề và nhiệm vụ khác nhau. Nhưng điều nổi bật là xây dựng cơ sở dữ liệu. Các nhà khoa học dữ liệu xử lý rất nhiều cơ sở dữ liệu hàng ngày, vì vậy bạn nên đặt câu hỏi này để xem liệu bạn có thể xây dựng cơ sở dữ liệu từ đầu hay không.

Đây là một câu hỏi ví dụ từ Audible được khám phá trong nghiên cứu của chúng tôi:

CÂU HỎI: “Bạn có thể hướng dẫn chúng tôi cách bạn xây dựng hệ thống đề xuất không?”

CÂU TRẢ LỜI: Vì có rất nhiều cách tiếp cận để trả lời câu hỏi này, chúng tôi sẽ để bạn đưa ra cách xây dựng một cách của riêng bạn.

Một lần nữa, để trả lời những câu hỏi này, điều cần thiết là phải biết hoạt động kinh doanh của công ty. Hãy suy nghĩ một chút về cơ sở dữ liệu mà công ty có lẽ cần nhất và cố gắng xây dựng phương pháp tiếp cận của bạn một chút trước khi phỏng vấn.

Kỹ thuật

Các câu hỏi kỹ thuật là tất cả các câu hỏi về việc giải thích các khái niệm kỹ thuật khoa học dữ liệu khác nhau. Các câu hỏi kỹ thuật là lý thuyết và yêu cầu kiến ​​thức về công nghệ bạn sẽ sử dụng tại công ty. Do bản chất, chúng có thể giống với các câu hỏi mã hóa. Biết lý thuyết đằng sau những gì bạn đang làm là khá quan trọng, vì vậy các câu hỏi kỹ thuật thường có thể được hỏi trong các cuộc phỏng vấn.

Ví dụ về câu hỏi phỏng vấn kỹ thuật

Lĩnh vực được kiểm tra nhiều nhất là kiến ​​thức lý thuyết về Python và SQL. Không có gì đáng ngạc nhiên, vì hai ngôn ngữ này đang thống trị trong khoa học dữ liệu, cùng với R để bổ sung cho Python.

Một ví dụ về một câu hỏi kỹ thuật trong thế giới thực từ Walmart sẽ là:

CÂU HỎI: "Cấu trúc dữ liệu trong Python là gì?"

CÂU TRẢ LỜI: “Các cấu trúc dữ liệu được sử dụng để lưu trữ dữ liệu. Có bốn cấu trúc dữ liệu trong Python: Danh sách, Từ điển, Tuple và Tập hợp. Đó là những cấu trúc dữ liệu được tạo sẵn. Danh sách được sử dụng để tạo danh sách có thể chứa các loại dữ liệu khác nhau. Từ điển về cơ bản là một tập hợp các khóa; chúng được sử dụng để lưu trữ một giá trị bằng một khóa và lấy dữ liệu bằng chính khóa đó. Tuples cũng giống như danh sách. Sự khác biệt là trong một bộ, không thể thay đổi dữ liệu. Tập hợp chứa các phần tử không có thứ tự không có bản sao. Cùng với các cấu trúc dữ liệu được tạo sẵn, còn có các cấu trúc dữ liệu do người dùng định nghĩa ”.

Đây là tất cả các dạng câu hỏi. Đây là danh mục dành cho tất cả các câu hỏi không thể hoàn toàn phù hợp với các danh mục khác. Do đó, không có khái niệm cụ thể nào xảy ra thường xuyên hơn hoặc ít hơn.

Kết luận

Hướng dẫn phỏng vấn khoa học dữ liệu này đã được viết để hỗ trợ nghiên cứu được thực hiện để hiểu các loại câu hỏi được đặt ra trong một cuộc phỏng vấn khoa học dữ liệu. Dữ liệu của các câu hỏi phỏng vấn được lấy từ hàng chục công ty trong khoảng thời gian XNUMX năm và được phân tích. Các câu hỏi đã được phân loại theo chín loại câu hỏi khác nhau (thuật toán, trường hợp nghiệp vụ, mã hóa, mô hình hóa, xác suất, sản phẩm, thống kê, thiết kế hệ thống và câu hỏi kỹ thuật).

Là một phần của phân tích, tôi đã nói về một số khái niệm kỹ thuật phổ biến nhất từ ​​mỗi danh mục loại câu hỏi. Ví dụ: các câu hỏi thống kê được hỏi nhiều nhất liên quan đến lấy mẫu và phân phối. Mỗi loại câu hỏi đều được hỗ trợ bởi một ví dụ thực tế về câu hỏi thực tế.

Bài viết nhằm phục vụ bạn như một hướng dẫn quan trọng cho việc chuẩn bị phỏng vấn hoặc đơn giản là tìm hiểu thêm về khoa học dữ liệu. Tôi hy vọng tôi đã giúp bạn cảm thấy thoải mái hơn về quy trình phỏng vấn khoa học dữ liệu. Chúc may mắn với cuộc phỏng vấn của bạn!

Nguyên. Đăng lại với sự cho phép.

Liên quan:

Nguồn: https://www.kdnuggets.com/2021/08/common-data-science-interview-questions-answers.html

Dấu thời gian:

Thêm từ Xe đẩy