Phương pháp tiếp cận để quy nạp dữ liệu

Phương pháp tiếp cận để quy nạp dữ liệu

Nút nguồn: 1895750

Phương pháp tiếp cận để quy nạp dữ liệu
Photo by Ròn Lạch
 

Các tập dữ liệu trong thế giới thực hiếm khi hoàn hảo và thường đi kèm với các giá trị bị thiếu hoặc thông tin không đầy đủ. Những lỗi này có thể là do yếu tố con người (khảo sát được điền không chính xác hoặc không được thực hiện) hoặc công nghệ (cảm biến bị trục trặc). Dù là trường hợp nào đi chăng nữa, bạn thường bị thiếu các giá trị hoặc thông tin.

Tất nhiên, điều này trình bày một vấn đề. Nếu không có các giá trị bị thiếu, toàn bộ tập dữ liệu có thể được coi là không sử dụng được. Nhưng vì phải mất nhiều thời gian, công sức và (trong nhiều trường hợp) tiền bạc để có được dữ liệu chất lượng cao, xử lý dữ liệu không chính xác và bắt đầu lại có thể không phải là lựa chọn khả thi. Thay vào đó, chúng ta phải tìm cách khắc phục hoặc thay thế các giá trị bị thiếu này. Đây là nơi quy nạp dữ liệu xuất hiện. 

Hướng dẫn này sẽ thảo luận về việc cắt bỏ dữ liệu cũng như các loại phương pháp tiếp cận mà nó hỗ trợ.

Mặc dù chúng tôi không thể thay thế dữ liệu bị thiếu hoặc bị hỏng, nhưng có những phương pháp chúng tôi có thể sử dụng để cho phép bộ dữ liệu vẫn có thể sử dụng được. Việc cắt bỏ dữ liệu là một trong những kỹ thuật đáng tin cậy nhất để đạt được điều này. Tuy nhiên, trước tiên chúng ta phải xác định loại dữ liệu nào bị thiếu và tại sao. 

Trong thống kê và khoa học dữ liệu, có ba loại dữ liệu bị thiếu chính:

  • Thiếu ngẫu nhiên (MAR), trong đó dữ liệu bị thiếu được gắn với một biến và cuối cùng có thể được quan sát hoặc truy tìm. Trong nhiều trường hợp, điều này có thể cung cấp cho bạn thêm thông tin về nhân khẩu học hoặc đối tượng dữ liệu. Chẳng hạn, những người ở một độ tuổi nhất định có thể quyết định bỏ qua một câu hỏi trong cuộc khảo sát hoặc xóa hệ thống theo dõi khỏi thiết bị của họ vào những thời điểm nhất định. 
  • Thiếu hoàn toàn ngẫu nhiên (MCAR), Onde o dữ liệu bị mất không thể được quan sát hoặc truy tìm đến một biến. Gần như không thể nhận ra lý do tại sao dữ liệu bị thiếu.
  • Thiếu dữ liệu không bị thiếu ngẫu nhiên (NMAR), trong đó dữ liệu bị thiếu được gắn với một biến quan tâm. Trong hầu hết các trường hợp, dữ liệu bị thiếu này có thể được bỏ qua. NMAR có thể xảy ra khi một người thực hiện khảo sát bỏ qua một câu hỏi không áp dụng cho họ.

Xử lý dữ liệu bị thiếu

Hiện tại, bạn có ba tùy chọn chính để xử lý các giá trị dữ liệu bị thiếu:

  • xóa
  • Áp đặt
  • Xem thường

Thay vì loại bỏ toàn bộ tập dữ liệu, bạn có thể sử dụng phương pháp xóa theo danh sách. Điều này liên quan đến việc xóa các bản ghi có thông tin hoặc giá trị bị thiếu. Ưu điểm chính của việc xóa theo danh sách là nó hỗ trợ cả ba loại dữ liệu bị thiếu. 

Tuy nhiên, điều này có thể dẫn đến mất dữ liệu bổ sung. Chúng tôi khuyên bạn chỉ nên sử dụng xóa danh sách trong trường hợp có nhiều giá trị bị thiếu (quan sát được) hơn giá trị hiện tại (quan sát được), chủ yếu là do không có đủ dữ liệu để suy luận hoặc thay thế chúng. 

Nếu dữ liệu bị thiếu quan sát được không quan trọng (không thể bỏ qua) và chỉ thiếu một vài giá trị, bạn có thể bỏ qua chúng và làm việc với những gì bạn có. Tuy nhiên, điều này không phải luôn luôn là một khả năng. Việc cắt bỏ dữ liệu đưa ra giải pháp thứ ba và có khả năng khả thi hơn. 

Việc gán dữ liệu liên quan đến việc thay thế các giá trị vắng mặt để các tập dữ liệu vẫn có thể sử dụng được. Có hai loại phương pháp tiếp cận quy nạp dữ liệu:

  • Độc thân
  • nhiều

Phương pháp quy nạp trung bình (MI) là một trong những hình thức quy nạp dữ liệu đơn lẻ nổi tiếng nhất.

Quy ước trung bình (MI)

MI là một hình thức quy nạp đơn giản. Điều này liên quan đến việc tính toán giá trị trung bình của các giá trị được quan sát và sử dụng kết quả để suy ra các giá trị còn thiếu. Thật không may, phương pháp này đã được chứng minh là không hiệu quả. Nó có thể dẫn đến nhiều ước tính sai lệch, ngay cả khi dữ liệu bị thiếu hoàn toàn một cách ngẫu nhiên. Ngoài ra, "độ chính xác" của các ước tính phụ thuộc vào số lượng giá trị bị thiếu. 

Chẳng hạn, nếu có một số lượng lớn các giá trị quan sát bị thiếu, sử dụng quy nạp trung bình có thể dẫn đến đánh giá thấp giá trị. Do đó, nó phù hợp hơn với các tập dữ liệu và biến chỉ thiếu một vài giá trị. 

Thay thế thủ công

Trong tình huống này, người vận hành có thể sử dụng kiến ​​thức trước đó về các giá trị của tập dữ liệu để thay thế các giá trị bị thiếu. Đó là một phương pháp quy nạp duy nhất dựa trên trí nhớ hoặc kiến ​​thức của người vận hành và đôi khi được gọi là kiến ​​thức trước về một số lý tưởng. Độ chính xác phụ thuộc vào khả năng nhớ lại các giá trị của người vận hành, vì vậy phương pháp này có thể phù hợp hơn với các tập dữ liệu chỉ có một vài giá trị bị thiếu.

K-Láng giềng gần nhất (K-NN)

K-hàng xóm gần nhất là một kỹ thuật nổi tiếng được sử dụng trong học máy để giải quyết các vấn đề hồi quy và phân loại. Nó sử dụng giá trị trung bình của giá trị dữ liệu bị thiếu của giá trị dữ liệu bị thiếu của hàng xóm để tính toán và quy nó. Các phương pháp K-NN hiệu quả hơn nhiều so với quy nạp trung bình đơn giản và lý tưởng cho các giá trị MCAR và MAR. 

Thay thế

Thay thế liên quan đến việc tìm kiếm một cá nhân hoặc đối tượng mới để khảo sát hoặc kiểm tra. Đây phải là đối tượng không được chọn trong mẫu ban đầu.

quy nạp hồi quy

Hồi quy cố gắng xác định độ mạnh của một biến phụ thuộc (thường được chỉ định là Y) đối với một tập hợp các biến độc lập (thường được ký hiệu là X). Hồi quy tuyến tính là hình thức hồi quy nổi tiếng nhất. Nó sử dụng dòng phù hợp nhất để dự đoán hoặc xác định giá trị còn thiếu. Do đó, đây là phương pháp tốt nhất để biểu diễn dữ liệu một cách trực quan thông qua mô hình hồi quy.

Khi hồi quy tuyến tính là một dạng hồi quy xác định trong đó thiết lập mối quan hệ chính xác giữa các giá trị bị thiếu và hiện tại, các giá trị bị thiếu được thay thế bằng dự đoán 100% của mô hình hồi quy. Tuy nhiên, có một hạn chế đối với phương pháp này. Hồi quy tuyến tính tất định thường có thể dẫn đến đánh giá quá cao mức độ chặt chẽ của mối quan hệ giữa các giá trị.

Stochastic hồi quy tuyến tính bù đắp cho “độ chính xác quá mức” của hồi quy xác định bằng cách đưa ra một thuật ngữ lỗi (ngẫu nhiên) vì hai tình huống hoặc biến số hiếm khi được kết nối hoàn hảo. Điều này làm cho việc điền vào các giá trị còn thiếu bằng cách sử dụng hồi quy trở nên phù hợp hơn.

Lấy mẫu boong nóng

Cách tiếp cận này liên quan đến việc chọn một giá trị được chọn ngẫu nhiên từ một đối tượng có các giá trị khác tương tự như đối tượng thiếu giá trị. Nó yêu cầu bạn tìm kiếm các đối tượng hoặc cá nhân và sau đó điền dữ liệu còn thiếu bằng các giá trị của chúng. 

Phương pháp lấy mẫu boong nóng giới hạn phạm vi giá trị có thể đạt được. Ví dụ: nếu mẫu của bạn bị giới hạn ở nhóm tuổi từ 20 đến 25, thì kết quả của bạn sẽ luôn nằm trong khoảng giữa các số này, làm tăng độ chính xác tiềm năng của giá trị thay thế. Các đối tượng/cá nhân cho phương pháp quy kết này được chọn ngẫu nhiên.

Lấy mẫu boong lạnh

Phương pháp này liên quan đến việc tìm kiếm một cá nhân/đối tượng có giá trị tương tự hoặc giống hệt nhau cho tất cả các biến/tham số khác trong tập dữ liệu. Ví dụ: đối tượng có thể có cùng chiều cao, nền tảng văn hóa và độ tuổi với đối tượng có giá trị bị thiếu. Nó khác với lấy mẫu sàn nóng ở chỗ các đối tượng được chọn và sử dụng lại một cách có hệ thống. 

Mặc dù có nhiều lựa chọn và kỹ thuật để xử lý dữ liệu bị thiếu, nhưng phòng bệnh luôn tốt hơn chữa bệnh. Các nhà nghiên cứu phải thực hiện nghiêm ngặt lập kế hoạch thí nghiệm và nghiên cứu. Nghiên cứu phải có một tuyên bố sứ mệnh rõ ràng hoặc mục tiêu trong tâm trí. 

Thông thường, các nhà nghiên cứu phức tạp hóa một nghiên cứu hoặc không lập kế hoạch chống lại các trở ngại, dẫn đến thiếu hoặc không đủ dữ liệu. Tốt nhất là luôn đơn giản hóa thiết kế của nghiên cứu đồng thời tập trung chính xác vào việc thu thập dữ liệu. 

Chỉ thu thập dữ liệu bạn cần để đáp ứng các mục tiêu của nghiên cứu và không có gì khác. Bạn cũng nên đảm bảo rằng tất cả các dụng cụ và cảm biến liên quan đến nghiên cứu hoặc thí nghiệm luôn hoạt động đầy đủ. Cân nhắc tạo bản sao lưu thường xuyên cho dữ liệu/phản hồi của bạn khi nghiên cứu tiến triển. 

Thiếu dữ liệu là một sự xuất hiện phổ biến. Ngay cả khi bạn triển khai các phương pháp hay nhất, bạn vẫn có thể gặp phải tình trạng dữ liệu không đầy đủ. May mắn thay, có nhiều cách để giải quyết vấn đề này sau khi thực tế.   

 
 
Nahla Davies là một nhà phát triển phần mềm và nhà văn công nghệ. Trước khi dành toàn bộ thời gian cho công việc viết lách kỹ thuật, cô đã xoay sở - trong số những việc hấp dẫn khác - để trở thành lập trình viên chính tại một tổ chức xây dựng thương hiệu giàu kinh nghiệm Inc. có khách hàng bao gồm Samsung, Time Warner, Netflix và Sony.
 

Dấu thời gian:

Thêm từ Xe đẩy