Đừng chạm vào tập dữ liệu nếu không hỏi 10 câu hỏi này
Việc lựa chọn tập dữ liệu phù hợp là rất quan trọng cho sự thành công của dự án AI của bạn.
By Sandeep Uttamchandani, Tiến sĩ, Vừa là Nhà xây dựng Sản phẩm / Phần mềm (VP of Engg) & Lãnh đạo trong việc vận hành các sáng kiến Dữ liệu / AI (CDO) trên toàn doanh nghiệp
Dữ liệu là trái tim của một sản phẩm AI. Ngày càng có nhiều sự chú trọng vào việc điều chỉnh dữ liệu thay vì điều chỉnh các mô hình - do Andrew Ng đưa ra là AI tập trung vào dữ liệu. Theo kinh nghiệm của tôi, sự thành công hay thất bại của một dự án AI có thể được dự đoán bởi các bộ dữ liệu đang được sử dụng.
Nếu bạn là Nhà khoa học dữ liệu / Kỹ sư AI đang tìm cách xây dựng một mô hình mới hoặc Kỹ sư dữ liệu làm việc để xây dựng đường ống cho một dự án AI, đối với mỗi tập dữ liệu mà bạn có trong danh sách rút gọn, hãy hỏi những câu hỏi sau để tránh đau đầu và bỏ lỡ những kỳ vọng sau này trong vòng đời của AI.
1. Ý nghĩa của các thuộc tính tập dữ liệu có được ghi lại không?
Trước kỷ nguyên dữ liệu lớn, dữ liệu được sắp xếp trước khi được thêm vào kho dữ liệu trung tâm. Đây được gọi là lược đồ trên ghi. Ngày nay, cách tiếp cận với các hồ dữ liệu trước tiên là tổng hợp dữ liệu và sau đó suy ra ý nghĩa của dữ liệu tại thời điểm tiêu thụ. Đây được gọi là lược đồ khi đọc.
Các thuộc tính dữ liệu hiếm khi được ghi lại một cách chính xác hoặc được cập nhật. Trong khi có tài liệu có thể được coi là một bước làm chậm dự án, nó thực sự trở nên cực kỳ quan trọng trong quá trình gỡ lỗi mô hình. Xác định Người quản lý dữ liệu sở hữu tập dữ liệu và đảm bảo họ có thể cung cấp tài liệu chính xác nhất.
2. Các chỉ số tổng hợp / dẫn xuất trong tập dữ liệu có được chuẩn hóa không?
Dữ liệu hoặc số liệu có được có thể có nhiều nguồn xác thực và định nghĩa kinh doanh. Đảm bảo rằng các chỉ số có định nghĩa kinh doanh được lập thành văn bản rõ ràng (đôi khi ẩn trong ETL)
3. Tập dữ liệu có tuân thủ các quy định về quyền dữ liệu (chẳng hạn như GDPR, CCPA, v.v.)
Các quy định về quyền dữ liệu hiện đang trở nên quan trọng - điều quan trọng là phải theo dõi và thực thi các quy định này trong quá trình đào tạo và đào tạo lại mô hình. Ngày càng có nhiều quy định về quyền dữ liệu như GDPR, CCPA, Đạo luật bảo vệ dữ liệu chung của Braxin, Dự luật bảo vệ dữ liệu cá nhân của Ấn Độ và một số quy định khác, như thể hiện trong Hình. Các luật này yêu cầu dữ liệu khách hàng phải được thu thập, sử dụng và xóa dựa trên sở thích của họ. Có các khía cạnh khác nhau quyền dữ liệu, cụ thể là: Thu thập quyền dữ liệu, Sử dụng quyền dữ liệu, Xóa quyền dữ liệu, Quyền truy cập vào quyền dữ liệu.
4. Có quy trình quản lý thay đổi rõ ràng sao cho các thay đổi về lược đồ / định nghĩa tập dữ liệu sẽ được thông báo cho tất cả người tiêu dùng không?
Rất phổ biến là các thay đổi lược đồ tại nguồn không được phối hợp với quá trình xử lý xuôi dòng. Các thay đổi có thể bao gồm từ thay đổi giản đồ (phá vỡ các đường ống dẫn hiện có) đến các thay đổi địa chấn khó phát hiện đối với các thuộc tính dữ liệu. Ngoài ra, khi các số liệu kinh doanh thay đổi, sẽ thiếu các định nghĩa về phiên bản.
5. Bối cảnh mà tập dữ liệu được thu thập là gì?
Các tập dữ liệu hiếm khi nắm bắt được sự thật cuối cùng từ quan điểm thống kê. Họ chỉ nắm bắt các thuộc tính mà chủ sở hữu ứng dụng yêu cầu tại thời điểm đó cho trường hợp sử dụng của họ. Điều quan trọng là phải phân tích các tập dữ liệu để tìm ra dữ liệu sai lệch và dữ liệu bị loại bỏ. Hiểu ngữ cảnh của tập dữ liệu là siêu tới hạn.
6. Dữ liệu có phải là IID không?
Sản phẩm giả thiết ẩn của đào tạo mô hình là dữ liệu IID (Độc lập và phân phối giống nhau). Ngoài ra, dữ liệu có thời hạn sử dụng. Hồ sơ về hành vi của khách hàng từ 10 năm trở lại đây có thể không mang tính đại diện.
7. Tập dữ liệu có được kiểm tra / xác nhận đối với các lỗi hệ thống trong việc thu thập dữ liệu không?
Nếu các lỗi trong tập dữ liệu là ngẫu nhiên, chúng ít gây hại cho việc đào tạo mô hình hơn. Nhưng nếu có một lỗi khiến một hàng hoặc cột cụ thể bị thiếu một cách có hệ thống, nó có thể dẫn đến sai lệch trong tập dữ liệu. Ví dụ: thiếu chi tiết thiết bị về các lần nhấp của khách hàng đối với danh mục người dùng do lỗi, tập dữ liệu sẽ không đại diện cho thực tế.
8. Tập dữ liệu có được theo dõi các thay đổi phân phối đột ngột không?
Bộ dữ liệu không ngừng phát triển. Phân tích phân phối dữ liệu không phải là hoạt động một lần chỉ được yêu cầu tại thời điểm tạo mô hình. Thay vào đó, cần phải liên tục theo dõi các bộ dữ liệu về sự trôi chảy, đặc biệt là đối với đào tạo trực tuyến.
9. Các ngoại lệ được xử lý như thế nào trong tập dữ liệu?
Các yếu tố ngoại lai không nhất thiết là xấu và đôi khi là yếu tố cần thiết để xây dựng mô hình một cách chính xác. Điều quan trọng là phải hiểu liệu các giá trị ngoại lai có được lọc trong quá trình thu thập hay không và logic / tiêu chí là gì.
10. Tập dữ liệu có một Trình quản lý dữ liệu được chỉ định không? (áp dụng cho các đội có quy mô lớn hơn)
Các tập dữ liệu sẽ vô dụng nếu chúng không thể hiểu được. Cố gắng đảo ngược ý nghĩa của các cột thường là một "trận thua". Điều quan trọng là đảm bảo rằng có Người quản lý dữ liệu chịu trách nhiệm về tập dữ liệu để cập nhật và phát triển các chi tiết tài liệu.
Theo kinh nghiệm của tôi, câu trả lời cho những câu hỏi này giúp chủ động khám phá những điều đã biết, những điều chưa biết và những điều chưa biết trong tập dữ liệu. Điều quan trọng là mỗi câu hỏi có một câu trả lời khẳng định. Thay vào đó, việc tính đến những phản hồi này có thể tăng tốc vòng đời của AI và giúp tránh các điểm mù.
Tiểu sử: Sandeep Uttamchandani, Tiến sĩ: Dữ liệu + AI / ML - Vừa là Nhà xây dựng Sản phẩm / Phần mềm (VP of Engg) & Người dẫn đầu trong việc vận hành các sáng kiến Dữ liệu / AI (CDO) trên toàn doanh nghiệp | Tác giả cuốn sách O'Reilly | Người sáng lập - DataForHumanity (phi lợi nhuận)
Liên quan:
Nguồn: https://www.kdnuggets.com/2021/09/dataset-asking-10-questions.html
- "
- &
- truy cập
- Tài khoản
- AI
- Tất cả
- phân tích
- đã ném
- Các Ứng Dụng
- ứng dụng
- trận đánh
- Dữ Liệu Lớn.
- Hóa đơn
- Bug
- xây dựng
- xây dựng
- Xây dựng
- kinh doanh
- CCPA
- thay đổi
- Cột
- Chung
- Người tiêu dùng
- tiêu thụ
- dữ liệu
- bảo vệ dữ liệu
- khoa học dữ liệu
- kho dữ liệu
- học kĩ càng
- hủy bỏ
- ky sư
- Kỹ Sư
- vv
- Excel
- kinh nghiệm
- thăm dò
- Đối mặt
- Không
- Hình
- Tên
- người sáng lập
- GDPR
- Tổng Quát
- Phát triển
- đau đầu
- Độ đáng tin của
- HTTPS
- xác định
- Ấn Độ
- IT
- Key
- Luật
- dẫn
- học tập
- Dòng
- học máy
- quản lý
- Metrics
- microsoft
- kiểu mẫu
- cụ thể là
- phi lợi nhuận
- Trực tuyến
- mở
- hoạt động
- Khác
- chủ sở hữu
- dữ liệu cá nhân
- danh mục đầu tư
- Sản phẩm
- dự án
- bảo vệ
- Python
- phạm vi
- Thực tế
- hồ sơ
- quy định
- đảo ngược
- Khoa học
- các nhà khoa học
- kỹ năng
- Chậm
- tốc độ
- Những câu chuyện
- thành công
- Kiểm tra
- Nguồn
- thời gian
- hàng đầu
- chạm
- theo dõi
- Hội thảo
- Cập nhật
- Kho
- web
- Là gì
- CHÚNG TÔI LÀ
- ở trong
- X
- năm
- youtube