5 lý do tại sao bạn cần dữ liệu tổng hợp

Được xuất bản lại bởi Plato

Người theo dõi: 0

5 lý do tại sao bạn cần dữ liệu tổng hợp
Dữ liệu tổng hợp được tạo từ Kubric

Để đào tạo một mô hình học máy, bạn cần có dữ liệu. Các nhiệm vụ khoa học dữ liệu thường không phải là một cuộc thi Kaggle nơi bạn có một tập dữ liệu lớn được tuyển chọn được dán nhãn trước. Đôi khi bạn phải thu thập, sắp xếp và làm sạch dữ liệu của riêng mình. Quá trình thu thập và ghi nhãn dữ liệu trong thế giới thực này có thể tốn thời gian, cồng kềnh, tốn kém, không chính xác và đôi khi nguy hiểm. Hơn nữa, khi kết thúc quá trình này, bạn có thể kết thúc với dữ liệu bạn gặp trong thế giới thực không nhất thiết phải là dữ liệu bạn mong muốn về chất lượng, tính đa dạng (ví dụ: mất cân bằng lớp) và số lượng. Dưới đây là những vấn đề phổ biến bạn có thể gặp phải khi làm việc với dữ liệu thực:

Việc thu thập và ghi nhãn dữ liệu thực không thể mở rộng được
Việc gắn nhãn dữ liệu thực theo cách thủ công đôi khi không thể thực hiện được
Dữ liệu thực có vấn đề về quyền riêng tư và an toàn
Dữ liệu thực không thể lập trình được
Một mô hình được đào tạo riêng trên dữ liệu thực sẽ không đủ hiệu suất (ví dụ: tốc độ phát triển chậm)

May mắn thay, những vấn đề như thế này có thể được giải quyết bằng dữ liệu tổng hợp. Có thể bạn đang thắc mắc, dữ liệu tổng hợp là gì? Dữ liệu tổng hợp có thể được định nghĩa là dữ liệu được tạo nhân tạo, thường được tạo bằng thuật toán mô phỏng các quy trình trong thế giới thực, từ hành vi của những người tham gia giao thông khác cho đến hành vi của ánh sáng khi nó tương tác với các bề mặt. Bài đăng này đề cập đến những hạn chế của dữ liệu trong thế giới thực và cách dữ liệu tổng hợp có thể giúp khắc phục những vấn đề này và cải thiện hiệu suất mô hình.

Đối với các tập dữ liệu nhỏ, thường có thể thu thập và gắn nhãn dữ liệu theo cách thủ công; tuy nhiên, nhiều tác vụ học máy phức tạp đòi hỏi phải có bộ dữ liệu lớn để đào tạo. Ví dụ: các mô hình được đào tạo cho các ứng dụng xe tự hành cần lượng lớn dữ liệu được thu thập từ các cảm biến gắn trên ô tô hoặc máy bay không người lái. Quá trình thu thập dữ liệu này diễn ra chậm và có thể mất vài tháng hoặc thậm chí nhiều năm. Sau khi dữ liệu thô được thu thập, con người phải chú thích thủ công, điều này cũng tốn kém và tốn thời gian. Hơn nữa, không có gì đảm bảo rằng dữ liệu được gắn nhãn trả về sẽ có ích như dữ liệu huấn luyện, vì nó có thể không chứa các ví dụ cho biết những lỗ hổng kiến thức hiện tại của mô hình.

[nội dung được nhúng] [nội dung được nhúng]

Việc dán nhãn cho dữ liệu này thường liên quan đến việc con người vẽ nhãn bằng tay lên trên dữ liệu cảm biến. Điều này rất tốn kém vì các nhóm ML được trả lương cao thường dành phần lớn thời gian của họ để đảm bảo các nhãn là chính xác và gửi lại lỗi cho người gắn nhãn. Điểm mạnh chính của dữ liệu tổng hợp là bạn có thể tạo bao nhiêu dữ liệu được gắn nhãn hoàn hảo tùy thích. Tất cả những gì bạn cần là một cách để tạo ra dữ liệu tổng hợp chất lượng.

Phần mềm nguồn mở để tạo dữ liệu tổng hợp: Kubric (video đa đối tượng với mặt nạ phân đoạn, bản đồ độ sâu và luồng quang học) và SDV (dữ liệu dạng bảng, quan hệ và chuỗi thời gian).

Một số (trong số nhiều) công ty bán sản phẩm hoặc xây dựng nền tảng có thể tạo ra dữ liệu tổng hợp bao gồm Gretel.ai (bộ dữ liệu tổng hợp đảm bảo tính riêng tư của dữ liệu thực), NVIDIA (vạn vật), và Miền song song (xe tự lái). Để biết thêm, xem danh sách các công ty dữ liệu tổng hợp năm 2022.

5 lý do tại sao bạn cần dữ liệu tổng hợp
Hình ảnh từ Miền song song

Có một số dữ liệu mà con người không thể giải thích và dán nhãn đầy đủ. Dưới đây là một số trường hợp sử dụng trong đó dữ liệu tổng hợp là lựa chọn duy nhất:

Đánh giá chính xác độ sâu và luồng quang từ những hình ảnh đơn lẻ
Các ứng dụng tự lái sử dụng dữ liệu radar mà mắt người không nhìn thấy được
Tạo hàng giả sâu có thể được sử dụng để kiểm tra hệ thống nhận dạng khuôn mặt

5 lý do tại sao bạn cần dữ liệu tổng hợp
Hình ảnh của Michael Galarnyk

Dữ liệu tổng hợp rất hữu ích cho các ứng dụng trong các miền mà bạn không thể dễ dàng lấy được dữ liệu thực. Điều này bao gồm một số loại dữ liệu tai nạn ô tô và hầu hết các loại dữ liệu sức khỏe có các hạn chế về quyền riêng tư (ví dụ: hồ sơ sức khỏe điện tử). Trong những năm gần đây, các nhà nghiên cứu chăm sóc sức khỏe đã quan tâm đến việc dự đoán chứng rung tâm nhĩ (nhịp tim không đều) bằng tín hiệu ECG và PPG. Việc phát triển máy phát hiện rối loạn nhịp tim không chỉ là thách thức vì việc chú thích các tín hiệu này rất tẻ nhạt và tốn kém mà còn vì những hạn chế về quyền riêng tư. Đây là một lý do tại sao có nghiên cứu mô phỏng các tín hiệu này.

Điều quan trọng cần nhấn mạnh là việc thu thập dữ liệu thực không chỉ tốn thời gian và sức lực mà còn thực sự có thể nguy hiểm. Một trong những vấn đề cốt lõi với các ứng dụng robot như ô tô tự lái là chúng là những ứng dụng vật lý của học máy. Bạn không thể triển khai một mô hình không an toàn trong thế giới thực và gặp sự cố do thiếu dữ liệu liên quan. Việc tăng cường tập dữ liệu bằng dữ liệu tổng hợp có thể giúp các mô hình tránh được những vấn đề này.

Sau đây là một số công ty sử dụng dữ liệu tổng hợp để cải thiện độ an toàn của ứng dụng: Toyota, Waymovà Cruise.

5 lý do tại sao bạn cần dữ liệu tổng hợp
Hình ảnh từ Miền song song

Hình ảnh tổng hợp về một đứa trẻ bị nhốt trên một chiếc xe đạp xuất hiện từ phía sau xe buýt của trường và đạp xe qua đường trong môi trường kiểu ngoại ô California.

Các ứng dụng xe tự hành thường xử lý các sự kiện tương đối “không phổ biến” (so với điều kiện lái xe bình thường) như người đi bộ vào ban đêm hoặc người đi xe đạp đi giữa đường. Các mô hình thường cần hàng trăm nghìn, thậm chí hàng triệu ví dụ để tìm hiểu một kịch bản. Một vấn đề lớn là dữ liệu trong thế giới thực được thu thập có thể không phải là dữ liệu bạn đang tìm kiếm về chất lượng, tính đa dạng (ví dụ: mất cân bằng giai cấp, điều kiện thời tiết, địa điểm) và số lượng. Một vấn đề khác là đối với ô tô tự lái và robot, không phải lúc nào bạn cũng biết mình cần dữ liệu gì, không giống như các tác vụ học máy truyền thống với bộ dữ liệu cố định và điểm chuẩn cố định. Mặc dù một số kỹ thuật tăng cường dữ liệu làm thay đổi hình ảnh một cách có hệ thống hoặc ngẫu nhiên là hữu ích, những kỹ thuật này có thể giới thiệu vấn đề của riêng họ.

Đây là nơi xuất hiện dữ liệu tổng hợp. API tạo dữ liệu tổng hợp cho phép bạn thiết kế các tập dữ liệu. Các API này có thể giúp bạn tiết kiệm rất nhiều tiền vì việc chế tạo robot và thu thập dữ liệu trong thế giới thực rất tốn kém. Sẽ tốt hơn và nhanh hơn nhiều nếu cố gắng tạo dữ liệu và tìm ra các nguyên tắc kỹ thuật bằng cách tạo tập dữ liệu tổng hợp.

Sau đây là các ví dụ nêu bật cách dữ liệu tổng hợp có thể lập trình giúp mô hình học hỏi: ngăn chặn các giao dịch gian lận (American Express), phát hiện người đi xe đạp tốt hơn (Miền song song)và phân tích và đánh giá phẫu thuật (Hutom.io).

5 lý do tại sao bạn cần dữ liệu tổng hợp
Các giai đoạn của chu trình phát triển mô hình | Hình ảnh từ Jules S. Damji

Trong công nghiệp có rất nhiều yếu tố ảnh hưởng đến khả năng tồn tại/hiệu suất của một dự án học máy trong cả quá trình phát triển và sản xuất (ví dụ: thu thập dữ liệu, chú thích, đào tạo mô hình, mở rộng quy mô, triển khai, giám sát, đào tạo lại mô hình và tốc độ phát triển). Gần đây, 18 kỹ sư máy học đã tham gia vào một nghiên cứu phỏng vấn có mục tiêu tìm hiểu các thách thức và thực tiễn MLOps phổ biến trong các tổ chức và ứng dụng (ví dụ: xe tự hành, phần cứng máy tính, bán lẻ, quảng cáo, hệ thống đề xuất, v.v.). Một trong những kết luận của nghiên cứu là tầm quan trọng của tốc độ phát triển, có thể được định nghĩa đại khái là khả năng tạo nguyên mẫu và lặp lại nhanh chóng các ý tưởng.

Một yếu tố ảnh hưởng đến tốc độ phát triển là cần có dữ liệu để đào tạo và đánh giá mô hình ban đầu cũng như đào tạo lại người mẫu thường xuyên do hiệu suất mô hình suy giảm theo thời gian do trôi dạt dữ liệu, trôi dạt khái niệm hoặc thậm chí sai lệch phục vụ đào tạo.

5 lý do tại sao bạn cần dữ liệu tổng hợp
Hình ảnh từ Rõ ràng là AI

Nghiên cứu cũng báo cáo rằng nhu cầu này đã khiến một số tổ chức thành lập một nhóm để dán nhãn dữ liệu trực tiếp thường xuyên. Điều này tốn kém, mất thời gian và hạn chế khả năng đào tạo lại các mô hình của tổ chức một cách thường xuyên.

5 lý do tại sao bạn cần dữ liệu tổng hợp
Hình ảnh từ Gretel.ai

Lưu ý, sơ đồ này không đề cập đến cách sử dụng dữ liệu tổng hợp cho những việc như Kiểm tra MLOps trong công cụ đề xuất.

Dữ liệu tổng hợp có tiềm năng được sử dụng cùng với dữ liệu trong thế giới thực trong vòng đời máy học (hình trên) để giúp các tổ chức duy trì hoạt động của mô hình của họ lâu hơn.

Việc tạo dữ liệu tổng hợp ngày càng trở nên phổ biến trong quy trình học máy. Trong thực tế, Gartner dự đoán đến năm 2030, dữ liệu tổng hợp sẽ được sử dụng nhiều hơn dữ liệu trong thế giới thực để đào tạo các mô hình học máy. Nếu bạn có bất kỳ câu hỏi hoặc suy nghĩ nào về bài đăng này, vui lòng liên hệ bằng cách bình luận bên dưới hoặc thông qua Twitter.

Michael Galarnyk là Chuyên gia Khoa học Dữ liệu và làm việc trong lĩnh vực Quan hệ nhà phát triển tại Anyscale.