Dữ liệu tổng hợp được tạo từ Kubric
Để đào tạo một mô hình học máy, bạn cần có dữ liệu. Các nhiệm vụ khoa học dữ liệu thường không phải là một cuộc thi Kaggle nơi bạn có một tập dữ liệu lớn được tuyển chọn được dán nhãn trước. Đôi khi bạn phải thu thập, sắp xếp và làm sạch dữ liệu của riêng mình. Quá trình thu thập và ghi nhãn dữ liệu trong thế giới thực này có thể tốn thời gian, cồng kềnh, tốn kém, không chính xác và đôi khi nguy hiểm. Hơn nữa, khi kết thúc quá trình này, bạn có thể kết thúc với dữ liệu bạn gặp trong thế giới thực không nhất thiết phải là dữ liệu bạn mong muốn về chất lượng, tính đa dạng (ví dụ: mất cân bằng lớp) và số lượng. Dưới đây là những vấn đề phổ biến bạn có thể gặp phải khi làm việc với dữ liệu thực:
- Việc thu thập và ghi nhãn dữ liệu thực không thể mở rộng được
- Việc gắn nhãn dữ liệu thực theo cách thủ công đôi khi không thể thực hiện được
- Dữ liệu thực có vấn đề về quyền riêng tư và an toàn
- Dữ liệu thực không thể lập trình được
- Một mô hình được đào tạo riêng trên dữ liệu thực sẽ không đủ hiệu suất (ví dụ: tốc độ phát triển chậm)
May mắn thay, những vấn đề như thế này có thể được giải quyết bằng dữ liệu tổng hợp. Có thể bạn đang thắc mắc, dữ liệu tổng hợp là gì? Dữ liệu tổng hợp có thể được định nghĩa là dữ liệu được tạo nhân tạo, thường được tạo bằng thuật toán mô phỏng các quy trình trong thế giới thực, từ hành vi của những người tham gia giao thông khác cho đến hành vi của ánh sáng khi nó tương tác với các bề mặt. Bài đăng này đề cập đến những hạn chế của dữ liệu trong thế giới thực và cách dữ liệu tổng hợp có thể giúp khắc phục những vấn đề này và cải thiện hiệu suất mô hình.
Đối với các tập dữ liệu nhỏ, thường có thể thu thập và gắn nhãn dữ liệu theo cách thủ công; tuy nhiên, nhiều tác vụ học máy phức tạp đòi hỏi phải có bộ dữ liệu lớn để đào tạo. Ví dụ: các mô hình được đào tạo cho các ứng dụng xe tự hành cần lượng lớn dữ liệu được thu thập từ các cảm biến gắn trên ô tô hoặc máy bay không người lái. Quá trình thu thập dữ liệu này diễn ra chậm và có thể mất vài tháng hoặc thậm chí nhiều năm. Sau khi dữ liệu thô được thu thập, con người phải chú thích thủ công, điều này cũng tốn kém và tốn thời gian. Hơn nữa, không có gì đảm bảo rằng dữ liệu được gắn nhãn trả về sẽ có ích như dữ liệu huấn luyện, vì nó có thể không chứa các ví dụ cho biết những lỗ hổng kiến thức hiện tại của mô hình.
[nội dung được nhúng] [nội dung được nhúng]
Việc dán nhãn cho dữ liệu này thường liên quan đến việc con người vẽ nhãn bằng tay lên trên dữ liệu cảm biến. Điều này rất tốn kém vì các nhóm ML được trả lương cao thường dành phần lớn thời gian của họ để đảm bảo các nhãn là chính xác và gửi lại lỗi cho người gắn nhãn. Điểm mạnh chính của dữ liệu tổng hợp là bạn có thể tạo bao nhiêu dữ liệu được gắn nhãn hoàn hảo tùy thích. Tất cả những gì bạn cần là một cách để tạo ra dữ liệu tổng hợp chất lượng.
Phần mềm nguồn mở để tạo dữ liệu tổng hợp: Kubric (video đa đối tượng với mặt nạ phân đoạn, bản đồ độ sâu và luồng quang học) và SDV (dữ liệu dạng bảng, quan hệ và chuỗi thời gian).
Một số (trong số nhiều) công ty bán sản phẩm hoặc xây dựng nền tảng có thể tạo ra dữ liệu tổng hợp bao gồm Gretel.ai (bộ dữ liệu tổng hợp đảm bảo tính riêng tư của dữ liệu thực), NVIDIA (vạn vật), và Miền song song (xe tự lái). Để biết thêm, xem danh sách các công ty dữ liệu tổng hợp năm 2022.
Hình ảnh từ Miền song song
Có một số dữ liệu mà con người không thể giải thích và dán nhãn đầy đủ. Dưới đây là một số trường hợp sử dụng trong đó dữ liệu tổng hợp là lựa chọn duy nhất:
- Đánh giá chính xác độ sâu và luồng quang từ những hình ảnh đơn lẻ
- Các ứng dụng tự lái sử dụng dữ liệu radar mà mắt người không nhìn thấy được
- Tạo hàng giả sâu có thể được sử dụng để kiểm tra hệ thống nhận dạng khuôn mặt
Hình ảnh của Michael Galarnyk
Dữ liệu tổng hợp rất hữu ích cho các ứng dụng trong các miền mà bạn không thể dễ dàng lấy được dữ liệu thực. Điều này bao gồm một số loại dữ liệu tai nạn ô tô và hầu hết các loại dữ liệu sức khỏe có các hạn chế về quyền riêng tư (ví dụ: hồ sơ sức khỏe điện tử). Trong những năm gần đây, các nhà nghiên cứu chăm sóc sức khỏe đã quan tâm đến việc dự đoán chứng rung tâm nhĩ (nhịp tim không đều) bằng tín hiệu ECG và PPG. Việc phát triển máy phát hiện rối loạn nhịp tim không chỉ là thách thức vì việc chú thích các tín hiệu này rất tẻ nhạt và tốn kém mà còn vì những hạn chế về quyền riêng tư. Đây là một lý do tại sao có nghiên cứu mô phỏng các tín hiệu này.
Điều quan trọng cần nhấn mạnh là việc thu thập dữ liệu thực không chỉ tốn thời gian và sức lực mà còn thực sự có thể nguy hiểm. Một trong những vấn đề cốt lõi với các ứng dụng robot như ô tô tự lái là chúng là những ứng dụng vật lý của học máy. Bạn không thể triển khai một mô hình không an toàn trong thế giới thực và gặp sự cố do thiếu dữ liệu liên quan. Việc tăng cường tập dữ liệu bằng dữ liệu tổng hợp có thể giúp các mô hình tránh được những vấn đề này.
Sau đây là một số công ty sử dụng dữ liệu tổng hợp để cải thiện độ an toàn của ứng dụng: Toyota, Waymovà Cruise.
Hình ảnh từ Miền song song
Hình ảnh tổng hợp về một đứa trẻ bị nhốt trên một chiếc xe đạp xuất hiện từ phía sau xe buýt của trường và đạp xe qua đường trong môi trường kiểu ngoại ô California.
Các ứng dụng xe tự hành thường xử lý các sự kiện tương đối “không phổ biến” (so với điều kiện lái xe bình thường) như người đi bộ vào ban đêm hoặc người đi xe đạp đi giữa đường. Các mô hình thường cần hàng trăm nghìn, thậm chí hàng triệu ví dụ để tìm hiểu một kịch bản. Một vấn đề lớn là dữ liệu trong thế giới thực được thu thập có thể không phải là dữ liệu bạn đang tìm kiếm về chất lượng, tính đa dạng (ví dụ: mất cân bằng giai cấp, điều kiện thời tiết, địa điểm) và số lượng. Một vấn đề khác là đối với ô tô tự lái và robot, không phải lúc nào bạn cũng biết mình cần dữ liệu gì, không giống như các tác vụ học máy truyền thống với bộ dữ liệu cố định và điểm chuẩn cố định. Mặc dù một số kỹ thuật tăng cường dữ liệu làm thay đổi hình ảnh một cách có hệ thống hoặc ngẫu nhiên là hữu ích, những kỹ thuật này có thể giới thiệu vấn đề của riêng họ.
Đây là nơi xuất hiện dữ liệu tổng hợp. API tạo dữ liệu tổng hợp cho phép bạn thiết kế các tập dữ liệu. Các API này có thể giúp bạn tiết kiệm rất nhiều tiền vì việc chế tạo robot và thu thập dữ liệu trong thế giới thực rất tốn kém. Sẽ tốt hơn và nhanh hơn nhiều nếu cố gắng tạo dữ liệu và tìm ra các nguyên tắc kỹ thuật bằng cách tạo tập dữ liệu tổng hợp.
Sau đây là các ví dụ nêu bật cách dữ liệu tổng hợp có thể lập trình giúp mô hình học hỏi: ngăn chặn các giao dịch gian lận (American Express), phát hiện người đi xe đạp tốt hơn (Miền song song)và phân tích và đánh giá phẫu thuật (Hutom.io).
Các giai đoạn của chu trình phát triển mô hình | Hình ảnh từ Jules S. Damji
Trong công nghiệp có rất nhiều yếu tố ảnh hưởng đến khả năng tồn tại/hiệu suất của một dự án học máy trong cả quá trình phát triển và sản xuất (ví dụ: thu thập dữ liệu, chú thích, đào tạo mô hình, mở rộng quy mô, triển khai, giám sát, đào tạo lại mô hình và tốc độ phát triển). Gần đây, 18 kỹ sư máy học đã tham gia vào một nghiên cứu phỏng vấn có mục tiêu tìm hiểu các thách thức và thực tiễn MLOps phổ biến trong các tổ chức và ứng dụng (ví dụ: xe tự hành, phần cứng máy tính, bán lẻ, quảng cáo, hệ thống đề xuất, v.v.). Một trong những kết luận của nghiên cứu là tầm quan trọng của tốc độ phát triển, có thể được định nghĩa đại khái là khả năng tạo nguyên mẫu và lặp lại nhanh chóng các ý tưởng.
Một yếu tố ảnh hưởng đến tốc độ phát triển là cần có dữ liệu để đào tạo và đánh giá mô hình ban đầu cũng như đào tạo lại người mẫu thường xuyên do hiệu suất mô hình suy giảm theo thời gian do trôi dạt dữ liệu, trôi dạt khái niệm hoặc thậm chí sai lệch phục vụ đào tạo.
Hình ảnh từ Rõ ràng là AI
Nghiên cứu cũng báo cáo rằng nhu cầu này đã khiến một số tổ chức thành lập một nhóm để dán nhãn dữ liệu trực tiếp thường xuyên. Điều này tốn kém, mất thời gian và hạn chế khả năng đào tạo lại các mô hình của tổ chức một cách thường xuyên.
Hình ảnh từ Gretel.ai
Lưu ý, sơ đồ này không đề cập đến cách sử dụng dữ liệu tổng hợp cho những việc như Kiểm tra MLOps trong công cụ đề xuất.
Dữ liệu tổng hợp có tiềm năng được sử dụng cùng với dữ liệu trong thế giới thực trong vòng đời máy học (hình trên) để giúp các tổ chức duy trì hoạt động của mô hình của họ lâu hơn.
Việc tạo dữ liệu tổng hợp ngày càng trở nên phổ biến trong quy trình học máy. Trong thực tế, Gartner dự đoán đến năm 2030, dữ liệu tổng hợp sẽ được sử dụng nhiều hơn dữ liệu trong thế giới thực để đào tạo các mô hình học máy. Nếu bạn có bất kỳ câu hỏi hoặc suy nghĩ nào về bài đăng này, vui lòng liên hệ bằng cách bình luận bên dưới hoặc thông qua Twitter.
Michael Galarnyk là Chuyên gia Khoa học Dữ liệu và làm việc trong lĩnh vực Quan hệ nhà phát triển tại Anyscale.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. Truy cập Tại đây.
- nguồn: https://www.kdnuggets.com/2023/02/5-reasons-need-synthetic-data.html?utm_source=rss&utm_medium=rss&utm_campaign=5-reasons-why-you-need-synthetic-data
- 2022
- a
- có khả năng
- Giới thiệu
- ở trên
- tai nạn
- mua lại
- ngang qua
- thực sự
- quảng cáo
- ảnh hưởng đến
- ảnh hưởng đến
- thuật toán
- Tất cả
- luôn luôn
- American
- thẻ American Express
- số lượng
- phân tích
- và
- Một
- API
- Các Ứng Dụng
- các ứng dụng
- tự trị
- xe tự trị
- xe tự trị
- trở lại
- bởi vì
- trở thành
- sau
- được
- phía dưới
- Điểm chuẩn
- mang lại lợi ích
- Hơn
- trống
- xây dựng
- xe buýt
- xe hơi
- xe ô tô
- trường hợp
- thách thức
- thách thức
- trẻ em
- tốt nghiệp lớp XNUMX
- thu thập
- Thu
- bộ sưu tập
- Bình luận
- Chung
- Các công ty
- cạnh tranh
- phức tạp
- máy tính
- khái niệm
- điều kiện
- nội dung
- Trung tâm
- che
- Crash
- tạo ra
- lưu trữ
- Current
- chu kỳ
- Nguy hiểm
- dữ liệu
- khoa học dữ liệu
- bộ dữ liệu
- bộ dữ liệu
- nhiều
- sâu
- Fakes sâu
- xác định
- triển khai
- triển khai
- chiều sâu
- Phát hiện
- Nhà phát triển
- phát triển
- Phát triển
- SỰ ĐA DẠNG
- Không
- miền
- lĩnh vực
- dont
- xuống
- vẽ
- lái xe
- Các phương tiện bay không người lái
- dễ dàng
- nhúng
- mới nổi
- nhấn mạnh
- gặp gỡ
- năng lượng
- ky sư
- Kỹ Sư
- Kỹ sư
- đủ
- đảm bảo
- Môi trường
- vv
- đánh giá
- Ngay cả
- sự kiện
- ví dụ
- ví dụ
- độc quyền
- đắt tiền
- thể hiện
- Đối mặt
- nhận dạng khuôn mặt
- các yếu tố
- nhanh hơn
- Hình
- cố định
- dòng chảy
- tiếp theo
- lừa đảo
- Miễn phí
- thường xuyên
- thường xuyên
- từ
- đầy đủ
- Hơn nữa
- Gartner
- tạo ra
- tạo ra
- thế hệ
- được
- gif
- mục tiêu
- Đi
- Bảo hành
- phần cứng
- cho sức khoẻ
- chăm sóc sức khỏe
- Trái Tim
- giúp đỡ
- giúp
- Cao
- Đánh dấu
- cao
- Độ đáng tin của
- Tuy nhiên
- HTML
- HTTPS
- lớn
- Nhân loại
- Con người
- Hàng trăm
- ý tưởng
- hình ảnh
- hình ảnh
- mất cân bằng
- tầm quan trọng
- quan trọng
- không thể
- nâng cao
- in
- không chính xác
- bao gồm
- bao gồm
- ngành công nghiệp
- ban đầu
- tương tác
- quan tâm
- Phỏng vấn
- các vấn đề
- IT
- Xe đẩy
- Giữ
- Biết
- kiến thức
- nhãn
- ghi nhãn
- Nhãn
- Thiếu sót
- lớn
- LEARN
- học tập
- học kỹ sư
- Led
- Cuộc sống
- ánh sáng
- hạn chế
- giới hạn
- Danh sách
- sống
- Dữ liệu trực tiếp
- địa điểm thư viện nào
- còn
- tìm kiếm
- Rất nhiều
- máy
- học máy
- chính
- Làm
- thủ công
- nhiều
- Maps
- Mặt nạ
- lớn
- trung bình
- Tên đệm
- Might
- hàng triệu
- sai lầm
- ML
- MLOps
- kiểu mẫu
- mô hình
- tiền
- giám sát
- tháng
- chi tiết
- hầu hết
- nhất thiết
- Cần
- đêm
- bình thường
- Nvidia
- OmniVerse
- ONE
- Tùy chọn
- cơ quan
- tổ chức
- Nền tảng khác
- Vượt qua
- riêng
- thanh toán
- Song song
- một phần
- hiệu suất
- vật lý
- Nền tảng
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- có thể
- Bài đăng
- tiềm năng
- thực hành
- dự đoán
- Dự đoán
- nguyên tắc
- riêng tư
- Vấn đề
- vấn đề
- quá trình
- Quy trình
- Sản phẩm
- chuyên nghiệp
- dự án
- nguyên mẫu
- chất lượng
- số lượng, lượng
- Câu hỏi
- radar
- nhanh chóng
- Nguyên
- dữ liệu thô
- đạt
- thực
- thế giới thực
- lý do
- lý do
- gần đây
- gần đây
- công nhận
- quan hệ
- tương đối
- có liên quan
- Báo cáo
- yêu cầu
- nghiên cứu
- nhà nghiên cứu
- hạn chế
- bán lẻ
- đào tạo lại
- xem xét
- đi
- đường
- robot
- khoảng
- Sự An Toàn
- Lưu
- khả năng mở rộng
- mở rộng quy mô
- kịch bản
- Trường học
- Khoa học
- phân khúc
- tự lái
- bán
- gửi
- cảm biến
- Loạt Sách
- định
- bộ
- tín hiệu
- kể từ khi
- duy nhất
- nghiêng
- chậm
- nhỏ
- Phần mềm
- một số
- nguồn
- tiêu
- đường phố
- sức mạnh
- Học tập
- sợi tổng hợp
- dữ liệu tổng hợp
- hệ thống
- Hãy
- nhiệm vụ
- nhóm
- đội
- kỹ thuật
- về
- thử nghiệm
- Kiểm tra
- Sản phẩm
- cung cấp their dịch
- điều
- hàng ngàn
- thời gian
- Chuỗi thời gian
- mất thời gian
- đến
- hàng đầu
- truyền thống
- Train
- đào tạo
- Hội thảo
- Giao dịch
- loại
- thường
- sự hiểu biết
- sử dụng
- Người sử dụng
- thường
- sử dụng
- xe
- Xe cộ
- Thành phố Velo
- Video
- có thể nhìn thấy
- Thời tiết
- Điều gì
- cái nào
- sẽ
- tự hỏi
- Luồng công việc
- đang làm việc
- công trinh
- thế giới
- sẽ
- năm
- trên màn hình
- youtube
- zephyrnet