합성 데이터가 필요한 5가지 이유

플라톤에 의해 재발행

팔로워 : 0

합성 데이터가 필요한 5가지 이유
에서 생성된 합성 데이터 큐브릭

기계 학습 모델을 교육하려면 데이터가 필요합니다. 데이터 과학 작업은 일반적으로 미리 레이블이 지정되어 제공되는 멋진 대규모 큐레이팅 데이터 세트가 있는 Kaggle 대회가 아닙니다. 때로는 자신의 데이터를 수집, 구성 및 정리해야 합니다. 현실 세계에서 데이터를 수집하고 레이블을 지정하는 이 프로세스는 시간이 많이 걸리고 번거롭고 비용이 많이 들고 부정확하며 때로는 위험할 수 있습니다. 또한 이 과정이 끝나면 실제 세계에서 접하는 데이터가 품질, 다양성(예: 클래스 불균형) 및 양 측면에서 원하는 데이터가 아닐 수도 있습니다. 다음은 실제 데이터로 작업할 때 발생할 수 있는 일반적인 문제입니다.

실제 데이터 수집 및 레이블 지정은 확장할 수 없습니다.
수동으로 실제 데이터에 레이블을 지정하는 것이 때때로 불가능할 수 있습니다.
실제 데이터에는 개인 정보 보호 및 안전 문제가 있습니다.
실제 데이터는 프로그래밍할 수 없습니다.
실제 데이터로만 훈련된 모델은 성능이 충분하지 않습니다(예: 느린 개발 속도).

다행히도 이와 같은 문제는 합성 데이터로 해결할 수 있습니다. 당신은 궁금해 할 수도 있습니다, 합성 데이터 란 무엇입니까? 합성 데이터는 일반적으로 다른 도로 사용자의 행동에서 표면과 상호 작용할 때 빛의 행동에 이르기까지 실제 프로세스를 시뮬레이션하는 알고리즘을 사용하여 생성되는 인위적으로 생성된 데이터로 정의할 수 있습니다. 이 게시물에서는 실제 데이터의 한계와 합성 데이터가 이러한 문제를 극복하고 모델 성능을 개선하는 데 어떻게 도움이 되는지 살펴봅니다.

작은 데이터 세트의 경우 일반적으로 데이터를 수집하고 수동으로 레이블을 지정하는 것이 가능합니다. 그러나 많은 복잡한 기계 학습 작업에는 훈련을 위한 방대한 데이터 세트가 필요합니다. 예를 들어, 자율 주행 차량 애플리케이션을 위해 훈련된 모델에는 자동차 또는 드론에 부착된 센서에서 수집된 많은 양의 데이터가 필요합니다. 이 데이터 수집 프로세스는 느리고 몇 달 또는 몇 년이 걸릴 수 있습니다. 원시 데이터가 수집되면 사람이 수동으로 주석을 달아야 하는데, 이는 비용과 시간도 많이 소요됩니다. 또한 모델의 현재 지식 격차를 알려주는 예가 포함되어 있지 않을 수 있으므로 반환되는 레이블이 지정된 데이터가 교육 데이터로 유용할 것이라는 보장이 없습니다.

[임베디드 콘텐츠][임베디드 콘텐츠]

이 데이터에 라벨을 지정하는 작업에는 종종 센서 데이터 위에 사람이 손으로 라벨을 그리는 작업이 포함됩니다. 고임금 ML 팀은 레이블이 올바른지 확인하고 실수를 레이블러에게 다시 보내는 데 많은 시간을 할애하는 경우가 많기 때문에 비용이 많이 듭니다. 합성 데이터의 주요 강점은 완벽하게 레이블이 지정된 데이터를 원하는 만큼 생성할 수 있다는 것입니다. 고품질 합성 데이터를 생성하는 방법만 있으면 됩니다.

합성 데이터를 생성하는 오픈 소스 소프트웨어: 큐브릭 (분할 마스크, 깊이 맵 및 광학 흐름이 있는 다중 개체 비디오) 및 SDV (표 형식, 관계형 및 시계열 데이터).

제품을 판매하거나 합성 데이터를 생성할 수 있는 플랫폼을 구축하는 일부(많은) 회사는 다음과 같습니다. 그레텔.ai (실제 데이터의 프라이버시를 보장하는 합성 데이터 세트), NVIDIA (옴니버스) 및 병렬 도메인 (자율주행차). 이상, 2022년 합성 데이터 회사 목록 참조.

합성 데이터가 필요한 5가지 이유
이미지 출처 : 병렬 도메인

인간이 완전히 해석하고 레이블을 지정할 수 없는 일부 데이터가 있습니다. 다음은 합성 데이터가 유일한 옵션인 몇 가지 사용 사례입니다.

깊이의 정확한 추정 및 옵티컬 플로우 단일 이미지에서
사람의 눈에 보이지 않는 레이더 데이터를 활용한 자율주행 애플리케이션
얼굴 인식 시스템을 테스트하는 데 사용할 수 있는 딥 페이크 생성

합성 데이터가 필요한 5가지 이유
이미지로 마이클 갈라 니크

합성 데이터는 실제 데이터를 쉽게 얻을 수 없는 도메인의 애플리케이션에 매우 유용합니다. 여기에는 일부 유형의 자동차 사고 데이터와 개인 정보 제한이 있는 대부분의 건강 데이터 유형(예: 전자 건강 기록). 최근 몇 년 동안 의료 연구자들은 ECG 및 PPG 신호를 사용하여 심방세동(불규칙한 심장 박동)을 예측하는 데 관심을 가졌습니다. 부정맥 감지기를 개발하는 것은 이러한 신호의 주석이 지루하고 비용이 많이 들기 때문에 어려울 뿐만 아니라 개인정보 보호 제한 때문에 어렵습니다. 이것이 존재하는 이유 중 하나입니다. 이러한 신호를 시뮬레이션하는 연구.

실제 데이터를 수집하는 데 시간과 노력이 들 뿐 아니라 실제로 위험할 수 있다는 점을 강조하는 것이 중요합니다. 자율 주행 자동차와 같은 로봇 응용 프로그램의 핵심 문제 중 하나는 기계 학습의 물리적 응용 프로그램이라는 것입니다. 실제 세계에서 안전하지 않은 모델을 배포할 수 없으며 관련 데이터 부족으로 인해 충돌이 발생할 수 있습니다. 합성 데이터로 데이터 세트를 보강하면 모델이 이러한 문제를 방지하는 데 도움이 될 수 있습니다.

다음은 응용 프로그램 안전을 개선하기 위해 합성 데이터를 사용하는 일부 회사입니다. 도요타, 웨이및 크루즈.

합성 데이터가 필요한 5가지 이유
이미지 출처 : 병렬 도메인

캘리포니아 교외 스타일의 환경에서 스쿨버스 뒤에서 자전거를 타고 자전거를 타고 길을 건너는 가려진 아이의 합성 이미지.

자율주행차 애플리케이션은 야간 보행자나 도로 한복판에서 자전거를 타는 사람과 같은 상대적으로 "흔하지 않은"(정상적인 운전 조건에 비해) 이벤트를 처리하는 경우가 많습니다. 모델은 종종 시나리오를 학습하기 위해 수십만 또는 수백만 개의 예제가 필요합니다. 한 가지 주요 문제는 수집된 실제 데이터가 품질, 다양성(예: 클래스 불균형, 날씨 조건, 위치) 및 수량 측면에서 찾고 있는 데이터가 아닐 수 있다는 것입니다. 또 다른 문제는 자율 주행 자동차와 로봇의 경우 고정된 데이터 세트와 고정된 벤치마크가 있는 기존 기계 학습 작업과 달리 필요한 데이터가 무엇인지 항상 알 수 없다는 것입니다. 이미지를 체계적으로 또는 무작위로 변경하는 일부 데이터 증대 기술이 도움이 되지만, 이러한 기술은 자신의 문제를 소개.

여기에서 합성 데이터가 필요합니다. 합성 데이터 생성 API를 사용하면 데이터 세트를 엔지니어링할 수 있습니다. 이러한 API는 실제 세계에서 로봇을 구축하고 데이터를 수집하는 데 비용이 많이 들기 때문에 많은 비용을 절약할 수 있습니다. 합성 데이터 세트 생성을 사용하여 데이터를 생성하고 엔지니어링 원리를 파악하는 것이 훨씬 더 좋고 빠릅니다.

다음은 프로그래밍 가능한 합성 데이터가 모델 학습에 어떻게 도움이 되는지 보여주는 예입니다. 부정거래 방지(아메리칸익스프레스), 더 나은 자전거 운전자 감지(병렬 도메인)및 수술 분석 및 리뷰 (Hutom.io).

합성 데이터가 필요한 5가지 이유
모델 개발 주기의 단계 | 이미지 출처 줄스 S. 댐지

업계에서는 개발 및 프로덕션 모두에서 기계 학습 프로젝트의 실행 가능성/성능에 영향을 미치는 많은 요소 (예: 데이터 수집, 주석, 모델 교육, 확장, 배포, 모니터링, 모델 재교육 및 개발 속도). 최근에, 18명의 기계 학습 엔지니어가 인터뷰 연구에 참여했습니다. 조직 및 응용 프로그램(예: 자율 주행 차량, 컴퓨터 하드웨어, 소매점, 광고, 추천 시스템 등) 전반에서 일반적인 MLOps 관행 및 과제를 이해하는 것을 목표로 했습니다. 이 연구의 결론 중 하나는 아이디어를 신속하게 프로토타입으로 만들고 반복하는 능력으로 대략적으로 정의할 수 있는 개발 속도의 중요성이었습니다.

개발 속도에 영향을 미치는 한 가지 요인은 초기 모델 교육 및 평가를 수행하기 위한 데이터가 필요하다는 것입니다. 뿐만 아니라 빈번한 모델 재교육 데이터 드리프트, 개념 드리프트 또는 심지어 훈련-서빙 왜곡으로 인해 시간이 지남에 따라 모델 성능이 저하되기 때문입니다.

합성 데이터가 필요한 5가지 이유
이미지 출처 : 분명히 AI

이 연구는 또한 이러한 요구로 인해 일부 조직에서 라이브 데이터에 자주 레이블을 지정하도록 팀을 구성했다고 보고했습니다. 이것은 비용이 많이 들고 시간이 많이 걸리며 모델을 자주 재교육하는 조직의 능력을 제한합니다.

합성 데이터가 필요한 5가지 이유
이미지 출처 : 그레텔.ai

이 다이어그램은 다음과 같은 용도로 합성 데이터를 사용할 수 있는 방법을 다루지 않습니다. 추천자에서 MLOps 테스트.

합성 데이터는 기계 학습 수명 주기(위 그림 참조)에서 실제 데이터와 함께 사용되어 조직이 모델 성능을 더 오래 유지하는 데 도움이 될 수 있습니다.

합성 데이터 생성은 기계 학습 워크플로우에서 점점 보편화되고 있습니다. 사실은, 가트너 2030년까지 합성 데이터가 실제 데이터보다 훨씬 더 많이 기계 학습 모델을 훈련시키는 데 사용될 것이라고 예측합니다. 이 게시물에 대한 질문이나 생각이 있으시면 아래 댓글이나 다음을 통해 언제든지 문의하십시오. 트위터.

마이클 갈라 니크 데이터 과학 전문가이며 Anyscale의 개발자 관계에서 일하고 있습니다.