5 ok, amiért szükséged van szintetikus adatokra

5 ok, amiért szükséged van szintetikus adatokra

Forrás csomópont: 1942868

5 ok, amiért szükséged van szintetikus adatokra
Szintetikus adatok generált Kubric
 

A gépi tanulási modell betanításához adatokra van szükség. Az adattudományi feladatok általában nem egy Kaggle-verseny, ahol van egy szép nagy összegyűjtött adatkészlet, amely előre felcímkézve érkezik. Néha saját adatait kell gyűjtenie, rendszereznie és megtisztítania. Az adatok gyűjtésének és címkézésének ez a folyamata a valós világban időigényes, nehézkes, drága, pontatlan és néha veszélyes is lehet. Ezen túlmenően a folyamat végén előfordulhat, hogy a valós világban talált adatok minősége, sokfélesége (pl. osztályok kiegyensúlyozatlansága) és mennyisége nem feltétlenül azok az adatok, amelyeket szeretne. Az alábbiakban felsoroljuk azokat a gyakori problémákat, amelyekkel valós adatokkal való munka során találkozhat: 

  • A valós adatgyűjtés és címkézés nem méretezhető
  • A valós adatok kézi címkézése néha lehetetlen
  • A valódi adatoknak adatvédelmi és biztonsági problémái vannak
  • A valós adatok nem programozhatók
  • A kizárólag valós adatokra betanított modell nem elég hatékony (pl. lassú fejlődési sebesség)

Szerencsére az ehhez hasonló problémákat szintetikus adatokkal meg lehet oldani. Talán azon tűnődsz, mi a szintetikus adat? A szintetikus adatok úgy definiálhatók, mint mesterségesen előállított adatok, amelyeket jellemzően valós folyamatokat szimuláló algoritmusok segítségével hoznak létre, a többi úthasználó viselkedésétől egészen a fény viselkedéséig a felületekkel való kölcsönhatásig. Ez a bejegyzés áttekinti a valós adatok korlátait, és azt, hogy a szintetikus adatok hogyan segíthetik ezeket a problémákat és javíthatják a modell teljesítményét. 

Kis adatkészletek esetén általában lehetséges az adatok gyűjtése és manuális címkézése; sok összetett gépi tanulási feladat azonban hatalmas adatkészleteket igényel a betanításhoz. Például az autonóm járművekre kiképzett modelleknek nagy mennyiségű adatra van szükségük, amelyeket az autókhoz vagy drónokhoz csatlakoztatott érzékelőkből gyűjtenek össze. Ez az adatgyűjtési folyamat lassú, és hónapokig vagy akár évekig is eltarthat. A nyers adatok összegyűjtése után az embereknek kézzel kell megjegyzéseket fűzniük hozzá, ami szintén drága és időigényes. Továbbá nincs garancia arra, hogy a visszaérkező címkézett adatok képzési adatokként hasznosak lesznek, mivel előfordulhat, hogy nem tartalmaznak olyan példákat, amelyek a modell jelenlegi tudásbeli hiányosságait jelzik. 

[beágyazott tartalom][beágyazott tartalom]

Ezen adatok címkézése gyakran azt jelenti, hogy az emberek kézzel címkéket rajzolnak az érzékelőadatok tetejére. Ez nagyon költséges, mivel a jól fizetett ML csapatok gyakran idejük nagy részét azzal töltik, hogy a címkék helyesek legyenek, és visszaküldik a hibákat a címkézőknek. A szintetikus adatok egyik fő erőssége, hogy tetszőleges számú, tökéletesen címkézett adatot generálhat. Csak egy módszerre van szüksége a minőségi szintetikus adatok előállítására. 

Nyílt forráskódú szoftver szintetikus adatok generálására: Kubric (több objektumú videók szegmentációs maszkokkal, mélységtérképekkel és optikai áramlással) és SDV (táblázatos, relációs és idősoros adatok).

Néhány (a sok közül) olyan vállalat, amely szintetikus adatokat generáló termékeket árusít vagy platformokat épít ki Gretel.ai (szintetikus adatkészletek, amelyek biztosítják a valós adatok titkosságát), NVIDIA (omniverzum), és Párhuzamos tartomány (önálló járművek). Többért, lásd a szintetikus adatszolgáltató cégek 2022-es listáját

5 ok, amiért szükséged van szintetikus adatokra
Kép Párhuzamos tartomány
 

Vannak olyan adatok, amelyeket az emberek nem tudnak teljesen értelmezni és felcímkézni. Az alábbiakban felsorolunk néhány olyan használati esetet, amikor a szintetikus adatok az egyetlen lehetőség: 

  • A mélység pontos becslése és optikai áramlás egyes képekből
  • Önvezető alkalmazások, amelyek emberi szemmel nem látható radaradatokat használnak 
  • Mély hamisítványok generálása, amelyek az arcfelismerő rendszerek tesztelésére használhatók

5 ok, amiért szükséged van szintetikus adatokra
Kép Galarnyk Mihály
 

A szintetikus adatok nagyon hasznosak olyan tartományok alkalmazásaiban, ahol nem lehet könnyen valós adatokhoz jutni. Ez magában foglal bizonyos típusú autóbaleset-adatokat és a legtöbb egészségügyi adattípust, amelyekre adatvédelmi korlátozások vonatkoznak (pl. elektronikus egészségügyi nyilvántartások). Az elmúlt években az egészségügyi kutatók érdeklődtek a pitvarfibrilláció (szabálytalan szívritmus) előrejelzése iránt EKG és PPG jelek segítségével. Az aritmiadetektor kifejlesztése nemcsak azért jelent kihívást, mert ezeknek a jeleknek a kommentálása fárasztó és költséges, hanem az adatvédelmi korlátozások miatt is. Ez az egyik oka annak, hogy van e jelek szimulálására irányuló kutatás

Fontos hangsúlyozni, hogy a valós adatok gyűjtése nem csak időt és energiát igényel, hanem veszélyes is lehet. Az önvezető autókhoz hasonló robotalkalmazások egyik alapvető problémája az, hogy ezek a gépi tanulás fizikai alkalmazásai. Nem telepíthet nem biztonságos modellt a való világban, és összeomolhat a releváns adatok hiánya miatt. Egy adatkészlet szintetikus adatokkal való kiegészítése segíthet a modelleknek elkerülni ezeket a problémákat. 

Az alábbiakban néhány vállalat szintetikus adatokat használ az alkalmazások biztonságának javítására: Toyota, Waymoés Hajókázás.

5 ok, amiért szükséged van szintetikus adatokra
Kép Párhuzamos tartomány
 

Szintetikus kép egy elzáródott, kerékpáron ülő gyermekről, aki egy iskolabusz mögül bukkan elő, és az utca túloldalán biciklizik egy külvárosi kaliforniai stílusú környezetben.

Az autonóm járműalkalmazások gyakran foglalkoznak viszonylag „szokatlan” (a normál vezetési körülményekhez képest) eseményekkel, mint például az éjszakai gyalogosok vagy az út közepén közlekedő kerékpárosok. A modelleknek gyakran több százezer vagy akár millió példára van szükségük egy forgatókönyv megtanulásához. Az egyik fő probléma az, hogy előfordulhat, hogy a valós világban gyűjtött adatok minősége, sokfélesége (pl. osztályok kiegyensúlyozatlansága, időjárási viszonyok, hely) és mennyisége nem azt jelenti, amit keres. Egy másik probléma, hogy az önvezető autók és robotok esetében nem mindig tudod, milyen adatokra van szükséged, ellentétben a hagyományos, rögzített adatkészletekkel és fix benchmarkokkal rendelkező gépi tanulási feladatokkal. Míg egyes adatbővítési technikák, amelyek szisztematikusan vagy véletlenszerűen módosítják a képeket, hasznosak, ezek a technikák képesek bemutatni saját problémáikat

Itt jönnek be a szintetikus adatok. A szintetikus adatgeneráló API-k lehetővé teszik az adatkészletek tervezését. Ezekkel az API-kkal sok pénzt takaríthat meg, mivel a való világban nagyon drága robotokat építeni és adatokat gyűjteni. Sokkal jobb és gyorsabb, ha szintetikus adatkészlet-generálással próbálunk adatokat generálni és kitalálni a mérnöki elveket.

Az alábbi példák rávilágítanak arra, hogy a programozható szintetikus adatok hogyan segítik a modellek tanulását: csalárd tranzakciók megelőzése (American Express), jobb kerékpáros észlelés (párhuzamos tartomány)és műtét elemzése és áttekintése (Hutom.io).

5 ok, amiért szükséged van szintetikus adatokra
A modellfejlesztési ciklus fázisai | Kép innen Jules S. Damji 
 

Az iparban vannak sok olyan tényező, amely befolyásolja a gépi tanulási projekt életképességét/teljesítményét mind a fejlesztésben, mind a gyártásban (pl. adatgyűjtés, annotáció, modell betanítás, méretezés, telepítés, monitorozás, modell átképzés és fejlesztési sebesség). Mostanában, 18 gépi tanulási mérnök vett részt egy interjúban amelynek célja a közös MLOps gyakorlatok és kihívások megértése volt a szervezetek és alkalmazások között (pl. autonóm járművek, számítógépes hardverek, kiskereskedelem, hirdetések, ajánlórendszerek stb.). A tanulmány egyik következtetése a fejlődési sebesség fontossága volt, amely nagyjából úgy definiálható, mint a gyors prototípuskészítés és az ötletek iterációja.

A fejlesztési sebességet befolyásoló egyik tényező az, hogy adatokra van szükség a modell kezdeti betanításához és értékeléséhez valamint a gyakori modell-átképzés a modell teljesítményének idővel csökkenő adateltolódása, koncepciósodródás vagy akár a vonatoktatás-kiszolgálás torzulása miatt. 

 

5 ok, amiért szükséged van szintetikus adatokra
Kép Nyilvánvalóan AI
 

A tanulmány arról is beszámolt, hogy ez az igény arra késztetett néhány szervezetet, hogy felállítottak egy csapatot az élő adatok gyakori címkézésére. Ez drága, időigényes, és korlátozza a szervezetek azon képességét, hogy gyakran áttanulják a modelleket. 

 

5 ok, amiért szükséged van szintetikus adatokra
Kép Gretel.ai
 

Megjegyzés: ez a diagram nem fedi le, hogy a szintetikus adatok hogyan használhatók olyan dolgokra, mint pl MLOps tesztelés az ajánlókban.

A szintetikus adatok a gépi tanulási életciklusban (fenti képen) valós adatokkal használhatók, hogy segítsenek a szervezeteknek abban, hogy modelljeik hosszabb ideig működjenek. 

A szintetikus adatgenerálás egyre általánosabbá válik a gépi tanulási munkafolyamatokban. Valójában, Gartner előrejelzése szerint 2030-ra a szintetikus adatokat sokkal többet fogják használni, mint a valós adatokat a gépi tanulási modellek képzésére. Ha bármilyen kérdése vagy gondolata van ezzel a bejegyzéssel kapcsolatban, keressen bátran az alábbi megjegyzésekben vagy ezen keresztül Twitter.
 
 
Galarnyk Mihály adattudományi szakember, és az Anyscale fejlesztői kapcsolatok területén dolgozik.
 

Időbélyeg:

Még több KDnuggets