Data Drift vs. Concept Drift: Mi a különbség?

Data Drift vs. Concept Drift: Mi a különbség?

Forrás csomópont: 1936845

A modellsodródás arra a jelenségre utal, amely akkor fordul elő, amikor egy gépi tanulási modell teljesítménye idővel romlik. Ez különféle okokból következik be, beleértve az adateloszlás változásait, a modell céljainak vagy célkitűzéseinek változásait, vagy a modell működési környezetében bekövetkezett változásokat. Két fő a modellsodródás típusai ami előfordulhat: adatsodródás és koncepciósodródás.

Az adatsodródás azon adatok változó eloszlására utal, amelyekre a modellt alkalmazzák. A koncepciósodródás a modell változó mögöttes céljára vagy célkitűzésére utal. Az adatsodródás és a koncepciósodródás egyaránt a teljesítmény csökkenéséhez vezethet gépi tanulás modell.

A modelleltolódás jelentős problémát jelenthet a valós környezetben üzembe helyezett gépi tanulási rendszerek számára, mivel pontatlan vagy megbízhatatlan előrejelzésekhez vagy döntésekhez vezethet. A modelleltolódások kezelése érdekében fontos, hogy folyamatosan nyomon kövessük a gépi tanulási modellek teljesítményét az idő múlásával, és lépéseket kell tenni annak megelőzésére vagy mérséklésére, például a modell új adatokra való átképzése vagy a modell paramétereinek módosítása. Ezeknek a felügyeleti és beállítási rendszereknek szerves részét kell képezniük a szoftver telepítési rendszer ML modellekhez.

Concept Drift vs. Data Drift: Mi a különbség?

Data Drift

Az adatsodródás vagy a kovariáns eltolódás arra a jelenségre utal, amikor az adatbevitel eloszlása ​​egy ML modell képzésre került, eltér a modellt alkalmazó adatbeviteli eloszlástól. Ez azt eredményezheti, hogy a modell kevésbé lesz pontos vagy hatékony az előrejelzések vagy döntések meghozatalában.

Az adatsodródás matematikai ábrázolása a következőképpen fejezhető ki:

P(x|y) ≠ P(x|y')

Ahol P(x|y) a bemeneti adatok valószínűségi eloszlására (x) utal a kimeneti adatok (y) mellett, és P(x|y') a bemeneti adatok valószínűségi eloszlását jelenti az új adatok kimeneti adatai alapján. amelyre a modellt alkalmazzuk (y').

Tegyük fel például, hogy egy ML-modellt egy adott kiskereskedelmi üzlet vásárlói adatainak egy adatkészletére képeztek ki, és a modellt arra használták, hogy megjósolják, hogy egy vásárló vásárol-e életkora, jövedelme és tartózkodási helye alapján. 

Ha a modellbe betáplált új adatok bemeneti adatainak eloszlása ​​(életkor, jövedelem és hely) jelentősen eltér a betanítási adatkészletben lévő bemeneti adatok eloszlásától, ez adatsodródáshoz vezethet, és a modell kevésbé pontosságát eredményezheti.

Az adatsodródás leküzdése

Az adatsodródás leküzdésének egyik módja az, ha olyan technikákat alkalmazunk, mint a súlyozás vagy a mintavétel az adateloszlásbeli különbségek kiigazítására. Például súlyozhatja a példákat a betanítási adatkészletben, hogy jobban megfeleljen azoknak az új adatoknak a bemeneti adateloszlásának, amelyekre a modellt alkalmazni fogja. 

Alternatív megoldásként mintát vehet az új adatokból és a betanítási adatokból, hogy kiegyensúlyozott adatkészletet hozzon létre a modell betanításához. Egy másik megközelítés a tartomány-adaptációs technikák alkalmazása, amelyek célja a modell adaptálása az új adateloszláshoz a forrástartomány (a betanítási adatok) és a céltartomány (az új adatok) közötti leképezés megtanulásával. Ennek egyik módja a felhasználás szintetikus adatgenerálás algoritmusok.

Koncepció Drift

A koncepció eltolódása akkor következik be, amikor a modell bemeneti és kimeneti adatai közötti funkcionális kapcsolat megváltozik. A modell a megváltozott kontextus ellenére is ugyanúgy működik, nem ismeri a változásokat. Így a képzés során megtanult minták már nem pontosak.

A fogalomeltolódást néha osztályeltolódásnak vagy posterior valószínűségi eltolódásnak is nevezik. Ez azért van, mert ez a különböző helyzetek közötti valószínűségek változására utal:

Pt1 (Y|X) ≠ Pt2 (Y|X)

Az ilyen típusú sodródást külső folyamatok vagy események okozzák. Például lehet, hogy olyan modellel rendelkezik, amely megjósolja a megélhetési költségeket a földrajzi elhelyezkedés alapján, különböző régiók bemenetével. Az egyes régiók fejlettségi szintje azonban növekedhet vagy csökkenhet, megváltoztatva a való világban a megélhetési költségeket. Így a modell elveszíti a pontos előrejelzések képességét. 

A „fogalom elsodródása” eredeti jelentése az adott címkék megértésének megváltozása. Példa erre, amit „spamnek” címkézünk az e-mailekben. Az olyan mintákat, mint például a gyakori, tömeges e-mailek egykor a spam jeleinek tekintették, de ez ma már nem mindig így van. A még mindig ezeket az elavult attribútumokat használó levélszemét-érzékelők kevésbé hatékonyak a levélszemét azonosítása során, mivel eltérnek a koncepciójuktól, és átképzést igényelnek.

Íme további példák a koncepciósodródásra:

  • Az adótörvény módosításainak hatása egy olyan modellre, amely előrejelzi az adómegfelelést
  • A változó vásárlói magatartás hatása a termékeladásokat előrejelző modellre
  • A pénzügyi válság hatása a vállalat nyereségére vonatkozó előrejelzésekre

Concept Drift vs. Data Drift

Adatsodródás esetén a döntési határ nem változik; csak a bemenetek valószínűségi eloszlása ​​változik – P(x). A koncepciósodrással a döntési határ megváltozik, a bemeneti és a kimeneti eloszlás is változik – P(x) és P(y). 

Egy másik fontos különbség, hogy az adatsodródás elsősorban belső tényezők eredménye, mint például az adatgyűjtés, -feldolgozás és -képzés. A koncepciók elsodródása jellemzően külső tényezőkre vezethető vissza, mint például a való világban kialakult helyzet.

Stratégiák az adatok és a koncepciók eltolódásának észlelésére és leküzdésére

Számos stratégia létezik, amelyek segíthetnek észlelni és leküzdeni a modelleltolódást egy gépi tanulási rendszerben:

  • Teljesítmény figyelés: Az ML-modell teljesítményének rendszeres értékelése egy tartási adatkészleten vagy a termelési folyamatban segíthet a pontosság vagy más mérőszámok hanyatlásában, amelyek a modell eltolódására utalhatnak.
  • Adat- és koncepciósodródás-észlelési algoritmusok: Vannak kifejezetten adatsodródás észlelésére kifejlesztett algoritmusok, mint például a Page-Hinkley-teszt vagy a Kolmogorov-Smirnov-teszt, valamint olyan algoritmusok, amelyek észlelik a koncepciósodródást, például az ADWIN-algoritmus. Ezek az algoritmusok automatikusan azonosítani tudják a bemeneti adatokban vagy feladatokban bekövetkezett változásokat, amelyek modelleltolódást jelezhetnek.
  • Adat- és koncepciósodródás-megelőzési technikák: Ezek a technikák segíthetnek megelőzni az adatok vagy fogalmak eltolódását. Például az adatkiegészítés vagy a szintetikus adatgenerálás segítségével biztosítható, hogy egy ML-modell az adatok széles, reprezentatív tartományának legyen kitéve, ami ellenállóbbá teheti az adateloszlás változásaival szemben. Hasonlóképpen, az átviteli tanulás vagy a többfeladatos tanulás alkalmazása segíthet a modellnek alkalmazkodni a változó feladathoz vagy célkitűzéshez.
  • Átképzés és finomhangolás: Ha modelleltolódást észlel, a modell átképzése vagy finomhangolása új adatokon segíthet a leküzdésében. Ez megtehető időszakosan, vagy az adatokban vagy a feladatban bekövetkezett jelentős változásokra válaszul.

A modelleltolódás rendszeres figyelésével és annak megelőzésére vagy mérséklésére irányuló proaktív lépésekkel lehetővé válik a gépi tanulási modellek pontossága és megbízhatósága az idő múlásával.

Következtetés

Összefoglalva, az adatsodródás és a modelleltolódás két fontos jelenség, amelyek befolyásolhatják a gépi tanulási (ML) modellek teljesítményét. 

Az adatsodródás, más néven kovariáns eltolódás, akkor fordul elő, ha a bemeneti adatok eloszlása, amelyre az ML modellt betanították, eltér azon bemeneti adatok eloszlásától, amelyekre a modellt alkalmazták. A modelleltolódás, más néven koncepciósodródás, akkor fordul elő, amikor az ML-modell által betanított adatok statisztikai tulajdonságai idővel változnak. 

Mind az adatsodródás, mind a modelleltolódás ahhoz vezethet, hogy a modell kevésbé lesz pontos vagy hatékony az előrejelzések vagy döntések meghozatalában, és fontos megérteni és kezelni ezeket a jelenségeket, hogy az ML modell teljesítményét az idő múlásával fenntartsuk. 

Különféle technikák használhatók az adatsodródás és a modelleltolódás leküzdésére, beleértve a modell átképzését a frissített adatokon, az online tanulást vagy az adaptív tanulást, valamint a modell teljesítményének időbeli nyomon követését.

Időbélyeg:

Még több ADATVERZITÁS