Data Drift Vs. Concept Drift: What Is The Difference?

Újra kiadta Platón

Követő: 0

A modellsodródás arra a jelenségre utal, amely akkor fordul elő, amikor egy gépi tanulási modell teljesítménye idővel romlik. Ez különféle okokból következik be, beleértve az adateloszlás változásait, a modell céljainak vagy célkitűzéseinek változásait, vagy a modell működési környezetében bekövetkezett változásokat. Két fő a modellsodródás típusai ami előfordulhat: adatsodródás és koncepciósodródás.

Az adatsodródás azon adatok változó eloszlására utal, amelyekre a modellt alkalmazzák. A koncepciósodródás a modell változó mögöttes céljára vagy célkitűzésére utal. Az adatsodródás és a koncepciósodródás egyaránt a teljesítmény csökkenéséhez vezethet gépi tanulás modell.

A modelleltolódás jelentős problémát jelenthet a valós környezetben üzembe helyezett gépi tanulási rendszerek számára, mivel pontatlan vagy megbízhatatlan előrejelzésekhez vagy döntésekhez vezethet. A modelleltolódások kezelése érdekében fontos, hogy folyamatosan nyomon kövessük a gépi tanulási modellek teljesítményét az idő múlásával, és lépéseket kell tenni annak megelőzésére vagy mérséklésére, például a modell új adatokra való átképzése vagy a modell paramétereinek módosítása. Ezeknek a felügyeleti és beállítási rendszereknek szerves részét kell képezniük a szoftver telepítési rendszer ML modellekhez.

Concept Drift vs. Data Drift: Mi a különbség?

Data Drift

Az adatsodródás vagy a kovariáns eltolódás arra a jelenségre utal, amikor az adatbevitel eloszlása egy ML modell képzésre került, eltér a modellt alkalmazó adatbeviteli eloszlástól. Ez azt eredményezheti, hogy a modell kevésbé lesz pontos vagy hatékony az előrejelzések vagy döntések meghozatalában.

Az adatsodródás matematikai ábrázolása a következőképpen fejezhető ki:

P(x|y) ≠ P(x|y')

Ahol P(x|y) a bemeneti adatok valószínűségi eloszlására (x) utal a kimeneti adatok (y) mellett, és P(x|y') a bemeneti adatok valószínűségi eloszlását jelenti az új adatok kimeneti adatai alapján. amelyre a modellt alkalmazzuk (y').

Tegyük fel például, hogy egy ML-modellt egy adott kiskereskedelmi üzlet vásárlói adatainak egy adatkészletére képeztek ki, és a modellt arra használták, hogy megjósolják, hogy egy vásárló vásárol-e életkora, jövedelme és tartózkodási helye alapján.

Ha a modellbe betáplált új adatok bemeneti adatainak eloszlása (életkor, jövedelem és hely) jelentősen eltér a betanítási adatkészletben lévő bemeneti adatok eloszlásától, ez adatsodródáshoz vezethet, és a modell kevésbé pontosságát eredményezheti.

Az adatsodródás leküzdése

Az adatsodródás leküzdésének egyik módja az, ha olyan technikákat alkalmazunk, mint a súlyozás vagy a mintavétel az adateloszlásbeli különbségek kiigazítására. Például súlyozhatja a példákat a betanítási adatkészletben, hogy jobban megfeleljen azoknak az új adatoknak a bemeneti adateloszlásának, amelyekre a modellt alkalmazni fogja.

Alternatív megoldásként mintát vehet az új adatokból és a betanítási adatokból, hogy kiegyensúlyozott adatkészletet hozzon létre a modell betanításához. Egy másik megközelítés a tartomány-adaptációs technikák alkalmazása, amelyek célja a modell adaptálása az új adateloszláshoz a forrástartomány (a betanítási adatok) és a céltartomány (az új adatok) közötti leképezés megtanulásával. Ennek egyik módja a felhasználás szintetikus adatgenerálás algoritmusok.

Koncepció Drift

A koncepció eltolódása akkor következik be, amikor a modell bemeneti és kimeneti adatai közötti funkcionális kapcsolat megváltozik. A modell a megváltozott kontextus ellenére is ugyanúgy működik, nem ismeri a változásokat. Így a képzés során megtanult minták már nem pontosak.

A fogalomeltolódást néha osztályeltolódásnak vagy posterior valószínűségi eltolódásnak is nevezik. Ez azért van, mert ez a különböző helyzetek közötti valószínűségek változására utal:

Pt1 (Y|X) ≠ Pt2 (Y|X)

Az ilyen típusú sodródást külső folyamatok vagy események okozzák. Például lehet, hogy olyan modellel rendelkezik, amely megjósolja a megélhetési költségeket a földrajzi elhelyezkedés alapján, különböző régiók bemenetével. Az egyes régiók fejlettségi szintje azonban növekedhet vagy csökkenhet, megváltoztatva a való világban a megélhetési költségeket. Így a modell elveszíti a pontos előrejelzések képességét.

A „fogalom elsodródása” eredeti jelentése az adott címkék megértésének megváltozása. Példa erre, amit „spamnek” címkézünk az e-mailekben. Az olyan mintákat, mint például a gyakori, tömeges e-mailek egykor a spam jeleinek tekintették, de ez ma már nem mindig így van. A még mindig ezeket az elavult attribútumokat használó levélszemét-érzékelők kevésbé hatékonyak a levélszemét azonosítása során, mivel eltérnek a koncepciójuktól, és átképzést igényelnek.

Íme további példák a koncepciósodródásra:

Az adótörvény módosításainak hatása egy olyan modellre, amely előrejelzi az adómegfelelést
A változó vásárlói magatartás hatása a termékeladásokat előrejelző modellre
A pénzügyi válság hatása a vállalat nyereségére vonatkozó előrejelzésekre

Concept Drift vs. Data Drift

Adatsodródás esetén a döntési határ nem változik; csak a bemenetek valószínűségi eloszlása változik – P(x). A koncepciósodrással a döntési határ megváltozik, a bemeneti és a kimeneti eloszlás is változik – P(x) és P(y).

Egy másik fontos különbség, hogy az adatsodródás elsősorban belső tényezők eredménye, mint például az adatgyűjtés, -feldolgozás és -képzés. A koncepciók elsodródása jellemzően külső tényezőkre vezethető vissza, mint például a való világban kialakult helyzet.

Stratégiák az adatok és a koncepciók eltolódásának észlelésére és leküzdésére

Számos stratégia létezik, amelyek segíthetnek észlelni és leküzdeni a modelleltolódást egy gépi tanulási rendszerben:

Teljesítmény figyelés: Az ML-modell teljesítményének rendszeres értékelése egy tartási adatkészleten vagy a termelési folyamatban segíthet a pontosság vagy más mérőszámok hanyatlásában, amelyek a modell eltolódására utalhatnak.
Adat- és koncepciósodródás-észlelési algoritmusok: Vannak kifejezetten adatsodródás észlelésére kifejlesztett algoritmusok, mint például a Page-Hinkley-teszt vagy a Kolmogorov-Smirnov-teszt, valamint olyan algoritmusok, amelyek észlelik a koncepciósodródást, például az ADWIN-algoritmus. Ezek az algoritmusok automatikusan azonosítani tudják a bemeneti adatokban vagy feladatokban bekövetkezett változásokat, amelyek modelleltolódást jelezhetnek.
Adat- és koncepciósodródás-megelőzési technikák: Ezek a technikák segíthetnek megelőzni az adatok vagy fogalmak eltolódását. Például az adatkiegészítés vagy a szintetikus adatgenerálás segítségével biztosítható, hogy egy ML-modell az adatok széles, reprezentatív tartományának legyen kitéve, ami ellenállóbbá teheti az adateloszlás változásaival szemben. Hasonlóképpen, az átviteli tanulás vagy a többfeladatos tanulás alkalmazása segíthet a modellnek alkalmazkodni a változó feladathoz vagy célkitűzéshez.
Átképzés és finomhangolás: Ha modelleltolódást észlel, a modell átképzése vagy finomhangolása új adatokon segíthet a leküzdésében. Ez megtehető időszakosan, vagy az adatokban vagy a feladatban bekövetkezett jelentős változásokra válaszul.

A modelleltolódás rendszeres figyelésével és annak megelőzésére vagy mérséklésére irányuló proaktív lépésekkel lehetővé válik a gépi tanulási modellek pontossága és megbízhatósága az idő múlásával.

Következtetés

Összefoglalva, az adatsodródás és a modelleltolódás két fontos jelenség, amelyek befolyásolhatják a gépi tanulási (ML) modellek teljesítményét.

Az adatsodródás, más néven kovariáns eltolódás, akkor fordul elő, ha a bemeneti adatok eloszlása, amelyre az ML modellt betanították, eltér azon bemeneti adatok eloszlásától, amelyekre a modellt alkalmazták. A modelleltolódás, más néven koncepciósodródás, akkor fordul elő, amikor az ML-modell által betanított adatok statisztikai tulajdonságai idővel változnak.

Mind az adatsodródás, mind a modelleltolódás ahhoz vezethet, hogy a modell kevésbé lesz pontos vagy hatékony az előrejelzések vagy döntések meghozatalában, és fontos megérteni és kezelni ezeket a jelenségeket, hogy az ML modell teljesítményét az idő múlásával fenntartsuk.

Különféle technikák használhatók az adatsodródás és a modelleltolódás leküzdésére, beleértve a modell átképzését a frissített adatokon, az online tanulást vagy az adaptív tanulást, valamint a modell teljesítményének időbeli nyomon követését.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. Hozzáférés itt.
Forrás: https://www.dataversity.net/data-drift-vs-concept-drift-what-is-the-difference/

Időbélyeg: Február 3, 2023

Még több ADATVERZITÁS

A Dremio bejelenti a mesterséges intelligencia által működtetett adatfelderítési képességeket – DATAVERSITY

Forrás klaszter:

ADATVERZITÁS

Forrás csomópont: 2987807

Időbélyeg: 1. december 2023.

Az élettudományoknak skálázható, adaptálható és rugalmas adatkezelési rendszerekre van szükségük – DATAVERSITY

ADATVERZITÁS

Forrás csomópont: 3079894

Időbélyeg: 23. január 2024.

Data Drift vs. Concept Drift: Mi a különbség?

Újra kiadta Platón

Concept Drift vs. Data Drift: Mi a különbség?

Data Drift

Koncepció Drift

Stratégiák az adatok és a koncepciók eltolódásának észlelésére és leküzdésére

Következtetés

Még több ADATVERZITÁS

A Dremio bejelenti a mesterséges intelligencia által működtetett adatfelderítési képességeket – DATAVERSITY

Az élettudományoknak skálázható, adaptálható és rugalmas adatkezelési rendszerekre van szükségük – DATAVERSITY

2024: Amikor az IT és a mesterséges intelligencia ütközik – DATAVERSITY

Az adatelemzés értéke az egészségügyi ágazatban

A Qlik felvásárolja a Kyndit, hogy javítsa az AI-vezérelt üzleti eredményeket – DATAVERSITY

Adatfolyamok: áttekintés

Diák: Adatok az üzlet gyorsaságában adatkezeléssel és -irányítással

Az Informatica új Databricks-validated Unity katalógus integrációkat indít – DATAVERSITY

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók