Data Drift vs. Concept Drift: Mikä on ero?

Data Drift vs. Concept Drift: Mikä on ero?

Lähdesolmu: 1936845

Mallin ajautuminen viittaa ilmiöön, joka ilmenee, kun koneoppimismallin suorituskyky heikkenee ajan myötä. Tämä tapahtuu useista syistä, mukaan lukien tietojen jakelun muutokset, muutokset mallin tavoitteissa tai tavoitteissa tai muutokset ympäristössä, jossa malli toimii. Niitä on kaksi pääasiallista mallin driftin tyypit joita voi tapahtua: tiedon ajautuminen ja konseptien ajautuminen.

Tietojen ajautuminen viittaa sen datan muuttuvaan jakautumiseen, johon mallia sovelletaan. Käsitteen ajautuminen viittaa mallin muuttuvaan taustalla olevaan tavoitteeseen tai tavoitteeseen. Sekä tiedon ajautuminen että konseptien ajautuminen voivat johtaa a.:n suorituskyvyn heikkenemiseen koneoppiminen malli.

Mallin ajautuminen voi olla merkittävä ongelma koneoppimisjärjestelmille, joita käytetään tosielämässä, koska se voi johtaa epätarkkoihin tai epäluotettaviin ennusteisiin tai päätöksiin. Mallin ajautumisen korjaamiseksi on tärkeää seurata jatkuvasti koneoppimismallien suorituskykyä ajan mittaan ja ryhtyä toimiin sen estämiseksi tai lieventämiseksi, kuten mallin uudelleenkouluttaminen uuteen dataan tai mallin parametrien säätäminen. Näiden valvonta- ja säätöjärjestelmien on oltava olennainen osa a ohjelmistojen käyttöönottojärjestelmä ML-malleille.

Concept Drift vs. Data Drift: Mikä on ero?

Data Drift

Data drift eli kovariaattisiirtymä viittaa ilmiöön, jossa datasyötteiden jakauma, joka an ML malli koulutuksessa eroaa mallia sovellettavien tietosyötteiden jakaumasta. Tämä voi johtaa siihen, että malli muuttuu vähemmän tarkaksi tai tehokkaammaksi ennusteiden tai päätösten tekemisessä.

Tietojen ajautumisen matemaattinen esitys voidaan ilmaista seuraavasti:

P(x|y) ≠ P(x|y')

Missä P(x|y) viittaa syöttötiedon todennäköisyysjakaumaan (x) lähtötiedon (y) perusteella, ja P(x|y') on syöttötietojen todennäköisyysjakauma, kun otetaan huomioon uusien tietojen lähtötiedot. johon mallia sovelletaan (y').

Oletetaan esimerkiksi, että ML-malli on koulutettu tietyn vähittäiskaupan asiakastietojen tietojoukon perusteella, ja mallia käytettiin ennustamaan, tekeekö asiakas ostoksen ikänsä, tulonsa ja sijaintinsa perusteella. 

Jos malliin syötettyjen uusien tietojen syöttötietojen jakautuminen (ikä, tulot ja sijainti) poikkeaa merkittävästi koulutustietojoukon syöttötietojen jakaumasta, tämä voi johtaa tietojen ajautumiseen ja mallin epätarkkuuteen.

Data Driftin voittaminen

Yksi tapa voittaa tietojen ajautuminen on käyttää tekniikoita, kuten painotusta tai näytteenottoa, mukauttaaksesi datan jakautumisen eroja. Voit esimerkiksi painottaa harjoitustietojoukon esimerkkejä, jotta ne vastaisivat paremmin niiden uusien tietojen syöttötietojen jakautumista, joihin mallia sovelletaan. 

Vaihtoehtoisesti voit ottaa näytteitä uusista tiedoista ja opetustiedoista luodaksesi tasapainoisen tietojoukon mallin harjoittelua varten. Toinen lähestymistapa on käyttää alueen mukautustekniikoita, joilla pyritään mukauttamaan malli uuteen datajakaumaan oppimalla kartoitus lähdealueen (harjoitusdata) ja kohdealueen (uusi data) välillä. Yksi tapa saavuttaa tämä on käyttää synteettinen tiedontuotanto algoritmeja.

Käsite Drift

Käsitteen ajautuminen tapahtuu, kun mallin tulo- ja lähtötietojen toiminnallinen suhde muuttuu. Malli toimii edelleen samanlaisena muuttuneesta kontekstista huolimatta, muutoksista tietämättä. Näin ollen sen harjoittelun aikana oppineet mallit eivät ole enää tarkkoja.

Käsitteen ajautumista kutsutaan joskus myös luokkaryömimiseksi tai posterioriksi todennäköisyyssiirtymäksi. Tämä johtuu siitä, että se viittaa todennäköisyyksien muutoksiin eri tilanteiden välillä:

Pt1 (Y|X) ≠ Pt2 (Y|X)

Tämän tyyppinen ajautuminen johtuu ulkoisista prosesseista tai tapahtumista. Sinulla voi esimerkiksi olla malli, joka ennustaa elinkustannukset maantieteellisen sijainnin perusteella eri alueiden syötteenä. Jokaisen alueen kehitystaso voi kuitenkin nousta tai laskea, mikä muuttaa todellisen maailman elinkustannuksia. Näin ollen malli menettää kyvyn tehdä tarkkoja ennusteita. 

"Konseptien ajautuminen" alkuperäinen merkitys on muutos siinä, miten ymmärrämme tiettyjä etikettejä. Yksi esimerkki on se, mitä merkitsemme sähköpostiviesteissä roskapostiksi. Useita, joukkosähköpostien kaltaisia ​​kuvioita pidettiin aikoinaan roskapostin merkeinä, mutta nykyään näin ei aina ole. Roskapostin tunnistimet, jotka edelleen käyttävät näitä vanhentuneita määritteitä, eivät ole yhtä tehokkaita roskapostin tunnistamisessa, koska niissä on ajattelua ja ne vaativat uudelleenkoulutusta.

Tässä on lisää esimerkkejä käsitteen ajautumisesta:

  • Verolain muutosten vaikutus malliin, joka ennustaa verovelvollisuuden
  • Kehittyvän asiakaskäyttäytymisen vaikutus malliin, joka ennustaa tuotteen myyntiä
  • Finanssikriisin vaikutus yrityksen voittoennusteisiin

Concept Drift vs. Data Drift

Tietojen ajautuessa päätösraja ei muutu; vain syötteiden todennäköisyysjakauma muuttuu – P(x). Käsitteen ajautuessa päätösraja muuttuu, ja sekä tulo- että lähtöjakauma muuttuvat – P(x) ja P(y). 

Toinen tärkeä ero on se, että tiedon ajautuminen johtuu pääasiassa sisäisistä tekijöistä, kuten tiedonkeruusta, käsittelystä ja koulutuksesta. Käsitteiden ajautuminen johtuu tyypillisesti ulkoisista tekijöistä, kuten todellisen maailman tilanteesta.

Strategiat tietojen ja käsitteiden siirtymisen havaitsemiseen ja ratkaisemiseen

On olemassa useita strategioita, jotka voivat auttaa havaitsemaan ja voittamaan mallien ajautumisen koneoppimisjärjestelmässä:

  • Suorituskyvyn seuraaminen: Säännöllinen ML-mallin suorituskyvyn arvioiminen pidätystietojoukossa tai tuotannossa voi auttaa tunnistamaan tarkkuuden tai muiden mittareiden heikkenemisen, joka voi viitata mallin ajautumiseen.
  • Tietojen ja käsitteiden ajautuman havaitsemisalgoritmit: On olemassa algoritmeja, jotka on suunniteltu erityisesti tietojen ajautuman havaitsemiseen, kuten Page-Hinkley-testi tai Kolmogorov-Smirnov-testi, sekä algoritmeja, jotka havaitsevat käsitteiden ajautumisen, kuten ADWIN-algoritmi. Nämä algoritmit voivat automaattisesti tunnistaa muutokset syöttötiedoissa tai -tehtävissä, jotka voivat viitata mallin ajautumiseen.
  • Tietojen ja käsitteiden ajautumisen estotekniikat: Nämä tekniikat voivat auttaa estämään tietojen tai käsitteiden ajautumisen alunperinkin. Esimerkiksi tiedon lisäyksen tai synteettisen tiedon luomisen avulla voidaan varmistaa, että ML-malli on altistunut laajalle, edustavalle datalle, mikä voi tehdä siitä kestävämmän tiedonjakauman muutoksille. Vastaavasti siirtooppimisen tai monitehtäväoppimisen käyttö voi auttaa mallia mukautumaan muuttuvaan tehtävään tai tavoitteeseen.
  • Uudelleenkoulutus ja hienosäätö: Jos mallin ajautuminen havaitaan, mallin uudelleenkoulutus tai hienosäätö uusien tietojen perusteella voi auttaa ratkaisemaan sen. Tämä voidaan tehdä määräajoin tai vastauksena merkittäviin muutoksiin tiedoissa tai tehtävässä.

Seuraamalla mallien ajautumista säännöllisesti ja ryhtymällä ennakoiviin toimiin sen estämiseksi tai lieventämiseksi on mahdollista säilyttää koneoppimismallien tarkkuus ja luotettavuus ajan mittaan.

Yhteenveto

Yhteenvetona voidaan todeta, että tiedon ajautuminen ja mallin ajautuminen ovat kaksi tärkeää ilmiötä, jotka voivat vaikuttaa koneoppimismallien (ML) suorituskykyyn. 

Tietojen ajautuminen, joka tunnetaan myös nimellä kovariaattisiirtymä, tapahtuu, kun ML-malliin opetetun syöttödatan jakauma poikkeaa sen syöttödatan jakaumasta, johon mallia sovelletaan. Mallin ajautuminen, joka tunnetaan myös nimellä käsiteryömintä, tapahtuu, kun ML-malliin opetetun datan tilastolliset ominaisuudet muuttuvat ajan myötä. 

Sekä tiedon ajautuminen että mallin ajautuminen voivat johtaa mallin epätarkkuuteen tai tehokkuuteen ennusteiden tai päätösten tekemisessä, ja on tärkeää ymmärtää ja käsitellä nämä ilmiöt, jotta ML-mallin suorituskyky säilyy ajan mittaan. 

On olemassa useita tekniikoita, joita voidaan käyttää tietojen ajautuman ja mallin ajautuman voittamiseksi, mukaan lukien mallin uudelleenkouluttaminen päivitetyn datan perusteella, verkko-oppimisen tai adaptiivisen oppimisen avulla ja mallin suorituskyvyn seuraaminen ajan mittaan.

Aikaleima:

Lisää aiheesta DATAVERSITEETTI