Az adatirányítás kezelheti a mesterséges intelligencia fáradtságát? - KDnuggets

Újra kiadta Platón

Követő: 0

Az adatirányítás kezelheti a mesterséges intelligencia fáradtságát?
A kép szerzője

Az adatkezelés és a mesterséges intelligencia fáradtsága két különböző fogalomnak tűnik, de a kettő között belső kapcsolat van. Hogy jobban megértsük, kezdjük a definíciójukkal.

Hosszú ideig ez volt az adatipar középpontjában.

Google jól fogalmaz – „Az adatkezelés mindent megtesz annak érdekében, hogy az adatok biztonságosak, privátak, pontosak, elérhetőek és használhatók legyenek. Ez magában foglalja a belső szabványok – adatirányelvek – meghatározását, amelyek az adatok gyűjtésére, tárolására, feldolgozására és ártalmatlanítására vonatkoznak.”

Amint ez a meghatározás rávilágít, az adatkezelés az adatok kezeléséről szól – pontosan a motort hajtó mesterséges intelligencia modellekről.

Most, hogy az adatirányítás és a mesterséges intelligencia közötti kapcsolat első jelei kezdtek megjelenni, vessük összefüggésbe a mesterséges intelligencia fáradtságával. Noha a név elárulja, az ilyen fáradtsághoz vezető okok kiemelése biztosítja a kifejezés következetes használatát a bejegyzésben.

A mesterséges intelligencia fáradtsága a szervezetek, fejlesztők vagy csapatok kudarcai és kihívásai miatt jelentkezik, amelyek gyakran az AI-rendszerek sikertelen értékmegvalósításához vagy megvalósításához vezetnek.

Ez többnyire irreális elvárásokból indul ki azzal kapcsolatban, hogy mire képes az AI. Az olyan kifinomult technológiák esetében, mint a mesterséges intelligencia, a kulcsfontosságú érdekelt feleknek nem csak az AI képességeihez és lehetőségeihez kell igazodniuk, hanem korlátaihoz és kockázataihoz is.

Ha a kockázatokról beszélünk, az etikát gyakran utólagos gondolatnak tekintik, amely a nem megfelelő mesterségesintelligencia-kezdeményezések elvetéséhez vezet.

Biztosan kíváncsi az adatkezelés szerepére a mesterséges intelligencia kimerülésében – ez a bejegyzés előfeltétele.

Ez az, ahová a következő lépésben tartunk.

A mesterséges intelligencia fáradtsága nagyjából a bevezetés előtti és a telepítés utáni kategóriába sorolható. Először koncentráljunk a bevezetés előttire.

Előzetes telepítés

Különböző tényezők járulnak hozzá a Proof of Concept (PoC) bevezetéséhez, mint például:

Mit próbálunk megoldani?
Miért jelent komoly problémát a prioritások meghatározása most?
Milyen adatok állnak rendelkezésre?
Elsősorban ML-ben megoldható?
Az adatoknak van mintája?
Megismételhető a jelenség?
Milyen további adatok javítják a modell teljesítményét?

Az adatirányítás kezelheti a mesterséges intelligencia fáradtságát?
Kép Freepik

Miután felmértük, hogy a probléma legjobban ML algoritmusokkal oldható meg, az adattudományi csapat feltáró adatelemzést végez. Ebben a szakaszban számos mögöttes adatminta kerül feltárásra, amelyek rávilágítanak arra, hogy az adott adat gazdag-e a jelben. Segít olyan tervezett funkciók létrehozásában is, amelyek felgyorsítják az algoritmus tanulási folyamatát.

Ezután a csapat felállítja az első alapmodellt, gyakran úgy, hogy az nem teljesít az elfogadható szinten. Az a modell, amelynek teljesítménye olyan jó, mint egy érmefeldobás, nem ad hozzáadott értéket. Ez az egyik első kudarc, más néven tanulság az ML modellek építése során.

A szervezetek egyik üzleti problémáról a másikra léphetnek át, ami fáradtságot okoz. Ennek ellenére, ha az alapul szolgáló adatok nem hordoznak gazdag jelet, akkor semmilyen mesterséges intelligencia-algoritmus nem építhet rájuk. A modellnek meg kell tanulnia a statisztikai asszociációkat a betanítási adatokból, hogy nem látott adatokon általánosíthasson.

Telepítés után

Annak ellenére, hogy a betanított modell ígéretes eredményeket mutat a validálási halmazon, a minősítő üzleti kritériumoknak, például a 70%-os pontosságnak megfelelően, még mindig előfordulhat fáradtság, ha a modell nem működik megfelelően a termelési környezetben.

Az AI ilyen típusú fáradtságát a telepítés utáni fázisnak nevezik.

Számtalan ok vezethet a teljesítmény romlásához, ahol a rossz adatminőség a modell leggyakoribb problémája. Ez korlátozza a modell azon képességét, hogy pontosan megjósolja a célválaszt a döntő attribútumok hiányában.

Gondoljunk csak bele, amikor az egyik alapvető jellemző, amely csak 10%-ban hiányzott a képzési adatokból, most az üzemi adatok 50%-ában nullává válik, ami hibás előrejelzésekhez vezet. Az ilyen iterációk és a következetesen működő modellek biztosítására irányuló erőfeszítések kimerítik az adattudósokat és az üzleti csapatokat, ezáltal rontják az adatfolyamokba vetett bizalmat, és kockáztatják a projektbe történő befektetéseket.

A robusztus adatkezelési intézkedések kritikusak a mesterséges intelligencia mindkét típusának kimerültségének leküzdésében. Tekintettel arra, hogy az adatok az ML-modellek középpontjában állnak, a jelgazdag, hibamentes és jó minőségű adatok elengedhetetlenek egy ML projekt sikeréhez. A mesterséges intelligencia kimerültségének kezelése megköveteli, hogy nagy hangsúlyt fektessünk az adatkezelésre. Szigorúan kell tehát dolgoznunk a megfelelő adatminőség biztosítása érdekében, megalapozva a legmodernebb modellek felépítését és megbízható üzleti betekintést nyújtva.

Adatminőség

Az adatok minősége, a virágzó adatirányítás kulcsa, a gépi tanulási algoritmusok kulcsfontosságú sikertényezője. A szervezeteknek be kell fektetniük az adatok minőségébe, például jelentéseket kell közzétenniük az adatfogyasztóknak. Az adattudományi projektekben gondoljon arra, hogy mi történik, amikor a rossz minőségű adatok eljutnak a modellekhez, ami gyenge teljesítményhez vezethet.

Csak a hibaelemzés során tudták a csapatok azonosítani azokat az adatminőségi aggályokat, amelyek javításra küldve a csapatok elfáradását okozzák.

Nyilvánvaló, hogy ez nem csak a ráfordított erőfeszítés, hanem sok idő is elveszik, amíg a megfelelő adatok elkezdenek beérkezni.

Ezért mindig tanácsos az adatproblémákat a forrásnál javítani, hogy elkerüljük az ilyen időigényes iterációkat. Végül a közzétett adatminőségi jelentések utalnak az adattudományi csapatra (illetve bármely más továbbfelhasználóra és adatfogyasztóra) a bejövő adatok elfogadható minőségének megértésével.

Adatminőségi és irányítási intézkedések nélkül az adatkutatókat túlterhelnék adatproblémák, ami hozzájárulna a sikertelen modellekhez, amelyek a mesterséges intelligencia fáradtságához vezetnek.

A bejegyzés rávilágított arra a két szakaszra, amelyben a mesterséges intelligencia fáradtsága beáll, és bemutatta, hogy az adatkezelési intézkedések, például az adatminőségi jelentések miként tehetik lehetővé a megbízható és robusztus modellek felépítését.

Ha szilárd alapot teremtenek az adatirányításon keresztül, a szervezetek ütemtervet építhetnek a sikeres és zökkenőmentes mesterségesintelligencia-fejlesztéshez és -alkalmazáshoz, lelkesedést keltve.

Annak biztosítására, hogy a bejegyzés holisztikus áttekintést adjon a mesterséges intelligencia kimerültségének kezelésének különféle módjairól, hangsúlyozom a szervezeti kultúra szerepét is, amely más bevált gyakorlatokkal, például az adatkezeléssel kombinálva lehetővé teszi és felhatalmazza az adattudományi csapatokat arra, hogy korábban értelmes mesterségesintelligencia-hozzájárulást hozzanak létre. gyorsabban.

Vidhi Chugh egy mesterséges intelligencia-stratégia és a digitális transzformáció vezetője, aki a termék, a tudomány és a mérnöki tudományok metszéspontjában dolgozik, hogy méretezhető gépi tanulási rendszereket építsen. Díjnyertes innovációs vezető, író és nemzetközi előadó. Az a küldetése, hogy demokratizálja a gépi tanulást, és megtörje a szakzsargont, hogy mindenki részese legyen ennek az átalakulásnak.