AI és nyílt forráskódú szoftver: születéskor elválasztják egymástól? - KDnuggets

Újra kiadta Platón

Követő: 0

AI és nyílt forráskódú szoftver: születéskor elválasztották egymástól?
Kép a szerkesztőtől

Tavaly év vége óta olvasok, írok és beszélek a nyílt forráskódú szoftverek és a gépi tanulás metszéspontjáról, hogy megértsem, mit hozhat a jövő.

Amikor elkezdtem, arra számítottam, hogy leginkább arról fogok beszélni, hogyan használja a nyílt forráskódú szoftvereket a gépi tanulási közösség. De minél többet kutattam, annál inkább rájöttem, hogy sok hasonlóság van a két gyakorlati terület között. Ebben a cikkben bemutatok néhány párhuzamot – és azt, hogy a gépi tanulás mit tanulhat és mit nem tanulhat meg a nyílt forráskódú szoftverekből.

Az egyszerű és kézenfekvő párhuzam az, hogy mind a modern gépi tanulás, mind a modern szoftverek szinte teljes egészében nyílt forráskódú szoftverekkel épülnek fel. Szoftverek, azaz fordítók és kódszerkesztők; a gépi tanuláshoz olyan képzési és következtetési keretrendszerek, mint a PyTorch és a TensorFlow. Ezeket a tereket a nyílt forráskódú szoftverek uralják, és a jelek szerint semmi sem áll készen ezen változtatni.

Ez alól van egy figyelemre méltó, látszólagos kivétel: ezek a keretrendszerek mindegyike a szabadalmaztatott Nvidia hardver- és szoftvercsomagtól függ. Ez valójában sokkal párhuzamosabb, mint elsőre tűnik. A nyílt forráskódú szoftverek hosszú ideig többnyire szabadalmazott Unix operációs rendszereken futottak, amelyeket saját hardvergyártók árultak. Csak a Linux megjelenése után kezdtük természetesnek venni, hogy a verem nyitott „alja” is lehetséges, és manapság sok nyílt fejlesztés történik MacOS és Windows rendszeren. Nem világos, hogy ez hogyan fog megvalósulni a gépi tanulásban. Az Amazon (az AWS-hez), a Google (mind a felhőhöz, mind az Androidhoz) és az Apple egyaránt befektet egymással versengő chipekbe és stackekbe, és lehetséges, hogy ezek közül egy vagy több követheti az általa meghatározott utat. Linus (és az Intel) felszabadítja a egész verem.

Egy kritikusabb párhuzam a nyílt forráskódú szoftverek és a gépi tanulás felépítése között az adatok összetettsége és nyilvános elérhetősége, amelyekre mindegyik épül.

Az ebben részletezettek szerint előnyomtatás papír „Az adatok származási projektje” amelynek társszerzőjeként a modern gépi tanulás szó szerint több ezer adatforrásra épül, ahogy a modern nyílt forráskódú szoftverek is több százezer könyvtárra épülnek. És ahogy minden nyitott könyvtár jogi, biztonsági és karbantartási kihívásokat hoz magával, minden nyilvános adatkészlet pontosan ugyanazokkal a nehézségekkel jár.

Szervezetemnél a kihívás nyílt forráskódú szoftveres verziójáról úgy beszéltünk, mint „véletlen ellátási lánc.” A szoftveripar azért kezdett építeni dolgokat, mert a nyílt forráskódú könyvtárak hihetetlen építőkövei azt jelentették, hogy megtehetjük. Ez azt jelentette, hogy az iparág a nyílt forráskódú szoftvereket ellátási láncként kezdte kezelni – ami sok ilyen „szállító” számára meglepetést okozott.

E kihívások mérséklésére a nyílt forráskódú szoftverek számos kifinomult (bár tökéletlen) technikát fejlesztettek ki, például szkennereket a használt dolgok azonosítására, és metaadatokat a dolgok telepítés utáni nyomon követésére. Kezdünk beruházni az emberekbe is, hogy megpróbáljuk kezelni az ipari igények és az önkéntesek motivációi közötti eltérést.

Sajnos a gépi tanulási közösség készen áll arra, hogy pontosan ugyanabba a „véletlen” ellátási lánc hibába zuhanjon – sok mindent megtesz, mert megteheti, anélkül, hogy sokat gondolkodna a hosszú távú következményeken, ha az egész gazdaság ezeken az adatkészleteken alapul. .

Az utolsó fontos párhuzam az, hogy erősen gyanítom, hogy a gépi tanulás sok-sok rést betölt majd, akárcsak a nyílt forráskódú szoftver. Jelenleg a (megérdemelt) hype a nagy, generatív modellekről szól, de sok kis modell is létezik, valamint a nagyobb modelleken történő finomítások is. Valójában a HuggingFace, a gépi tanulás elsődleges tárhely-platformja, a webhelyükön található modellek száma exponenciálisan növekszik.

Ezek a modellek valószínűleg bőségesek lesznek, és továbbfejleszthetők, hasonlóan a nyílt forráskódú szoftverekhez. Ettől lesznek hihetetlenül rugalmasak és erőteljesek. Egy kis gépi tanuláson alapuló eszközt használok, hogy olcsó, adatvédelmi szempontból érzékeny forgalommérést végezzek az utcámban, például egy olyan használati esetet, amelyre néhány évvel ezelőtt drága eszközökön kívül nem lett volna lehetőség.

Ez az elterjedtség azonban azt jelenti, hogy nyomon kell követni őket – a modellek kevésbé lesznek olyanok, mint a mainframe, és inkább a nyílt forráskódú szoftverek vagy a SaaS, amelyek az alacsony költségek és az egyszerű üzembe helyezés miatt mindenhol felbukkannak.

Tehát, ha vannak ezek a fontos párhuzamok (különösen az összetett ellátási láncok és a terjedő elosztás), mit tanulhat a gépi tanulás a nyílt forráskódú szoftverektől?

Az első párhuzamos tanulság, amit levonhatunk, egyszerűen az, hogy a gépi tanulás számos kihívásának megértéséhez metaadatokra és szerszámokra lesz szüksége. A nyílt forráskódú szoftverek a szerzői jogok és a licencek betartása miatt belebotlottak a metaadat-munkába, de ahogy a szoftverek véletlenszerű ellátási lánca kifejlődött, a metaadatok rendkívül hasznosnak bizonyultak számos területen.

A gépi tanulásban a metaadat-követés folyamatban van. Néhány példa:

A kulcsfontosságú 2019-es papírAz iparágban széles körben hivatkozott cikk arra ösztönözte a modellek fejlesztőit, hogy „modellkártyákkal” dokumentálják munkájukat. Sajnos a legújabb kutatások azt sugallják a vadonban való megvalósítás még mindig gyenge.
Mind az SPDX, mind a CycloneDX szoftveres anyagjegyzékek (SBOM) specifikációi az AI anyagjegyzékeken (AI BOM) dolgoznak, hogy segítsék a gépi tanulási adatok és modellek nyomon követését, strukturáltabb módon, mint a modellkártyák (megfelel ahhoz a bonyolultsághoz, amelyet akkor várnánk). valóban működik párhuzamos nyílt forráskódú szoftverekkel).
HuggingFace létrehozta sokféle specifikáció és eszköz hogy a modellek és adatkészletek szerzői dokumentálhassák forrásaikat.
A fent idézett MIT Data Provenance dokumentum megpróbálja megérteni az adatlicencelés „alapigazságát”, hogy segítsen a specifikációk valós adatokkal való kiegészítésében.
Anekdota módon úgy tűnik, hogy sok gépi tanulási tréninget végző vállalat némileg véletlen kapcsolatban áll az adatkövetéssel, és a „több, annál jobb” ürügyet használja arra, hogy az adatokat a garatba lapátolja anélkül, hogy szükségszerűen jól követné azokat.

Ha tanultunk valamit az openből, akkor az az, hogy a metaadatok (először a specifikációk, majd a tényleges adatok) megfelelő beszerzése évekig tartó projekt lesz, és szükség lehet rá. állami beavatkozás. A gépi tanulásnak előbb, mint utóbb el kell vinnie ezt a metaadatokat.

A biztonság a nyílt forráskódú szoftverek metaadat-igényének másik fő mozgatórugója – ha nem tudja, mit futtat, akkor nem tudhatja, hogy fogékony-e a végtelennek tűnő támadásokra.

A gépi tanulást nem éri a legtöbb hagyományos szoftvertámadás, de ez nem jelenti azt, hogy sebezhetetlenek. (A kedvenc példám az, hogy lehetséges volt méregkép-képző készletek mert gyakran holt tartományokból merítettek.) Ezen a területen a kutatás eléggé felkapott ahhoz, hogy már túljutottunk az „elképzelés bizonyítékán”, és „elég támadás van lista és a taxonomizálni. "

Sajnos a nyílt forráskódú szoftverek nem tudnak a gépi tanuláshoz varázslatos golyókat kínálni a biztonság érdekében – ha lennének, használnánk őket. A nyílt forráskódú szoftverek sokrétű elterjedésének története azonban azt sugallja, hogy a gépi tanulásnak komolyan kell vennie ezt a kihívást, kezdve a használat nyomon követésével és a telepítési metaadatokkal, pontosan azért, mert valószínűleg sokféleképpen fogják alkalmazni a jelenleginél. bevetve.

A nyílt forráskódú metaadatokat mozgató motivációk (licenc, majd biztonság) a következő fontos párhuzamra mutatnak rá: egy szektor jelentőségének növekedésével bővül a mérendő és nyomon követhető dolgok köre, mert bővül a szabályozás és a felelősség.

A nyílt forráskódú szoftvereknél az elsődleges kormányzati „szabályozás” sok éven át a szerzői jogi törvény volt, ezért a metaadatok ezt alátámasztották. A nyílt forráskódú szoftverek azonban számos biztonsági és termékfelelősségi szabállyal szembesülnek – és fel kell fejlesztenünk ellátási láncainkat, hogy megfeleljenek ezeknek az új követelményeknek.

A mesterséges intelligencia szabályozása is egyre növekvő számú módon lesz szabályozva, ahogy egyre fontosabbá válik. A szabályozás forrásai rendkívül változatosak lesznek, beleértve a tartalmat (mind az inputokat, mind az outputokat), a diszkriminációt és a termékfelelősséget. Ehhez szükség lesz arra, amit néha "nyomon követhetőség” – annak megértése, hogyan épülnek fel a modellek, és hogy ezek a választások (beleértve az adatforrásokat is) hogyan befolyásolják a modellek eredményeit.

Ez az alapvető követelmény – mi van velünk? hogyan került ide? – ma már nagyon ismerős a vállalati nyílt forráskódú szoftverfejlesztők számára. Ez azonban radikális változást jelenthet a gépi tanulási fejlesztők számára, és ezt fel kell venni.

Egy másik párhuzamos tanulság, amit a gépi tanulás levonhat a nyílt forráskódú szoftverekből (és valóban számos szoftverhullámból, amelyek legalábbis a mainframe-ig nyúlnak vissza), hogy hasznos élettartama nagyon-nagyon hosszú lesz. Ha egy technológia „elég jó”, akkor be kell vezetni, és ezért nagyon-nagyon hosszú ideig fenn kell tartani. Ez azt jelenti, hogy a lehető legkorábban el kell gondolkodnunk a szoftver karbantartásán, és át kell gondolnunk, mit jelent az, hogy ez a szoftver évtizedekig fennmaradhat. Az „évtizedek” nem túlzás; sok ügyfél, akivel találkozom, olyan szoftvert használ, amely elég régi a szavazáshoz. Sok nyílt forráskódú szoftvercég és egyes projektek már rendelkeznek úgynevezett „hosszú távú támogatási” verziókkal, amelyeket az ilyen jellegű felhasználási esetekre szánnak.

Ezzel szemben az OpenAI kevesebb mint két évig tartotta elérhetővé Codex eszközét –sok dühhöz vezet, különösen az akadémiai közösségben. Tekintettel a gépi tanulásban végbemenő változások gyors ütemére, és arra, hogy a legtöbb alkalmazó valószínűleg a legkorszerűbb megoldások iránt érdeklődik, ez valószínűleg nem volt ésszerűtlen – de eljön a nap, hamarabb, mint az ipar gondolná, amikor ezt meg kell terveznie. egyfajta „hosszú távú” – beleértve azt is, hogyan kölcsönhatásba lép a felelősséggel és a biztonsággal.

Végül világos, hogy – a nyílt forráskódú szoftverekhez hasonlóan – sok pénz fog befolyni a gépi tanulásba, de ennek a pénznek a nagy része az egyik szerző által nevezett témakörben fog összegyűlni. a „processzorokban gazdag” cégek. Ha a nyílt forráskódú szoftverekkel való párhuzam beigazolódik, akkor ezeknek a vállalatoknak egészen más gondjaik és kiadási prioritásai lesznek, mint a modellek medián létrehozójának (vagy felhasználójának).

Cégünk, a Tidelift már egy ideje gondolkodik a nyílt forráskódú szoftverek ösztönzésének ezen problémáján, és olyan entitások, mint a világ legnagyobb szoftvervásárlója – az Egyesült Államok kormánya – vizsgálja a problémát is.

A gépi tanulással foglalkozó cégeknek, különösen azoknak, akik alkotói közösségeket szeretnének létrehozni, alaposan át kell gondolniuk ezt a kihívást. Ha több ezer adatkészlettől függenek, hogyan biztosítják, hogy ezek a karbantartás, a törvényi megfelelés és a biztonság finanszírozását biztosítsák évtizedeken át? Ha a nagyvállalatok a végén több tucat vagy több száz modellt telepítenek a vállalat körül, hogyan biztosítják majd, hogy a legjobb szaktudással rendelkezők – akik a modelleket létrehozták – továbbra is az új problémákon dolgozzanak, ahogy felfedezik azokat?

A biztonsághoz hasonlóan erre a kihívásra sincsenek egyszerű válaszok. De minél hamarabb veszi komolyan a problémát a gépi tanulás – nem jótékonysági akcióként, hanem a hosszú távú növekedés kulcsfontosságú elemeként –, annál jobb lesz az egész iparág és az egész világ.

A gépi tanulás mélyen gyökerező gyökerei az akadémiai világ kísérleti kultúrájában és a Szilícium-völgy gyors iterációjának kultúrájában jól szolgáltak, ami az innováció elképesztő robbanásához vezetett. varázslatosnak tűnt kevesebb mint egy évtizeddel ezelőtt. A nyílt forráskódú szoftverek tanfolyama az elmúlt évtizedben talán kevésbé volt elbűvölő, de ezalatt az összes vállalati szoftver alapjává vált – és sok leckét vont le az út során. Remélhetőleg a gépi tanulás nem fogja újra feltalálni ezeket a kerekeket.

Luis Villa a Tidelift társalapítója és főtanácsadója. Korábban a legjobb nyílt forráskódú ügyvéd volt, aki a Fortune 50-es cégektől a vezető startupokig adott tanácsot ügyfeleinek termékfejlesztéssel és nyílt forráskódú licenceléssel kapcsolatban.