Pilt redaktori poolt
Olen eelmise aasta lõpust lugenud, kirjutanud ja rääkinud avatud lähtekoodiga tarkvara ja masinõppe ristumiskohas, püüdes mõista, mida tulevik tuua võib.
Alustades eeldasin, et räägin peamiselt sellest, kuidas masinõppekogukond kasutab avatud lähtekoodiga tarkvara. Kuid mida rohkem olen uurinud, seda rohkem olen mõistnud, et nende kahe praktikavaldkonna vahel on palju sarnasusi. Selles artiklis käsitlen mõnda neist paralleelidest – ja mida masinõpe saab ja mida mitte avatud lähtekoodiga tarkvarast õppida.
Lihtne ja ilmne paralleel on see, et nii kaasaegne masinõpe kui ka kaasaegne tarkvara on peaaegu täielikult üles ehitatud avatud lähtekoodiga tarkvaraga. Tarkvara jaoks, st kompilaatorid ja koodiredaktorid; masinõppe jaoks on see koolitus- ja järeldusraamistikud, nagu PyTorch ja TensorFlow. Nendes ruumides domineerib avatud lähtekoodiga tarkvara ja miski näib olevat valmis seda muutma.
Sellel on üks märkimisväärne, ilmne erand: kõik need raamistikud sõltuvad väga patenteeritud Nvidia riist- ja tarkvaravirust. See on tegelikult paralleelsem, kui esmapilgul võib tunduda. Pikka aega töötas avatud lähtekoodiga tarkvara peamiselt Unixi operatsioonisüsteemides, mida müüsid patenteeritud riistvaramüüjad. Alles pärast Linuxi ilmumist hakkasime iseenesestmõistetavaks pidama, et pinu avatud "põhi" oli isegi võimalik ning tänapäeval tehakse palju avatud arendusi MacOS-i ja Windowsi jaoks. Pole selge, kuidas see masinõppes välja näeb. Amazon (AWS-i jaoks), Google (nii pilve kui ka Androidi jaoks) ja Apple investeerivad kõik konkureerivatesse kiibidesse ja virnadesse ning on võimalik, et üks või mitu neist võivad järgida Linus (ja Intel) vabastab kogu Kestab.
Kriitilisem paralleel avatud lähtekoodiga tarkvara ja masinõppe ülesehitamise vahel on nende andmete keerukus ja avalik kättesaadavus, millele mõlemad on üles ehitatud.
Nagu selles üksikasjalikult kirjeldatud eeltrükk paber "Andmete päritolu projekt" mille kaasautoriks ma olin, on kaasaegne masinõpe üles ehitatud sõna otseses mõttes tuhandetele andmeallikatele, nagu kaasaegne avatud lähtekoodiga tarkvara on ehitatud sadadele tuhandetele teekidele. Ja nagu iga avatud raamatukoguga kaasnevad õiguslikud, turvalisuse ja hooldusega seotud väljakutsed, kaasnevad iga avaliku andmekogumiga täpselt samad raskused.
Minu organisatsioonis oleme rääkinud selle väljakutse avatud lähtekoodiga tarkvara versioonist kui "juhuslik tarneahel.” Tarkvaratööstus hakkas asju ehitama, sest avatud lähtekoodiga teekide uskumatud ehitusplokid tähendasid, et me saame hakkama. See tähendas, et tööstus hakkas avatud lähtekoodiga tarkvara käsitlema tarneahelana – mis tuli paljudele nendest "tarnijatele" üllatusena.
Nende väljakutsete leevendamiseks on avatud lähtekoodiga tarkvara välja töötanud palju keerukaid (kuigi ebatäiuslikke) tehnikaid, nagu skannerid kasutatava tuvastamiseks ja metaandmed asjade jälgimiseks pärast kasutuselevõttu. Samuti hakkame investeerima inimestesse, et püüda lahendada tööstuse vajaduste ja vabatahtlike motivatsiooni mittevastavust.
Kahjuks näib masinõppekogukond olevat valmis sukelduma täpselt samasse "juhuslikku" tarneahela viga – tegema paljusid asju, sest suudab, ilma et peaks mõtlema palju pikaajalistele tagajärgedele, kui kogu majandus põhineb neil andmekogumitel. .
Viimane oluline paralleel on see, et ma kahtlustan tugevalt, et masinõpe laieneb paljudele niššidele, täpselt nagu avatud lähtekoodiga tarkvara. Hetkel käib (teenitud) haip suurte generatiivsete mudelite kohta, kuid väljas on ka palju väikeseid mudeleid, aga ka näpunäiteid suurematel mudelitel. Tõepoolest, masinõppe peamine hostimisplatvorm HuggingFace teatab, et mudelite arv nende saidil kasvab plahvatuslikult.
Neid mudeleid on tõenäoliselt palju ja neid saab täiustada, sarnaselt avatud lähtekoodiga tarkvara väikeste tükkidega. See muudab need uskumatult paindlikuks ja võimsaks. Ma kasutan väikest masinõppel põhinevat tööriista, et teha näiteks oma tänaval odavat privaatsustundlikku liiklusmõõtmist, mis poleks mõne aasta eest olnud võimalik, välja arvatud kallite seadmete puhul.
Kuid see levik tähendab, et neid tuleb jälgida – mudelid võivad muutuda vähem suurarvutiteks ja rohkem sarnaseks avatud lähtekoodiga tarkvara või SaaS-iga, mis madala hinna ja hõlpsa juurutamise tõttu kõikjale ilmuvad.
Mida saab masinõpe avatud lähtekoodiga tarkvarast õppida, kui on olemas need olulised paralleelid (eelkõige keerukate tarneahelate ja vohava levitamise osas)?
Esimene paralleelne õppetund, mille saame teha, on lihtsalt see, et masinõppe paljude väljakutsete mõistmiseks on vaja metaandmeid ja tööriistu. Avatud lähtekoodiga tarkvara sattus autoriõiguste ja litsentside järgimise tõttu metaandmete tööle, kuid kuna tarkvara juhuslik tarneahel on küpsenud, on metaandmed osutunud mitmel rindel tohutult kasulikuks.
Masinõppes on metaandmete jälgimine pooleli. Mõned näited:
- A 2019. aasta võtmepaber, mida tööstuses laialdaselt tsiteeritakse, kutsus mudelite arendajaid üles dokumenteerima oma tööd "mudelikaartidega". Kahjuks näitavad hiljutised uuringud nende rakendamine looduses on endiselt nõrk.
- Nii SPDX kui ka CycloneDX tarkvara materjalide arvete (SBOM) spetsifikatsioonid töötavad tehisintellekti materjalide arvete (AI BOM) kallal, et aidata jälgida masinõppe andmeid ja mudeleid struktureeritumalt kui mudelikaardid (vastab keerukusele, mida võiks eeldada, kui see tõesti teeb paralleelset avatud lähtekoodiga tarkvara).
- HuggingFace on loonud mitmesuguseid tehnilisi andmeid ja tööriistu võimaldada mudelite ja andmekogumite autoritel oma allikaid dokumenteerida.
- Eespool tsiteeritud MIT Data Provenance'i dokument püüab mõista andmete litsentsimise "põhitõde", et aidata täpsustada spetsifikatsioone reaalsete andmetega.
- Anekdootlikult tundub, et paljudel masinõppe koolitustööd tegevatel ettevõtetel on andmete jälgimisega mõnevõrra juhuslikud suhted, kasutades ettekäändena „rohkem, seda parem” andmete punkrisse lükkamiseks, ilma et neid tingimata hästi jälgitaks.
Kui oleme openist midagi õppinud, siis metaandmete õigeks saamine (kõigepealt spetsifikatsioonid, seejärel tegelikud andmed) on aastatepikkune projekt ja võib nõuda. valitsuse sekkumine. masinõpe peaks selle metaandmete languse võtma pigem varem kui hiljem.
Turvalisus on olnud avatud lähtekoodiga tarkvara metaandmete nõudluse teine suur tõukejõud – kui te ei tea, mida kasutate, ei saa te teada, kas olete vastuvõtlik näiliselt lõputule rünnakute voogudele.
Masinõpe ei allu enamikule traditsioonilistele tarkvararünnakutele, kuid see ei tähenda, et need oleksid haavamatud. (Minu lemmiknäide on see, et see oli võimalik mürgipildi treeningkomplektid sest nad ammutasid sageli surnud domeenidest.) Selle valdkonna uurimine on piisavalt tuline, et oleme juba läbinud „kontseptsiooni tõestamise“ ja jõudnud järeldusele, et „rünnakuid on piisavalt nimekiri ja taksonomiseerima. "
Kahjuks ei saa avatud lähtekoodiga tarkvara pakkuda masinõppele turvalisuse tagamiseks mingeid võlupilte – kui meil need oleksid, siis kasutaksime neid. Kuid avatud lähtekoodiga tarkvara nii paljudesse niššidesse levimise ajalugu viitab sellele, et masinõpe peab seda väljakutset tõsiselt võtma, alustades kasutuse ja juurutamise metaandmete jälgimisest, just seetõttu, et seda rakendatakse tõenäoliselt nii mitmel viisil peale nende, milles see praegu on. kasutusele võetud.
Motivatsioonid, mis ajendasid avatud lähtekoodiga metaandmeid (litsentsimine, seejärel turvalisus), viitavad järgmisele olulisele paralleelile: sektori tähtsuse kasvades laieneb ka nende asjade ulatus, mida tuleb mõõta ja jälgida, sest regulatsioon ja vastutus laienevad.
Avatud lähtekoodiga tarkvara puhul oli paljude aastate peamine valitsuse "määrus" autoriõiguse seadus ja seetõttu töötati selle toetamiseks välja metaandmed. Kuid avatud lähtekoodiga tarkvara puutub nüüd kokku mitmesuguste turva- ja tootevastutuse reeglitega – ning me peame oma tarneahelad nendele uutele nõuetele vastama.
AI-d reguleeritakse sarnaselt üha kasvaval hulgal viisil, kuna see muutub üha olulisemaks. Reguleerimise allikad on äärmiselt mitmekesised, sealhulgas sisu (nii sisendid kui ka väljundid), diskrimineerimise ja tootevastutuse osas. See nõuab seda, mida mõnikord nimetatakse "jälgitavus”- mõistmine, kuidas mudelid on üles ehitatud ja kuidas need valikud (sealhulgas andmeallikad) mõjutavad mudelite tulemusi.
See põhinõue – mis meil on? kuidas see siia sattus? – on nüüdseks ettevõtete avatud lähtekoodiga tarkvaraarendajatele tuttav. See võib aga olla masinõppe arendajate jaoks radikaalne muutus ja see tuleb omaks võtta.
Veel üks paralleelne õppetund, mille masinõpe võib avatud lähtekoodiga tarkvarast (ja tegelikult ka paljudest enne seda olnud tarkvaralainetest, mis pärinevad vähemalt suurarvutist) ammutada, on see, et selle kasutusiga on väga-väga pikk. Kui tehnoloogia on "piisavalt hea", võetakse see kasutusele ja seetõttu tuleb seda säilitada väga-väga pikka aega. See tähendab, et peame mõtlema selle tarkvara hooldusele võimalikult varakult ja mõtlema, mida see tähendab, et see tarkvara võib aastakümneid vastu pidada. “Aastakümned” ei ole liialdus; paljud kliendid, kellega kokku puutun, kasutavad tarkvara, mis on hääletamiseks piisavalt vana. Paljudel avatud lähtekoodiga tarkvaraettevõtetel ja mõnel projektil on nüüd nn pikaajalise toe versioonid, mis on mõeldud seda tüüpi kasutusjuhtudeks.
Seevastu OpenAI hoidis oma Codexi tööriista saadaval vähem kui kaks aastat -mis põhjustab palju viha, eriti akadeemilises kogukonnas. Arvestades masinõppe muutuste kiiret tempot ja seda, et enamik kasutuselevõtjaid on tõenäoliselt huvitatud kõige uuemate tipptasemete kasutamisest, ei olnud see ilmselt ebamõistlik – kuid päev saabub varem, kui tööstus arvab, kus ta peab seda planeerima. omamoodi "pikaajaline" - sealhulgas see, kuidas see suhtleb vastutuse ja turvalisusega.
Lõpuks on selge, et nagu avatud lähtekoodiga tarkvara, liigub masinõppesse palju raha, kuid suurem osa sellest rahast koondub selle ümber, mida üks autor on nimetanud. "töötlejarikkad" ettevõtted. Kui ilmnevad paralleelid avatud lähtekoodiga tarkvaraga, on neil ettevõtetel väga erinevad mured ja kulutuste prioriteedid kui mudelite keskmisel loojal (või kasutajal).
Meie ettevõte Tidelift on sellele avatud lähtekoodiga tarkvara stiimulite probleemile mõelnud juba mõnda aega ning sellised üksused nagu maailma suurim tarkvara ostja – USA valitsus – on samuti probleemi uurima.
Masinõppeettevõtted, eriti need, kes soovivad luua loojate kogukondi, peaksid selle väljakutse üle tõsiselt mõtlema. Kui nad sõltuvad tuhandetest andmekogumitest, siis kuidas nad tagavad, et neid rahastatakse aastakümnete jooksul hoolduse, õigusaktide järgimise ja turvalisuse tagamiseks? Kui suurettevõtted kasutavad kümneid või sadu mudeleid ettevõtte ümber, siis kuidas nad tagavad, et parimate erialateadmistega isikud – need, kes mudelid loosid – on endiselt valmis uute probleemidega tegelema, kui need avastatakse?
Sarnaselt turvalisusele pole sellele väljakutsele lihtsaid vastuseid. Kuid mida varem masinõpe probleemi tõsiselt võtab – mitte heategevusena, vaid pikaajalise kasvu võtmekomponendina –, seda paremini läheb kogu tööstusel ja kogu maailmas.
Masinõppe sügavad juured akadeemilise eksperimentaalsuse kultuuris ja Silicon Valley kiire iteratsiooni kultuuris on seda hästi teeninud, põhjustades hämmastava innovatsiooni plahvatuse, mis oleks tundus maagiline vähem kui kümme aastat tagasi. Avatud lähtekoodiga tarkvara kursus viimasel kümnendil on olnud võib-olla vähem glamuurne, kuid selle aja jooksul on sellest saanud kogu ettevõttetarkvara alus ja see on saanud palju õppetunde. Loodetavasti ei leiuta masinõpe neid rattaid uuesti.
Luis Villa on Tidelifti kaasasutaja ja peanõunik. Varem oli ta kõrgeim avatud lähtekoodiga jurist, kes nõustas kliente alates Fortune 50 ettevõtetest kuni juhtivate idufirmadeni tootearenduse ja avatud lähtekoodiga litsentsimise alal.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
- PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
- PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
- PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
- Allikas: https://www.kdnuggets.com/ai-and-open-source-software-separated-at-birth?utm_source=rss&utm_medium=rss&utm_campaign=ai-and-open-source-software-separated-at-birth
- :on
- :on
- :mitte
- : kus
- $ UP
- 2019
- 50
- a
- MEIST
- üle
- akadeemiline
- juhuslik
- tegu
- tegelik
- tegelikult
- aadress
- lapsendajad
- nõustamine
- pärast
- tagasi
- AI
- Materjal: BPA ja flataatide vaba plastik
- võimaldama
- peaaegu
- mööda
- juba
- Ka
- hämmastav
- Amazon
- an
- ja
- android
- viha
- Teine
- vastuseid
- mistahes
- midagi
- ilmne
- ilmuma
- ilmub
- õun
- rakendatud
- OLEME
- PIIRKOND
- valdkondades
- ümber
- artikkel
- AS
- At
- Reageerib
- autor
- autorid
- kättesaadavus
- saadaval
- AWS
- tagasi
- põhineb
- BE
- sest
- muutuma
- muutub
- olnud
- enne
- hakkas
- on
- BEST
- Parem
- vahel
- Peale
- Arved
- sünd
- Plokid
- mõlemad
- tooma
- Toob
- Ehitus
- ehitatud
- kuid
- by
- kutsutud
- tuli
- CAN
- Kaardid
- juhul
- juhtudel
- juhuslik
- kett
- ketid
- väljakutse
- väljakutseid
- muutma
- Heategevus
- odav
- laastud
- valikuid
- Tsiteeritud
- selge
- kliendid
- Cloud
- Asutaja
- kood
- Tulema
- Ühenduste
- kogukond
- Ettevõtted
- ettevõte
- võistlev
- keeruline
- keerukus
- Vastavus
- komponent
- Murettekitav
- sisu
- kontrast
- autoriõigus
- tuum
- Maksma
- võiks
- nõu
- kursus
- looma
- loodud
- looja
- loojad
- kriitiline
- kultuur
- Praegu
- Kliendid
- lõikamine
- andmed
- andmekogum
- andmekogumid
- Tutvumisleht
- päev
- Päeva
- surnud
- kümme aastat
- aastakümnete
- sügav
- sõltuv
- lähetatud
- kasutuselevõtu
- üksikasjalik
- arenenud
- Arendajad
- & Tarkvaraarendus
- seadmed
- DID
- erinev
- raskusi
- avastasin
- Diskrimineerimine
- arutama
- jaotus
- mitu
- do
- dokument
- ei
- Ei tee
- teeme
- Domeenid
- tehtud
- Ära
- kümneid
- juhtida
- juht
- ajal
- iga
- Varajane
- leevendada
- lihtne
- majandus
- serv
- toimetajad
- omaks
- kohtumine
- lõpp
- Lõputu
- piisavalt
- tagama
- ettevõte
- Kogu
- täielikult
- üksuste
- eriti
- Eeter (ETH)
- Isegi
- pidevalt kasvav
- täpselt
- näide
- näited
- Välja arvatud
- erand
- Laiendama
- ootama
- oodatav
- kallis
- uurida
- plahvatus
- eksponentsiaalselt
- äärmiselt
- nägu
- tuttav
- KIIRE
- Lemmik
- vähe
- täitma
- esimene
- paindlik
- Voolav
- järgima
- eest
- heaolu
- raamistikud
- Alates
- kogumispensioni
- tulevik
- Üldine
- generatiivne
- saama
- saamine
- GitHub
- antud
- läheb
- läinud
- Valitsus
- antud
- Kasvavad
- Kasvab
- olnud
- Raske
- riistvara
- Olema
- he
- aitama
- siin
- ajalugu
- loodetavasti
- Hosting
- KUUM
- Kuidas
- aga
- HTTPS
- Kallistav Nägu
- Inimestel
- sajad
- hype
- i
- Ma teen
- identifitseerimiseks
- IEEE
- if
- pilt
- tohutult
- mõju
- mõjud
- tähtsus
- oluline
- paranemine
- in
- stiimuleid
- Kaasa arvatud
- uskumatu
- uskumatult
- tööstus-
- tööstus
- Innovatsioon
- sisendite
- Intel
- ette nähtud
- interaktiivne
- huvitatud
- ristmik
- sisse
- Investeeri
- investeerimine
- IT
- iteratsioon
- ITS
- lihtsalt
- KDnuggets
- hoitakse
- Võti
- Teadma
- suur
- suurem
- suurim
- viimane
- Eelmisel aastal
- Hilja
- pärast
- Seadus
- advokaat
- juhtivate
- Õppida
- õppinud
- õppimine
- kõige vähem
- Õigus
- vähem
- õppetund
- Lessons
- vastutus
- raamatukogud
- Raamatukogu
- litsentsimine
- elu
- nagu
- Tõenäoliselt
- Linux
- Pikk
- kaua aega
- pikaajaline
- Vaata
- Partii
- palju
- Madal
- masin
- masinõpe
- MacOS
- maagiline
- hooldus
- peamine
- tegema
- viis
- palju
- materjalid
- küps
- mai..
- keskmine
- vahendid
- tähendas
- mõõdetud
- mõõtmine
- Vastama
- Metaandmed
- võib
- MIT
- Leevendada
- mudel
- mudelid
- Kaasaegne
- hetk
- raha
- rohkem
- kõige
- enamasti
- motivatsioon
- palju
- rohkus
- peab
- my
- tingimata
- Vajadus
- vajadustele
- Uus
- järgmine
- ei
- märkimisväärne
- mitte midagi
- nüüd
- number
- Nvidia
- Ilmne
- of
- maha
- pakkuma
- sageli
- Vana
- on
- kunagi
- ONE
- ainult
- avatud
- avatud lähtekoodiga
- OpenAI
- tegutsevad
- operatsioonisüsteemid
- or
- organisatsioon
- meie
- välja
- tulemusi
- väljundid
- üle
- tempo
- Paber
- Parallel
- Parallels
- eriti
- minevik
- tee
- ehk
- tükki
- Koht
- kava
- inimesele
- Platon
- Platoni andmete intelligentsus
- PlatoData
- mängima
- sukelduma
- Punkt
- ujula
- pop-
- võimalik
- võimas
- tava
- varem
- esmane
- tõenäoliselt
- Probleem
- probleeme
- Toode
- tootearendus
- Edu
- projekt
- projektid
- varaline
- tõestatud
- päritolu
- avalik
- ostja
- pütorch
- radikaalne
- kiire
- pigem
- Lugemine
- valmis
- päris maailm
- realiseeritud
- hiljuti
- reguleeritud
- Määrus
- jalgratast
- Suhted
- Aruanded
- nõudma
- Nõuded
- teadustöö
- Uuringud näitavad,
- õige
- juured
- jooksmine
- s
- SaaS
- sama
- SBOM
- ulatus
- sektor
- turvalisus
- otsib
- tundub
- tõsiselt
- komplekt
- Komplektid
- peaks
- Räni
- sarnasused
- Samamoodi
- lihtsalt
- alates
- site
- väike
- So
- tarkvara
- Tarkvaraarendajad
- müüdud
- mõned
- mõnikord
- mõnevõrra
- keeruline
- allikas
- Allikad
- tühikud
- rääkimine
- spetsialist
- spetsifikatsioonid
- specs
- Kulutused
- laiali
- Kestab
- Hoidla
- alustatud
- Käivitus
- Alustavatel
- Veel
- peatumine
- oja
- tänav
- tugevalt
- struktureeritud
- teema
- Soovitab
- varustama
- tarneahelas
- Tarneahelad
- toetama
- üllatus
- ellu jääma
- vastuvõtlik
- süsteemid
- Võtma
- võtab
- rääkimine
- tehnikat
- Tehnoloogia
- tensorivool
- termin
- kui
- et
- .
- Tulevik
- oma
- Neile
- SIIS
- Seal.
- seetõttu
- Need
- nad
- asjad
- mõtlema
- Mõtlemine
- Mõtleb
- see
- need
- kuigi?
- tuhandeid
- Läbi
- aeg
- et
- tööriist
- ülemine
- jälgida
- Jälgimine
- traditsiooniline
- liiklus
- koolitus
- ravimisel
- tõeliselt
- püüdma
- üritab
- Tweaks
- kaks
- liigid
- ebaselge
- aluspõhi
- mõistma
- kahjuks
- unix
- us
- Kasutus
- kasutama
- kasutage juhtumit
- Kasutatud
- Kasutaja
- kasutamine
- sort
- müüjad
- versioon
- väga
- vabatahtlik
- Hääletama
- oli
- lained
- Tee..
- kuidas
- we
- Hästi
- M
- Mis on
- mis
- WHO
- laialdaselt
- Metsik
- will
- aknad
- koos
- ilma
- Töö
- töö
- maailm
- maailma
- oleks
- kirjutamine
- aasta
- aastat
- sa
- sephyrnet