Slika urednika
Od konca prejšnjega leta berem, pišem in govorim o stičišču odprtokodne programske opreme in strojnega učenja ter poskušam razumeti, kaj bi lahko prinesla prihodnost.
Ko sem začel, sem pričakoval, da bom govoril predvsem o tem, kako skupnost strojnega učenja uporablja odprtokodno programsko opremo. Toda bolj ko sem raziskoval, bolj sem ugotavljal, da je med obema področjema prakse veliko podobnosti. V tem članku bom razpravljal o nekaterih od teh vzporednic - in o tem, kaj se strojno učenje lahko in česa ne more naučiti iz odprtokodne programske opreme.
Enostavna in očitna vzporednica je, da sta sodobno strojno učenje in sodobna programska oprema skoraj v celoti zgrajena z odprtokodno programsko opremo. Za programsko opremo, to so prevajalniki in urejevalniki kode; za strojno učenje so to okviri za usposabljanje in sklepanje, kot sta PyTorch in TensorFlow. V teh prostorih prevladuje odprtokodna programska oprema in zdi se, da nič ni pripravljeno, da bi to spremenilo.
Pri tem obstaja ena opazna, očitna izjema: vsi ti okviri so odvisni od zelo lastniškega sklada strojne in programske opreme Nvidia. To je dejansko bolj vzporedno, kot se zdi na prvi pogled. Dolgo časa je odprtokodna programska oprema delovala večinoma na lastniških operacijskih sistemih Unix, ki so jih prodajali lastniški prodajalci strojne opreme. Šele po pojavu Linuxa smo začeli jemati samoumevno, da je odprto "dno" sklada sploh možno, in veliko odprtega razvoja se danes izvaja na MacOS in Windows. Ni jasno, kako se bo to odvilo pri strojnem učenju. Amazon (za AWS), Google (za oblak in Android) in Apple vsi vlagajo v konkurenčne čipe in nize in možno je, da bi eden ali več teh sledilo poti, ki jo je postavil Linus (in Intel) o osvoboditvi Celoten sveženj.
Bolj kritična vzporednica med tem, kako je zgrajena odprtokodna programska oprema in kako je zgrajeno strojno učenje, je zapletenost in javna dostopnost podatkov, na katerih sta zgrajena vsaka.
Kot je podrobno opisano v tem predtisk papirja “The Data Provenance Project,” katerega soavtor sem, je sodobno strojno učenje zgrajeno na dobesedno tisočih podatkovnih virih, tako kot je sodobna odprtokodna programska oprema zgrajena na sto tisočih knjižnicah. In tako kot vsaka odprta knjižnica s seboj prinaša pravne, varnostne in vzdrževalne izzive, vsak javni nabor podatkov prinaša popolnoma enak niz težav.
V moji organizaciji smo o različici tega izziva odprtokodne programske opreme govorili kot o »naključna dobavna veriga.” Industrija programske opreme je začela graditi stvari, ker so neverjetni gradniki odprtokodnih knjižnic pomenili, da lahko. To je pomenilo, da je industrija začela obravnavati odprtokodno programsko opremo kot dobavno verigo, kar je bilo presenečenje za mnoge od teh "dobaviteljev".
Za ublažitev teh izzivov je odprtokodna programska oprema razvila veliko sofisticiranih (čeprav nepopolnih) tehnik, kot so skenerji za prepoznavanje, kaj se uporablja, in metapodatki za sledenje stvarem po uvedbi. Prav tako začenjamo vlagati v ljudi, da poskušamo odpraviti neskladje med industrijskimi potrebami in motivacijo prostovoljcev.
Na žalost se zdi, da se je skupnost strojnega učenja pripravljena potopiti v popolnoma isto "naključno" napako v dobavni verigi – narediti veliko stvari, ker lahko, ne da bi se nehala veliko razmišljati o dolgoročnih posledicah, ko bo celotno gospodarstvo temeljilo na teh nizih podatkov .
Zadnja pomembna vzporednica je, da močno sumim, da se bo strojno učenje razširilo in zapolnilo veliko, veliko niš, tako kot je to storila odprtokodna programska oprema. Trenutno je (zaslužen) hype o velikih, generativnih modelih, vendar je tam zunaj tudi veliko majhnih modelov, pa tudi popravkov na večjih modelih. Spletno mesto za gostovanje HuggingFace, primarna platforma za gostovanje strojnega učenja, dejansko poroča, da število modelov na njihovem spletnem mestu eksponentno narašča.
Teh modelov bo verjetno veliko in na voljo za izboljšave, podobno kot majhni deli odprtokodne programske opreme. To jih bo naredilo neverjetno prilagodljive in močne. Uporabljam majhno orodje, ki temelji na strojnem učenju, za poceni, na zasebnost občutljivo merjenje prometa na moji ulici, primer uporabe, ki pred nekaj leti ne bi bil mogoč razen na dragih napravah.
Toda to širjenje pomeni, da jim bo treba slediti – modeli bodo morda postali manj podobni velikim računalnikom in bolj podobni odprtokodni programski opremi ali SaaS, ki se pojavljajo povsod zaradi nizkih stroškov in enostavne uvedbe.
Torej, če obstajajo te pomembne vzporednice (zlasti zapletene dobavne verige in razširjena distribucija), kaj se lahko strojno učenje nauči iz odprtokodne programske opreme?
Prva vzporedna lekcija, ki jo lahko izvlečemo, je preprosto ta, da bo strojno učenje za razumevanje številnih izzivov potrebovalo metapodatke in orodja. Odprtokodna programska oprema je naletela na delo z metapodatki zaradi skladnosti z avtorskimi pravicami in licenciranjem, a ko je naključna dobavna veriga za programsko opremo dozorela, so se metapodatki izkazali za izjemno uporabne na različnih frontah.
V strojnem učenju je sledenje metapodatkov še v teku. Nekaj primerov:
- A ključ 2019 papir, pogosto citiran v industriji, je razvijalce modelov pozval, naj svoje delo dokumentirajo z »karticami modelov«. Na žalost nedavne raziskave kažejo na njihovo implementacija v naravi je še vedno šibka.
- Specifikacije kosov materialov (SBOM) programske opreme SPDX in CycloneDX delujejo na seznamih materialov z umetno inteligenco (AI BOM), ki pomagajo slediti podatkom in modelom strojnega učenja na bolj strukturiran način kot modelne kartice (primerno zapletenosti, ki bi jo pričakovali, če bi to resnično vzporedno deluje z odprtokodno programsko opremo).
- HuggingFace je ustvaril različne specifikacije in orodja da avtorjem modelov in naborov podatkov omogoči dokumentiranje njihovih virov.
- Zgoraj citirani dokument MIT Data Provenance poskuša razumeti "osnovno resnico" licenciranja podatkov, da bi specifikacije podrobneje opredelil s podatki iz resničnega sveta.
- Nenavadno je, da imajo mnoga podjetja, ki se ukvarjajo z usposabljanjem strojnega učenja, nekoliko ležerna razmerja s sledenjem podatkov, pri čemer uporabljajo besedo »več je bolje« kot izgovor za prenašanje podatkov v lijak, ne da bi jim nujno dobro sledili.
Če smo se česa naučili na odprtem, je to, da bo pridobivanje pravilnih metapodatkov (najprej specifikacije, nato dejanski podatki) dolgoletni projekt in bo morda zahteval intervencija vlade. strojno učenje bi se moralo prej kot slej lotiti metapodatkov.
Varnost je bila še eno pomembno gonilo povpraševanja po metapodatkih odprtokodne programske opreme – če ne veste, kaj izvajate, ne morete vedeti, ali ste dovzetni za na videz neskončni tok napadov.
Strojno učenje ni podvrženo večini tradicionalnih napadov na programsko opremo, vendar to ne pomeni, da so neranljivi. (Moj najljubši primer je, da je bilo mogoče seti za vadbo poison image ker so pogosto črpali iz mrtvih domen.) Raziskave na tem področju so dovolj vroče, da smo že šli mimo "dokaz koncepta" in v "obstaja dovolj napadov, Seznam in taksonomizirati«.
Na žalost odprtokodna programska oprema strojnemu učenju ne more ponuditi nobenih čarobnih nabojev za varnost – če bi jih imeli, bi jih uporabljali. Toda zgodovina o tem, kako se je odprtokodna programska oprema razširila v toliko niš, kaže, da mora strojno učenje ta izziv vzeti resno, začenši s sledenjem uporabi in metapodatkov o uvajanju, točno zato, ker se bo verjetno uporabljalo na toliko načinov, ki presegajo tiste, na katerih se trenutno uporablja. razporejen.
Motivi, ki so vodili odprtokodne metapodatke (licenciranje, nato varnost), kažejo na naslednjo pomembno vzporednico: ko se pomembnost sektorja povečuje, se bo razširil obseg stvari, ki jih je treba meriti in jim slediti, ker se bosta razširili predpisi in odgovornost.
V odprtokodni programski opremi je bila glavna vladna »uredba« dolga leta zakon o avtorskih pravicah, zato so se metapodatki razvili v podporo temu. Toda odprtokodna programska oprema se zdaj sooča z različnimi varnostnimi pravili in pravili o odgovornosti za izdelke – in naše dobavne verige moramo dozoreti, da bodo izpolnile te nove zahteve.
Podobno bo umetna inteligenca regulirana na vedno več načinov, saj bo postajala vse pomembnejša. Viri regulacije bodo izjemno raznoliki, vključno z vsebino (tako vhodi kot izhodi), diskriminacijo in odgovornostjo za izdelke. To bo zahtevalo nekaj, kar se včasih imenuje "Sledljivost”—razumevanje, kako so modeli zgrajeni in kako te izbire (vključno z viri podatkov) vplivajo na rezultate modelov.
Ta temeljna zahteva – kaj imamo? kako je prišel sem? - razvijalcem odprtokodne programske opreme v podjetjih je zdaj dobro znan. Vendar pa je to lahko radikalna sprememba za razvijalce strojnega učenja in jo je treba sprejeti.
Druga vzporedna lekcija, ki jo lahko strojno učenje potegne iz odprtokodne programske opreme (in dejansko iz številnih valov programske opreme pred njo, ki segajo vsaj v mainframe), je, da bo njena življenjska doba zelo, zelo dolga. Ko je tehnologija "dovolj dobra", bo uvedena in jo je zato treba vzdrževati zelo, zelo dolgo. To pomeni, da moramo o vzdrževanju te programske opreme razmišljati čim prej in razmisliti o tem, kaj bo pomenilo, da bo ta programska oprema lahko preživela desetletja. »Desetletja« ni pretiravanje; veliko strank, s katerimi se srečujem, uporablja programsko opremo, ki je dovolj stara za glasovanje. Mnoga podjetja z odprtokodno programsko opremo in nekateri projekti imajo zdaj tako imenovane različice »dolgoročne podpore«, ki so namenjene tovrstnim primerom uporabe.
Nasprotno pa je OpenAI ohranil svoje orodje Codex na voljo manj kot dve leti –kar je povzročilo veliko jeze, zlasti v akademski skupnosti. Glede na hiter tempo sprememb v strojnem učenju in dejstvo, da večina posvojiteljev verjetno zanima uporaba najsodobnejšega, to verjetno ni bilo nerazumno – vendar bo prišel dan, prej kot si industrija misli, ko bo morala to načrtovati. neke vrste »dolgoročno« – vključno s tem, kako vpliva na odgovornost in varnost.
Nazadnje je jasno, da se bo – tako kot odprtokodna programska oprema – v strojno učenje steklo veliko denarja, vendar se bo večina tega denarja zbrala okoli tega, kar je en avtor imenoval »procesorsko bogata« podjetja. Če se vzporednice z odprtokodno programsko opremo pokažejo, bodo imela ta podjetja zelo drugačne skrbi in prednostne naloge glede porabe kot srednji ustvarjalec (ali uporabnik) modelov.
Naše podjetje, Tidelift, že nekaj časa razmišlja o tem problemu spodbud v odprtokodni programski opremi in subjekti, kot je največji svetovni kupec programske opreme – ameriška vlada – so preučiti tudi problem.
Podjetja, ki se ukvarjajo s strojnim učenjem, zlasti tista, ki želijo ustvariti skupnosti ustvarjalcev, bi morala dobro razmisliti o tem izzivu. Če so odvisni od tisočih naborov podatkov, kako bodo zagotovili, da bodo desetletja financirani za vzdrževanje, skladnost z zakonodajo in varnost? Če imajo velika podjetja na koncu na desetine ali stotine modelov, razporejenih po podjetju, kako bodo zagotovila, da bodo tisti z najboljšim strokovnim znanjem – tisti, ki so ustvarili modele – še vedno prisotni in delajo na novih težavah, ko jih odkrijejo?
Tako kot za varnost tudi za ta izziv ni preprostih odgovorov. Toda prej ko bo strojno učenje problem vzelo resno – ne kot dejanje dobrodelnosti, ampak kot ključno komponento dolgoročne rasti –, bolje bo za celotno industrijo in za ves svet.
Globoke korenine strojnega učenja v akademski kulturi eksperimentalizma in kulturi hitrega ponavljanja v Silicijevi dolini so mu dobro služile, kar je vodilo v osupljivo eksplozijo inovacij, ki bi se je pred slabim desetletjem zdela čarobna. Potek odprtokodne programske opreme v zadnjem desetletju je bil morda manj glamurozen, toda v tem času je postala podlaga za vso programsko opremo podjetij – in se na tej poti naučila veliko lekcij. Upajmo, da strojno učenje ne bo ponovno izumilo teh koles.
Luis Villa je soustanovitelj in generalni svetovalec pri Tideliftu. Prej je bil vrhunski odprtokodni odvetnik, ki je svetoval strankam, od podjetij s seznama Fortune 50 do vodilnih startupov, o razvoju izdelkov in odprtokodnem licenciranju.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- vir: https://www.kdnuggets.com/ai-and-open-source-software-separated-at-birth?utm_source=rss&utm_medium=rss&utm_campaign=ai-and-open-source-software-separated-at-birth
- :ima
- : je
- :ne
- :kje
- $GOR
- 2019
- 50
- a
- O meni
- nad
- akademsko
- naključno
- Zakon
- dejanska
- dejansko
- Naslov
- posvojitelji
- svetovanje
- po
- Avgust
- AI
- vsi
- omogočajo
- skoraj
- skupaj
- že
- Prav tako
- Neverjetno
- Amazon
- an
- in
- Android
- jeza
- Še ena
- odgovori
- kaj
- karkoli
- očitno
- zdi
- se prikaže
- Apple
- uporabna
- SE
- OBMOČJE
- območja
- okoli
- članek
- AS
- At
- Napadi
- Avtor
- Avtorji
- razpoložljivost
- Na voljo
- AWS
- nazaj
- temeljijo
- BE
- ker
- postanejo
- postane
- bilo
- pred
- začel
- počutje
- BEST
- Boljše
- med
- Poleg
- Računov
- Rojstvo
- Bloki
- tako
- prinašajo
- Prinaša
- Building
- zgrajena
- vendar
- by
- se imenuje
- prišel
- CAN
- Kartice
- primeru
- primeri
- priložnostne
- verige
- verige
- izziv
- izzivi
- spremenite
- Dobrodelni
- poceni
- čipi
- možnosti
- praksa
- jasno
- stranke
- Cloud
- So-ustanovitelj
- Koda
- kako
- skupnosti
- skupnost
- Podjetja
- podjetje
- tekmuje
- kompleksna
- kompleksnost
- skladnost
- komponenta
- Skrbi
- vsebina
- kontrast
- avtorske pravice
- Core
- strošek
- bi
- svetovalec
- Tečaj
- ustvarjajo
- ustvaril
- kreator
- Ustvarjalci
- kritično
- Kultura
- Trenutno
- Stranke, ki so
- rezanje
- datum
- nabor podatkov
- nabori podatkov
- dating
- dan
- Dnevi
- mrtva
- desetletje
- desetletja
- globoko
- odvisno
- razporejeni
- uvajanje
- podrobno
- razvili
- Razvijalci
- Razvoj
- naprave
- DID
- drugačen
- Težave
- odkril
- Diskriminacija
- razpravlja
- distribucija
- razne
- do
- dokument
- ne
- Ne
- tem
- domen
- opravljeno
- dont
- desetine
- pripravi
- voznik
- med
- vsak
- Zgodnje
- enostavnost
- lahka
- Gospodarstvo
- Edge
- uredniki
- objel
- srečanje
- konec
- Endless
- dovolj
- zagotovitev
- Podjetje
- Celotna
- popolnoma
- subjekti
- zlasti
- Eter (ETH)
- Tudi
- vedno večje
- točno
- Primer
- Primeri
- Razen
- izjema
- Razširi
- pričakovati
- Pričakuje
- drago
- Raziskano
- eksplozija
- eksponentno
- izredno
- obrazi
- seznanjeni
- FAST
- Priljubljeni
- Nekaj
- izpolnite
- prva
- prilagodljiv
- Teče
- sledi
- za
- Fortune
- okviri
- iz
- stvarno
- Prihodnost
- splošno
- generativno
- dobili
- pridobivanje
- GitHub
- dana
- dogaja
- več
- vlada
- odobreno
- Pridelovanje
- raste
- imel
- Trdi
- strojna oprema
- Imajo
- he
- pomoč
- tukaj
- zgodovina
- upajmo, da
- gostovanje
- HOT
- Kako
- Vendar
- HTTPS
- HuggingFace
- Ljudje
- Stotine
- hype
- i
- Bom
- identifikacijo
- IEEE
- if
- slika
- neznansko
- vpliv
- posledice
- Pomembnost
- Pomembno
- Izboljšanje
- in
- spodbude
- Vključno
- Neverjetno
- neverjetno
- industrijske
- Industrija
- Inovacije
- vhodi
- Intel
- namenjen
- interaktivni
- zainteresirani
- križišče
- v
- Invest
- vlaganjem
- IT
- ponovitev
- ITS
- samo
- KDnuggets
- hranijo
- Ključne
- Vedite
- velika
- večja
- Največji
- Zadnja
- Lansko leto
- Pozen
- pozneje
- zakon
- odvetnik
- vodi
- UČITE
- naučili
- učenje
- vsaj
- Pravne informacije
- manj
- lekcija
- Spoznanja
- odgovornosti
- knjižnice
- Knjižnica
- licenciranje
- življenje
- kot
- Verjeten
- linux
- Long
- dolgo časa
- dolgoročna
- Poglej
- Sklop
- veliko
- nizka
- stroj
- strojno učenje
- MacOS
- magic
- vzdrževanje
- velika
- Znamka
- Način
- več
- materiali
- zrel
- Maj ..
- pomeni
- pomeni
- pomenilo
- izmerjena
- Merjenje
- Srečati
- metapodatki
- morda
- MIT
- Omiliti
- Model
- modeli
- sodobna
- Trenutek
- Denar
- več
- Najbolj
- večinoma
- motivacije
- veliko
- Množica
- morajo
- my
- nujno
- Nimate
- potrebe
- Novo
- Naslednja
- št
- opazen
- nič
- zdaj
- Številka
- Nvidia
- Očitna
- of
- off
- ponudba
- pogosto
- Staro
- on
- enkrat
- ONE
- samo
- odprite
- open source
- OpenAI
- deluje
- Operacijski sistemi
- or
- Organizacija
- naši
- ven
- rezultatov
- izhodi
- več
- Pace
- Papir
- vzporedno
- vzporednice
- zlasti
- preteklosti
- pot
- mogoče
- kosov
- Kraj
- Načrt
- platforma
- platon
- Platonova podatkovna inteligenca
- PlatoData
- Predvajaj
- potop
- Točka
- bazen
- pop
- mogoče
- močan
- praksa
- prej
- primarni
- verjetno
- problem
- Težave
- Izdelek
- Razvoj izdelkov
- Napredek
- Projekt
- projekti
- lastniško
- dokazano
- izvor
- javnega
- kupec
- pitorha
- radikalno
- hitro
- precej
- reading
- pripravljen
- resnični svet
- realizirano
- nedavno
- urejeno
- Uredba
- znova
- Razmerja
- Poročila
- zahteva
- Zahteve
- Raziskave
- Raziskave kažejo,
- Pravica
- Korenine
- tek
- s
- SaaS
- Enako
- SBOM
- Obseg
- sektor
- varnost
- iskanju
- Zdi se,
- resno
- nastavite
- Kompleti
- shouldnt
- Silicij
- podobnosti
- podobno
- preprosto
- saj
- spletna stran
- majhna
- So
- Software
- Razvijalci programske opreme
- prodaja
- nekaj
- Včasih
- nekoliko
- prefinjeno
- vir
- Viri
- prostori
- gledano
- specialist
- specifikacije
- La tienda de Love Monkey entregado a Enfermería Fitzroy, de convalecencia y casas de reposo
- Poraba
- namaz
- sveženj
- Skladovnice
- začel
- Začetek
- Ustanavljanjem
- Še vedno
- ustavljanje
- tok
- ulica
- Močno
- strukturirano
- predmet
- Predlaga
- dobavi
- dobavne verige
- Napajalne verige
- podpora
- presenečenje
- preživetje
- dovzetne
- sistemi
- Bodite
- meni
- pogovor
- tehnike
- Tehnologija
- tensorflo
- Izraz
- kot
- da
- O
- Prihodnost
- njihove
- Njih
- POTEM
- Tukaj.
- zato
- te
- jih
- stvari
- mislim
- Razmišljanje
- Misli
- ta
- tisti,
- čeprav?
- tisoče
- skozi
- čas
- do
- orodje
- vrh
- sledenje
- Sledenje
- tradicionalna
- Prometa
- usposabljanje
- zdravljenje
- resnično
- poskusite
- poskuša
- Poteg
- dva
- Vrste
- nejasno
- podlaga
- razumeli
- na žalost
- unix
- us
- Uporaba
- uporaba
- primeru uporabe
- Rabljeni
- uporabnik
- uporabo
- raznolikost
- prodajalci
- različica
- zelo
- prostovoljec
- Glasuj
- je
- valovi
- način..
- načini
- we
- Dobro
- Kaj
- Kaj je
- ki
- WHO
- pogosto
- Wild
- bo
- okna
- z
- brez
- delo
- deluje
- svet
- svetu
- bi
- pisanje
- leto
- let
- jo
- zefirnet