AI og open source-software: adskilt ved fødslen? - KDnuggets

Genudgivet af Platon

Abonnenter: 0

AI og Open Source Software: Adskilt ved fødslen?
Billede af redaktør

Jeg har læst, skrevet og talt siden slutningen af sidste år på krydsfeltet mellem open source-software og maskinlæring og forsøgt at forstå, hvad fremtiden kan bringe.

Da jeg startede, forventede jeg, at jeg mest ville tale om, hvordan open source-software bruges af maskinlæringsfællesskabet. Men jo mere jeg har udforsket, jo mere har jeg indset, at der er mange ligheder mellem de to praksisområder. I denne artikel vil jeg diskutere nogle af disse paralleller - og hvad maskinlæring kan og ikke kan lære af open source-software.

Den nemme og indlysende parallel er, at både moderne maskinlæring og moderne software er bygget næsten udelukkende med open source-software. For software, det vil sige compilere og kodeeditorer; til maskinlæring er det trænings- og inferensrammer som PyTorch og TensorFlow. Disse rum er domineret af open source-software, og intet ser ud til at være klar til at ændre det.

Der er en bemærkelsesværdig, tilsyneladende undtagelse til dette: alle disse rammer afhænger af den meget proprietære Nvidia-hardware og -softwarestak. Dette er faktisk mere parallelt, end det kunne se ud til at begynde med. I lang tid kørte open source-software for det meste på proprietære Unix-operativsystemer, solgt af proprietære hardwareleverandører. Det var først efter Linux kom, at vi begyndte at tage for givet, at en åben "bund" af stakken overhovedet var mulig, og meget åben udvikling foregår i disse dage på MacOS og Windows. Det er uklart, hvordan dette vil udspille sig i maskinlæring. Amazon (til AWS), Google (til både cloud og Android) og Apple investerer alle i konkurrerende chips og stakke, og det er muligt, at en eller flere af dem kan følge den vej, der er lagt af Linus (og Intel) for at frigøre Hele stable.

En mere kritisk parallel mellem, hvordan open source-software er bygget, og hvordan maskinlæring er bygget, er kompleksiteten og den offentlige tilgængelighed af de data, som hver især er bygget på.

Som beskrevet i denne fortryk papir “The Data Provenance Project,” som jeg var medforfatter til, er moderne maskinlæring bygget på bogstaveligt talt tusindvis af datakilder, ligesom moderne open source-software er bygget på hundredtusindvis af biblioteker. Og ligesom hvert åbent bibliotek bringer juridiske, sikkerhedsmæssige og vedligeholdelsesmæssige udfordringer med sig, bringer hvert offentligt datasæt de nøjagtige samme sæt af vanskeligheder med sig.

I min organisation har vi talt om open source-softwares version af denne udfordring som værende en "utilsigtet forsyningskæde." Softwareindustrien begyndte at bygge ting, fordi de utrolige byggeklodser i open source-biblioteker betød, at vi kunne. Dette betød, at industrien begyndte at behandle open source-software som en forsyningskæde - hvilket kom som en overraskelse for mange af disse "leverandører".

For at afbøde disse udfordringer har open source-software udviklet masser af sofistikerede (omend ufuldkomne) teknikker, såsom scannere til at identificere, hvad der bliver brugt, og metadata til at spore ting efter implementering. Vi er også begyndt at investere i mennesker for at forsøge at løse misforholdet mellem industrielle behov og frivillige motiver.

Desværre ser maskinlæringsfællesskabet ud til at kaste sig ud i nøjagtig den samme "tilfældige" forsyningskædefejl - at gøre mange ting, fordi det kan, uden at stoppe med at tænke meget over de langsigtede implikationer, når hele økonomien er baseret på disse datasæt .

En sidste vigtig parallel er, at jeg har en stærk mistanke om, at maskinlæring vil udvide sig til at fylde mange, mange nicher, ligesom open source-software har. I øjeblikket handler den (fortjente) hype om store, generative modeller, men der er også mange små modeller derude, samt justeringer på større modeller. Faktisk rapporterer hostingsiden HuggingFace, maskinlærings primære hostingplatform, at antallet af modeller på deres websted vokser eksponentielt.

Disse modeller vil sandsynligvis være rigelige og tilgængelige til forbedring, ligesom små stykker open source-software. Det vil gøre dem utroligt fleksible og kraftfulde. Jeg bruger et lille maskinlæringsbaseret værktøj til at lave billige, privatlivsfølsomme trafikmålinger på min gade, for eksempel en use case, der ikke ville have været mulig undtagen på dyre enheder for et par år siden.

Men denne spredning betyder, at de skal spores – modeller kan blive mindre som mainframes og mere som open source-software eller SaaS, som dukker op overalt på grund af lave omkostninger og nem implementering.

Så hvis der er disse vigtige paralleller (især af komplekse forsyningskæder og prolifererende distribution), hvad kan maskinlæring lære af open source-software?

Den første parallelle lektie, vi kan drage, er simpelthen, at for at forstå dens mange udfordringer, vil maskinlæring have brug for metadata og værktøj. Open source-software snublede ind i metadataarbejde gennem overholdelse af copyright og licenser, men efterhånden som den utilsigtede forsyningskæde for software er blevet modnet, har metadata vist sig at være umådelig nyttige på en række forskellige fronter.

Inden for maskinlæring er metadatasporing et igangværende arbejde. Et par eksempler:

A nøgle 2019 papir, bredt citeret i branchen, opfordrede udviklere af modeller til at dokumentere deres arbejde med "modelkort". Desværre tyder nyere forskning på deres implementering i naturen er stadig svag.
Både SPDX- og CycloneDX-softwarestyklistespecifikationerne (SBOM) arbejder på AI-styklister (AI-styklister) for at hjælpe med at spore maskinlæringsdata og modeller på en mere struktureret måde end modelkort (svarende til den kompleksitet, man ville forvente, hvis dette gør virkelig parallel open source-software).
HuggingFace har skabt en række specifikationer og værktøjer at give model- og datasætforfattere mulighed for at dokumentere deres kilder.
MIT Data Provenance-papiret citeret ovenfor forsøger at forstå "grundsandheden" af datalicenser for at hjælpe med at udfylde specifikationerne med data fra den virkelige verden.
Anekdotisk ser det ud til, at mange virksomheder, der laver maskinlæringstræningsarbejde, har noget tilfældige forhold til datasporing, idet de bruger "mere er bedre" som en undskyldning for at skovle data ind i tragten uden nødvendigvis at spore dem godt.

Hvis vi har lært noget af åbent, er det, at det at få metadataene rigtigt (først specifikationerne, derefter de faktiske data) vil være et projekt på årevis og kan kræve regeringens indgriben. maskinlæring bør tage det metadata-spring hurtigere end senere.

Sikkerhed har været en anden stor drivkraft for open source-softwares metadatabehov – hvis du ikke ved, hvad du kører, kan du ikke vide, om du er modtagelig for den tilsyneladende endeløse strøm af angreb.

Maskinlæring er ikke underlagt de fleste typer traditionelle softwareangreb, men det betyder ikke, at de er usårlige. (Mit yndlingseksempel er, at det var muligt giftbillede træningssæt fordi de ofte trak fra døde domæner.) Forskning på dette område er varm nok til, at vi allerede er gået forbi "proof of concept" og ind i "der er nok angreb til at liste , taksonomisere".

Desværre kan open source-software ikke tilbyde maskinlæring nogen magiske kugler for sikkerheden – hvis vi havde dem, ville vi bruge dem. Men historien om, hvordan open source-software spredte sig til så mange nicher, tyder på, at maskinlæring skal tage denne udfordring alvorligt, begyndende med sporing af brug og implementeringsmetadata, præcis fordi det sandsynligvis vil blive anvendt på så mange måder ud over dem, som det er i øjeblikket. indsat.

Motivationerne, der drev open source-metadata (licensering, derefter sikkerhed) peger på den næste vigtige parallel: efterhånden som betydningen af en sektor vokser, vil omfanget af ting, der skal måles og spores, udvides, fordi regulering og ansvar udvides.

I open source-software var den primære regerings "regulering" i mange år ophavsretsloven, og så metadata udviklet til at understøtte det. Men open source-software står nu over for en række sikkerheds- og produktansvarsregler – og vi skal modne vores forsyningskæder til at opfylde disse nye krav.

AI vil på samme måde blive reguleret på et stadigt voksende væld af måder, efterhånden som det bliver stadig vigtigere. Kilderne til regulering vil være ekstremt forskellige, herunder hvad angår indhold (både input og output), diskrimination og produktansvar. Dette vil kræve, hvad der nogle gange kaldes "sporbarhed”—forstå, hvordan modellerne er bygget, og hvordan disse valg (inklusive datakilder) påvirker resultaterne af modellerne.

Dette kernekrav – hvad har vi? hvordan kom det hertil? - er nu fortroligt kendt for virksomheders open source-softwareudviklere. Det kan dog være en radikal ændring for maskinlæringsudviklere og skal omfavnes.

En anden parallel lektie, maskinlæring kan trække fra open source-software (og faktisk fra mange bølger af software før den, som i det mindste går tilbage til mainframen) er, at dens brugstid vil være meget, meget lang. Når først en teknologi er "god nok", vil den blive implementeret og skal derfor vedligeholdes i meget, meget lang tid. Dette indebærer, at vi skal tænke på vedligeholdelse af denne software så tidligt som muligt, og tænke på, hvad det vil betyde, at denne software kan overleve i årtier. "Årtier" er ikke en overdrivelse; mange kunder, jeg støder på, bruger software, der er gammel nok til at stemme. Mange open source-softwarevirksomheder og nogle projekter har nu såkaldte "Long Term Support"-versioner, der er beregnet til denne slags brugssager.

I modsætning hertil holdt OpenAI deres Codex-værktøj tilgængeligt i mindre end to år—fører til en masse vrede, især i det akademiske samfund. I betragtning af det hurtige forandringstempo inden for maskinlæring, og at de fleste brugere sandsynligvis er interesserede i at bruge det allernyeste, var dette sandsynligvis ikke urimeligt – men den dag vil komme, hurtigere end industrien tror, hvor den skal planlægge dette. slags "langsigtet" - inklusive hvordan det interagerer med ansvar og sikkerhed.

Endelig er det klart, at der – ligesom open source-software – vil flyde mange penge ind i maskinlæring, men de fleste af pengene vil samle sig omkring det, en forfatter har kaldt de "processorrige" virksomheder. Hvis parallellerne til open source-software udspiller sig, vil disse virksomheder have meget andre bekymringer og udgiftsprioriteter end den gennemsnitlige skaber (eller bruger) af modeller.

Vores virksomhed, Tidelift, har tænkt på dette problem med incitamenter i open source-software i nogen tid, og enheder som verdens største indkøber af software - den amerikanske regering - er undersøger også problemet.

Maskinlæringsvirksomheder, især dem, der søger at skabe fællesskaber af skabere, bør tænke grundigt over denne udfordring. Hvis de er afhængige af tusindvis af datasæt, hvordan vil de så sikre, at de bliver finansieret til vedligeholdelse, lovoverholdelse og sikkerhed i årtier? Hvis store virksomheder ender med dusinvis eller hundredvis af modeller udstationeret rundt omkring i virksomheden, hvordan vil de så sikre, at dem med den bedste specialistviden – dem der har skabt modellerne – stadig er til stede for at arbejde på nye problemer, efterhånden som de opdages?

Ligesom sikkerhed er der ingen nemme svar på denne udfordring. Men jo hurtigere maskinlæring tager problemet alvorligt – ikke som en velgørenhedshandling, men som en nøglekomponent i langsigtet vækst – jo bedre stillet vil hele industrien og hele verden have det.

Maskinlærings dybe rødder i den akademiske kultur for eksperimentelisme og Silicon Valleys kultur med hurtig iteration har tjent det godt, hvilket har ført til en fantastisk eksplosion af innovation, der ville have virkede magisk for mindre end ti år siden. Open source-softwares kursus i det seneste årti har måske været mindre glamourøst, men i løbet af den tid er det blevet grundlaget for al virksomhedssoftware - og lært en masse lektioner undervejs. Forhåbentlig vil maskinlæring ikke genopfinde disse hjul.

louis villa er medstifter og generaladvokat hos Tidelift. Tidligere var han en top open source-advokat, der rådgav klienter, fra Fortune 50-virksomheder til førende startups, om produktudvikling og open source-licenser.