ControlNet And StarCoder: Roblox Research Advancements For Generative AI - Roblox Blog

Taasavaldanud Platon

järgijaid: 0

Oleme sügavalt pühendunud uurimistööle, mis on vastutustundlik ja kogukondlik kõigis valdkondades, sealhulgas tehisintellektis (AI). Me saavutame selle läbipaistvuse, välise valideerimise ning akadeemiliste institutsioonide toetamise kaudu koostöö ja sponsorluse kaudu. See lähenemisviis võimaldab meil kiirendada suurimate edusammude saavutamist meie kolmes fookusvaldkonnas: generatiivne AI, andmekeskuse skaleerimine ja võrguohutus. Täna jagame teadmisi ja tulemusi kahest meie generatiivsest tehisintellekti uurimisprojektist. ControlNet on avatud lähtekoodiga närvivõrk, mis lisab piltide genereerimise mudelitele tingimusliku juhtimise täpsemate pildiväljundite jaoks. StarCoder on nüüdisaegne avatud lähtekoodiga suur keelemudel (LLM) koodi genereerimiseks.

Mõlemad projektid on akadeemilise ja tööstuse koostöö. Mõlemad on keskendunud ka meie loojate jaoks radikaalselt võimsamatele tööriistadele: 3D-kunstnikele ja programmeerijatele. Mis kõige tähtsam ja mis on kooskõlas meie missiooniga investeerida ümberkujundavate uuringute kaudu pikasse perspektiivi, näitavad need projektid edusamme tehisintellekti fundamentaalses teaduslikus mõistmises ja paljude rakenduste kontrollimises. Usume, et sellel tööl võib olla oluline mõju Robloxi ja valdkonna kui terviku tulevikule ning oleme uhked, et saame seda avalikult jagada.

ControlNet

Hiljutised AI läbimurded – täpsemalt andmepõhised masinõppemeetodid, mis kasutavad sügavaid närvivõrke – on toonud kaasa uusi edusamme loomistööriistade vallas. Need edusammud hõlmavad meie Koodiabi ja Materjali generaator funktsioonid, mis on avalikult saadaval meie tasuta tööriistas Roblox Studio. Kaasaegsed generatiivsed tehisintellektisüsteemid sisaldavad andmestruktuure, mida nimetatakse mudeliteks ja mida täiustatakse miljardite treeningoperatsioonidega. Tänapäeva kõige võimsamad mudelid on multimodaalsed, mis tähendab, et neid õpetatakse kasutama erinevaid meediume, nagu tekst, pildid ja heli. See võimaldab neil leida meediumite vahel ühiseid aluseks olevaid tähendusi, selle asemel, et sobitada andmestiku teatud elementidega (nt värvipaletid või õigekiri) üle.

Nendel uutel AI-süsteemidel on märkimisväärne väljendusjõud, kuid see võimsus on suunatud suures osas "kiire inseneritöö" kaudu. See tähendab lihtsalt sisendteksti muutmist, sarnaselt otsingumootori päringu täpsustamisega, kui see ei andnud seda, mida ootasite. Kuigi see võib olla kaasahaarav viis uue tehnoloogiaga (nt suunamata vestlusbotiga) mängimiseks, ei ole see tõhus ega mõjus viis sisu loomiseks. Loojad vajavad selle asemel elektrilisi tööriistu, mida nad saaksid tõhusalt kasutada aktiivse juhtimise, mitte arvamise kaudu.

ControlNeti projekt on samm nende väljakutsete lahendamise suunas. See pakub tõhusat viisi suurte eelkoolitatud tehisintellektimudelite võimsuse kasutamiseks, näiteks Stabiilne difusioon, ilma kiirele inseneritööle lootmata. ControlNet suurendab kontrolli, võimaldades artistil pakkuda lisaks tekstiviipadele täiendavaid sisestustingimusi. Robloxi teadur ja Stanfordi ülikooli professor Maneesh Agrawala ning Stanfordi teadlane Lvmin Zhang seavad meie ühise ControlNeti projekti eesmärgid järgmiselt:

Looge generatiivsete AI-tööriistade jaoks parem kasutajaliides. Minge kaugemale ebaselgest kiirest manipuleerimisest ja looge idee või loomingulise kontseptsiooni edastamiseks loomulikumad viisid.
Pakkuge täpsemat ruumilist juhtimist, et minna kaugemale kui "kujutis nagu" või "kujutis stiilis ...", et võimaldada realiseerida täpselt seda pilti, mis looja meeles on.
Muutke generatiivne AI-treening arvutusefektiivsemaks protsessiks, mis töötab kiiremini, nõuab vähem mälu ja tarbib vähem elektrienergiat.
Laiendage piltide generatiivne AI korduvkasutatavaks ehitusplokiks. Seejärel saab selle integreerida standardiseeritud pilditöötluse ja 3D-renderdamise torujuhtmetega.

Lubades loojatel pakkuda ruumiliseks juhtimiseks täiendavat pilti, annab ControlNet suurema kontrolli lõpliku loodud kujutise üle. Näiteks viip „sarvedega isashirv” olemasoleval teksti-kujutiseks generaatoril andis palju erinevaid pilte, nagu on näidatud allpool.

Need varasemate AI-lahendustega genereeritud pildid on küll atraktiivsed, kuid kahjuks sisuliselt suvalised tulemused – kontroll puudub. Nendel eelmistel kujutise genereerimissüsteemidel pole väljundit kuidagi võimalik juhtida, välja arvatud tekstiviipa muutmine.

ControlNeti abil on loojal nüüd palju rohkem jõudu. Üks võimalus ControlNeti kasutamiseks on esitada nii viip kui ka lähtekujutis, et määrata kindlaks järgitav üldine kuju. Sel juhul pakuksid saadud kujutised siiski vaheldust, kuid mis kõige tähtsam, säilitavad need määratud kuju:

Looja oleks võinud määrata ka servade komplekti, pildi ilma viipata või mitmel muul viisil süsteemi ekspressiivse sisendi andmiseks.

ControlNeti loomiseks kloonime suure difusioonimudeli võrgus olevad kaalud kahte versiooni. Üks on koolitatav võrk (see tagab juhtimise; see on "ControlNet") ja teine on lukustatud võrk. Lukustatud võrk säilitab miljarditelt piltidelt õpitud võime ja võib olla mis tahes varasem pildigeneraator. Seejärel treenime koolitatavat võrku ülesandepõhiste andmekogumite põhjal, et õppida lisapildist tingimuslikku juhtimist. Treenitavad ja lukustatud koopiad on ühendatud ainulaadset tüüpi konvolutsioonikihiga, mida me kutsume nullkonvolutsioon, kus konvolutsioonikaalud kasvavad järk-järgult õpitud viisil nullidest optimeeritud parameetriteni, mis tähendab, et neil ei ole esialgu mingit mõju ja süsteem tuletab lukustatud võrgule optimaalse kontrollitaseme.

Kuna lukustatud võrgu kaudu säilitatakse algraskused, töötab mudel hästi erineva suurusega treeningandmete kogumitega. Ja nullkonvolutsioonikiht muudab protsessi palju kiiremaks – lähemale difusioonimudeli peenhäälestamisele kui uute kihtide nullist väljaõpetamisele.

Oleme seda tehnikat kujutiste genereerimiseks põhjalikult valideerinud. ControlNet ei paranda ainult väljundpildi kvaliteeti. Samuti muudab see konkreetse ülesande jaoks võrgustiku väljaõppe tõhusamaks ja seega praktilisemaks, et seda saaks meie miljonite loojate jaoks ulatuslikult kasutusele võtta. Katsetes tagab ControlNet kuni 10-kordse efektiivsuse kasvu võrreldes alternatiivsete stsenaariumidega, mis nõuavad mudeli täielikku ümberõpet. See tõhusus on kriitilise tähtsusega, kuna uute mudelite loomise protsess on traditsioonilise tarkvaraarendusega võrreldes aeganõudev ja ressursimahukas. Treeningu tõhusamaks muutmine säästab elektrit, vähendab kulusid ja suurendab uute funktsioonide lisamise kiirust.

ControlNeti ainulaadne struktuur tähendab, et see töötab hästi erineva suurusega treeningandmete kogumitega ja paljudel erinevat tüüpi kandjatel. On näidatud, et ControlNet töötab paljude erinevat tüüpi juhtimisviisidega, sealhulgas fotode, käsitsi joonistatud kritselduse ja avatud poos poosi tuvastamine. Usume, et ControlNeti saab generatiivse AI-sisu jaoks rakendada paljudele eri tüüpi meediumitele. See uuringud on avatud ja avalikult kättesaadavad et kogukond saaks katsetada ja sellele tugineda, ning jätkame rohkema teabe esitamist, kui me sellega rohkem avastusi teeme.

StarCoder

Generatiivset tehisintellekti saab rakendada piltide, heli, teksti, programmi lähtekoodi või mis tahes muu rikasmeedia vormistamiseks. Erinevates meediumites on aga kõige edukamad rakendused, mille väljundit hinnatakse subjektiivselt. Näiteks pilt õnnestub, kui see meeldib inimesest vaatajale. Teatud vead pildil, näiteks kummalised jooned servadel või isegi lisasõrm käel, ei pruugi jääda märkamatuks, kui üldpilt on mõjuv. Samuti võib luuletuses või jutustuses olla grammatilisi vigu või loogilisi hüppeid, kuid kui sisu on mõjuv, kipume need andestama.

Teine võimalus subjektiivsete kriteeriumide arvestamiseks on see, et tulemusruum on pidev. Üks tulemus võib olla parem kui teine, kuid pole kindlat läve, mille korral tulemus on täiesti vastuvõetav või vastuvõetamatu. Teiste valdkondade ja meediavormide puhul hinnatakse väljundit objektiivselt. Näiteks generatiivse AI programmeerimisassistendi toodetud lähtekood on kas õige või mitte. Kui kood ei suuda testi läbida, ebaõnnestub see isegi siis, kui see sarnaneb kehtiva lahenduse koodiga. See on diskreetne tulemusruum. Diskreetses ruumis on raskem edu saavutada nii seetõttu, et kriteeriumid on rangemad, kui ka seetõttu, et heale lahendusele ei saa järk-järgult läheneda – kood rikutakse ära, kuni see äkki hakkab tööle.

Tekstiväljundiks kasutatavad LLM-id töötavad hästi subjektiivsete pidevate rakenduste, näiteks vestlusrobotite jaoks. Tundub, et need sobivad hästi ka proosa genereerimiseks paljudes inimkeeltes, näiteks inglise ja prantsuse keeles. Tundub, et olemasolevad LLM-id ei tööta aga nii hästi programmeerimine keeli, nagu nad seda teevad nende inimkeelte jaoks. Kood on matemaatika vorm, mis on loomulikust keelest väga erinev, objektiivne viis tähenduse väljendamiseks. See on pideva tulemusruumi asemel diskreetne tulemusruum. Robloxi loojate programmeerimiskeele koodi genereerimise kõrgeima kvaliteedi saavutamiseks vajame LLM-ide rakendamise meetodeid, mis võivad selles diskreetses objektiivses ruumis hästi töötada. Vajame ka kindlaid meetodeid koodi funktsionaalsuse väljendamiseks, mis ei sõltu konkreetsest keele süntaksist, näiteks Lua, JavaScript või Python.

StarCoder, uus tipptasemel avatud lähtekoodiga LLM koodi genereerimiseks, on selle tehnilise väljakutse jaoks suur edasiminek ja tõeliselt avatud LLM kõigile. StarCoder on üks tulemustest suur kood teaduskonsortsium, mis hõlmab rohkem kui 600 liiget akadeemilistest ja tööstuse uurimislaboritest. Robloxi teadlane ja Kirdeülikooli professor Arjun Guha aitas seda meeskonda StarCoderi väljatöötamisel juhtida. Need esimesed avaldatud tulemused keskenduvad eranditult koodiaspektile, mis on valdkond, kus valdkond vajab subjektiivsete meetodite suhtelist edu arvestades kõige enam uut kasvu.

Suuremat tehisintellekti ökosüsteemi ja Robloxi kogukonda toetavate LLM-ide kaudu generatiivse tehisintellekti pakkumiseks vajame mudeleid, mis on koolitatud ainult nõuetekohaselt litsentsitud ja vastutustundlikult kogutud andmekogumite põhjal. Neil peaks olema ka piiramatu litsents, et igaüks saaks neid kasutada, neile tugineda ja ökosüsteemi tagasi anda. Tänapäeval on kõige võimsamad LLM-id patenteeritud või piiratud kommertskasutuse litsentsiga, mis keelab või piirab teadlaste võimalusi mudeli endaga katsetada. Seevastu StarCoder on tõeliselt avatud mudel, mis on loodud tööstuse ja akadeemiliste teadlaste koalitsiooni kaudu ning mis on litsentsitud ilma piiranguteta äriliseks kasutamiseks mis tahes ulatuses. StarCoder on koolitatud ainult vastutustundlikult kogutud, asjakohaselt litsentsitud sisu kohta. Algselt koolitati mudelit avaliku koodiga ja loobumisprotsess on saadaval neile, kes eelistavad oma koodi koolitusel mitte kasutada.

Tänapäeval töötab StarCoder 86 erineva programmeerimiskeelega, sealhulgas Python, C++ ja Java. Paberi avaldamise seisuga ületas see kõiki avatud koodiga LLM-i, mis toetavad mitut keelt, ja oli isegi konkurentsivõimeline paljude suletud, patenteeritud mudelitega.

StarCoder LLM on panus ökosüsteemi, kuid meie uurimiseesmärk on palju sügavam. Selle uurimistöö suurim mõju on nii objektiivsete kui ka subjektiivsete multimodaalsete mudelite, sealhulgas koodi, teksti, kujutiste, kõne, video semantilise modelleerimise edendamine ja koolituse tõhususe suurendamine domeeni ülekande tehnikate abil. Samuti loodame saada põhjaliku ülevaate generatiivse AI hooldatavusest ja juhitavusest objektiivsete ülesannete jaoks, nagu lähtekoodi genereerimine. Areneva tehnoloogia intrigeerival esitlusel ja turvalisel, usaldusväärsel ja tõhusal tootel, mis toob väärtust oma kasutajaskonnale, on suur erinevus. Optimeerime oma ML-mudelite jõudlust mälumahu, energiasäästu ja täitmisaja järgi. Samuti oleme välja töötanud tugeva infrastruktuuri, ümbritsenud AI-tuuma tarkvaraga, mis ühendab selle ülejäänud süsteemiga, ja välja töötanud sujuva süsteemi sagedasteks värskendusteks uute funktsioonide lisamisel.

Robloxi teadlaste ja inseneride kokkuviimine teadusringkondade kõige teravamate mõistustega on meie läbimurdelise tehnoloogia poole püüdlemise võtmekomponent. Meil on hea meel jagada neid varaseid tulemusi ja kutsuda teadlaskondi meiega suhtlema ja neid edusamme edasi arendama.