Revolutionerande skapande på Roblox med Generativ AI - Roblox Blog

Revolutionerande skapande på Roblox med Generativ AI – Roblox Blog

Källnod: 2874293

Tidigare i år delade vi vår syn för generativ artificiell intelligens (AI) på Roblox och de intuitiva nya verktygen som gör det möjligt för varje användare att bli en skapare. Eftersom dessa verktyg utvecklas snabbt över hela branschen, ville jag ge några uppdateringar om de framsteg vi har gjort, vägen som fortfarande ligger framför oss för att demokratisera generativ AI-skapande och varför vi tror att generativ AI är en avgörande faktor för vart Roblox är på väg. 

Framsteg inom generativ AI och stora språkmodeller (LLM) ger en otrolig möjlighet att låsa upp framtiden för uppslukande upplevelser genom att möjliggöra enklare och snabbare skapande samtidigt som säkerheten bibehålls och utan att kräva stora beräkningsresurser. Vidare öppnar framsteg inom AI-modeller som är multimodala, vilket innebär att de tränas med flera typer av innehåll – som bilder, kod, text, 3D-modeller och ljud – dörren för nya framsteg inom skapande verktyg. Samma modeller börjar också producera multimodala utdata, till exempel en modell som kan skapa en textutdata, såväl som en del bilder som kompletterar texten. Vi ser dessa AI-genombrott som en enorm möjlighet att samtidigt öka effektiviteten för mer erfarna kreatörer och att göra det möjligt för ännu fler människor att förverkliga fantastiska idéer på Roblox. På årets Roblox Developers Conference (RDC), tillkännagav vi flera nya verktyg som kommer att föra in generativ AI till Roblox Studio och vidare för att hjälpa alla på Roblox skala snabbare, iterera snabbare och utöka sina färdigheter för att skapa ännu bättre innehåll. 

Roblox assistent

Roblox har alltid försett kreatörer med verktygen, tjänsteroch stödja de behöver bygga uppslukande 3D-upplevelser. Samtidigt har vi sett våra skapare börja använda generativ och konversations-AI från tredje part för att hjälpa dem att skapa. Även om de är användbara för att hjälpa till att minska skaparens arbetsbörda, var dessa standardversioner inte designade för Roblox-arbetsflöden från början till slut eller tränade på Roblox-kod, slang och lingo. Det innebär att kreatörer står inför betydande extra arbete för att använda dessa versioner för att skapa innehåll för Roblox. Vi har arbetat på sätt att föra in värdet av dessa verktyg i Roblox Studio, och på RDC delade vi ett tidigt exempel på Assistant.

Assistant är vår konversations-AI som gör det möjligt för skapare på alla nivåer att spendera betydligt mindre tid på de vardagliga, repetitiva uppgifterna som är involverade i att skapa och mer tid på värdefulla aktiviteter, som berättelse, spel och upplevelsedesign. Roblox är unikt positionerat för att bygga denna konversations-AI-modell för uppslukande 3D-världar, tack vare vår tillgång till en stor uppsättning offentliga 3D-modeller att träna på, vår förmåga att integrera en modell med våra plattforms-API:er och vår växande svit av innovativa AI-lösningar . Skapare kommer att kunna använda textuppmaningar på naturligt språk för att skapa scener, redigera 3D-modeller och tillämpa interaktiva beteenden på objekt. Assistant kommer att stödja de tre faserna av skapande: lärande, kodning och byggnad:

  • Inlärning: Oavsett om en kreatör är helt ny på att utveckla på Roblox eller en erfaren veteran, kommer Roblox Assistant att hjälpa till att svara på frågor över ett brett spektrum av ytor med naturligt språk. 
  • Kodning: Assistant kommer att utöka vår senaste Code Assist verktyg. Utvecklare kan till exempel be Assistant förbättra sin kod, förklara en kodavsnitt eller hjälpa till att felsöka och föreslå korrigeringar för kod som inte fungerar korrekt.
  • Byggnad: Assistant hjälper kreatörer att snabbt skapa prototyper för nya idéer. En ny skapare kan till exempel skapa hela scener och prova olika versioner helt enkelt genom att skriva en uppmaning som "Lägg till några gatlyktor längs den här vägen" eller "Skapa en skog med olika sorters träd. Lägg nu till några buskar och blommor.”

Att arbeta med Assistant kommer att vara samarbetande, interaktivt och iterativt, vilket gör det möjligt för kreatörer att ge feedback och få Assistant att arbeta för att tillhandahålla rätt lösning. Det kommer att vara som att ha en expertskapare som partner som du kan studsa idéer från och prova idéer tills du får det rätt.

frameborder=”0″ allow=”accelerometer; autospela; urklipp-skriva; krypterad media; gyroskop; bild-i-bild; web-share” allowfullscreen>

För att göra Assistant till den bästa partnern den kan vara, gjorde vi ytterligare ett tillkännagivande på RDC: Vi bjöd in utvecklare till välja in att bidra med deras anonymiserade Luau-manusdata. Dessa skriptdata kommer att bidra till att göra våra AI-verktyg, som Code Assist och Assistant, betydligt bättre på att föreslå och skapa mer effektiv kod, vilket ger tillbaka till Roblox-utvecklarna som använder dem. Vidare, om utvecklare väljer att dela utöver Roblox, kommer deras skriptdata att läggas till en datauppsättning som görs tillgänglig för tredje part för att träna deras AI-chattverktyg för att bli bättre på att föreslå Luau-kod, vilket ger tillbaka till Luau-utvecklare överallt.

För att vara tydliga, genom omfattande användarforskning och transparenta samtal med topputvecklare, har vi utformat detta för att vara opt-in och kommer att hjälpa till att säkerställa att alla deltagare förstår och samtycker till vad programmet innebär. Som ett tack till de som väljer att delta i att dela skriptdata med Roblox, kommer vi att ge tillgång till de mer kraftfulla versionerna av Assistant och Code Assist som drivs av denna community-utbildade modell. De som inte har valt att delta kommer att fortsätta ha tillgång till vår befintliga version av Assistant och Code Assist.

Enklare avatarskapande 

I slutändan vill vi att var och en av våra 65.5 miljoner dagliga användare ska ha en avatar som verkligen representerar dem och uttrycker vem de är. Vi släppte nyligen möjligheten för våra UGC-programmedlemmar att skapa och sälj både avatarkroppar och fristående huvuden. Idag kräver den processen tillgång till Studio eller vårt UGC-program, en ganska hög kompetensnivå och flera dagars arbete för att möjliggöra ansiktsuttryck, kroppsrörelser, 3D-rigg, etc. Detta gör avatarer tidskrävande att skapa och har, för att datum, begränsat antalet tillgängliga alternativ. Vi vill gå ännu längre.

För att göra det möjligt för alla på Roblox att ha en personlig, uttrycksfull avatar måste vi göra avatarer väldigt lätta att skapa och anpassa. På RDC tillkännagav vi ett nytt verktyg som vi släpper 2024 som gör det enkelt att skapa en anpassad avatar från en bild eller från flera bilder. Med det här verktyget kommer alla skapare med tillgång till Studio eller vårt UGC-program att kunna ladda upp en bild, skapa en avatar för dem och sedan ändra den som de vill. På längre sikt avser vi att även göra detta tillgängligt direkt inom upplevelser på Roblox.

För att göra detta möjligt tränar vi AI-modeller på Roblox avatarschema och en uppsättning Roblox-ägda 3D-avatarmodeller. Ett tillvägagångssätt utnyttjar forskning för att generera stiliserade 3D-avatarer från 2D-bilder. Vi tittar också på att använda förtränade text-till-bild-diffusionsmodeller för att utöka begränsade 3D-träningsdata med 2D-generativa tekniker, och att använda ett generativt motståndsnätverk (GAN)-baserat 3D-genereringsnätverk för träning. Äntligen arbetar vi med att använda ControlNet att lagra i fördefinierade poser för att vägleda de resulterande flervybilderna av avatarerna. 

Denna process producerar ett 3D-nät för avataren. Därefter använder vi 3D semantisk segmenteringsforskning, tränad i 3D-avatarposer, för att ta det 3D-nätet och justera det för att lägga till lämpliga ansiktsdrag, burning, riggning och texturer, i huvudsak, vilket gör det statiska 3D-nätet till en Roblox-avatar. Slutligen, ett mesh-redigeringsverktyg tillåter användare att modifiera och justera modellen för att få den att se mer ut som den version de föreställer sig. Och allt detta sker snabbt – inom några minuter – och genererar en ny avatar som kan importeras till Roblox och användas i en upplevelse.

frameborder=”0″ allow=”accelerometer; autospela; urklipp-skriva; krypterad media; gyroskop; bild-i-bild; web-share” allowfullscreen>

Moderera röstkommunikation

AI för oss handlar inte bara om skapande, det är också ett mycket effektivare system för att säkerställa ett mångsidigt, säkert och civilt samhälle, i stor skala. När vi börjar rulla ut nya röstfunktioner, inklusive röstchatt och Roblox Connect, den nya anropet som din avatarfunktion, och API:er som annonserades på RDC, står vi inför en ny utmaning – moderera talat språk i realtid. Den nuvarande industristandarden för detta är en process som kallas Automatic Speech Recognition (ASR), som i huvudsak tar en ljudfil, transkriberar den för att konvertera den till text, sedan analyserar texten för att leta efter olämpligt språk, nyckelord, etc. 

Detta fungerar bra för företag som använder det i mindre skala, men när vi utforskade att använda samma ASR-process för att moderera röstkommunikation insåg vi snabbt att det är svårt och ineffektivt i vår skala. Detta tillvägagångssätt förlorar också otroligt värdefull information som är kodad i en talares volym och tonfall, såväl som konversationens bredare sammanhang. Av de miljontals minuters konversation vi skulle behöva transkribera varje dag, på olika språk, skulle bara en mycket liten andel möjligen låta som något olämpligt. Och när vi fortsätter att skala, skulle det systemet kräva mer och mer datorkraft för att hänga med. Så vi tittade närmare på hur vi kunde göra detta mer effektivt, genom att bygga en pipeline som går direkt från liveljudet till att märka innehåll för att indikera om det bryter mot våra policyer eller inte.

Till slut kunde vi bygga ett internt anpassat röstdetekteringssystem genom att använda ASR för att klassificera våra interna röstdatauppsättningar och sedan använda den klassificerade röstdatan för att träna systemet. Mer specifikt, för att träna detta nya system börjar vi med ljud och skapar en transkription. Vi kör sedan transkriptionen genom vårt Roblox textfiltersystem för att klassificera ljudet. Detta textfiltersystem är bra på att upptäcka policyöverträdande språk på Roblox eftersom vi har optimerat samma filtersystem i flera år på Roblox-specifik slang, förkortningar och lingo. I slutet av dessa utbildningslager har vi en modell som kan upptäcka policyöverträdelser direkt från ljud i realtid.

Även om det här systemet har förmågan att upptäcka specifika sökord som svordomar, är policyöverträdelser sällan bara ett ord. Ett ord kan ofta verka problematiskt i ett sammanhang och bara bra i ett annat sammanhang. I huvudsak involverar dessa typer av kränkningar vad du säger, hur du säger det och sammanhanget i vilket uttalandena görs.

För att bli bättre på att förstå sammanhang, utnyttjar vi den ursprungliga kraften i en transformatorbaserad arkitektur, som är mycket bra på sekvenssammanfattning. Det kan ta en sekvens av data, som en ljudström, och sammanfatta den åt dig. Denna arkitektur gör det möjligt för oss att bevara en längre ljudsekvens så att vi inte bara kan upptäcka ord utan också sammanhang och intonationer. När alla dessa element väl har samlats har vi ett slutgiltigt system där ingången är ljud och utgången är en klassificering – bryter mot policy eller inte. Det här systemet kan upptäcka sökord och policyöverträdande fraser, men också ton, känslor och andra sammanhang som är viktiga för att avgöra avsikten. Detta nya system, som upptäcker policyöverträdande tal direkt från ljud, är betydligt mer beräkningseffektivt än ett traditionellt ASR-system, vilket kommer att göra det mycket lättare att skala när vi fortsätter att ompröva hur människor möts.

Vi behövde också ett nytt sätt att varna dem på våra röstkommunikationsverktyg för de potentiella konsekvenserna av denna typ av språk. Med detta innovativa detektionssystem till vårt förfogande experimenterar vi nu med sätt att påverka onlinebeteende för att upprätthålla en säker miljö. Vi vet att människor ibland bryter mot våra policyer oavsiktligt och vi vill förstå om en tillfällig påminnelse kan hjälpa till att förhindra ytterligare brott. För att hjälpa till med detta experimenterar vi med användarfeedback i realtid genom aviseringar. Om systemet upptäcker att du har sagt något som bryter mot våra policyer ett antal gånger, visar vi ett popup-meddelande på skärmen som informerar dig om att ditt språk bryter mot våra policyer och hänvisar dig till våra policyer för mer information.

Röstströmaviseringar är dock bara en del av modereringssystemet. Vi tittar också på beteendemönster på plattformen, såväl som klagomål från andra på Roblox, för att driva våra övergripande modereringsbeslut. Samlingen av dessa signaler kan resultera i starkare konsekvenser, inklusive att få tillgång till ljudfunktioner återkallade, eller för mer allvarliga överträdelser, att helt förbjudas från plattformen. Att hålla vårt samhälle säkert och civilt är avgörande eftersom dessa framsteg inom multimodala AI-modeller, generativ AI och LLM:er går samman för att möjliggöra otroliga nya verktyg och möjligheter för kreatörer. 

Vi tror att om kreatörer får dessa verktyg både sänker inträdesbarriären för mindre erfarna kreatörer och frigör mer erfarna kreatörer från de mer tråkiga uppgifterna i denna process. Detta kommer att tillåta dem att spendera mer tid på de uppfinningsrika aspekterna av finjustering och idéskapande. Vårt mål med allt detta är att göra det möjligt för alla, överallt, att förverkliga sina idéer och att avsevärt öka mångfalden av avatarer, föremål och upplevelser som finns tillgängliga på Roblox. Vi är också dela information och verktyg för att skydda nya skapelser

Vi föreställer oss redan fantastiska möjligheter: Säg att någon kan skapa en dubbelgängare avatar direkt från ett foto, de kan sedan anpassa sin avatar för att göra dem längre eller rendera dem i anime-stil. Eller så kan de skapa en upplevelse genom att be Assistant lägga till bilar, byggnader och landskap, ställa in ljus- eller vindförhållanden eller ändra terrängen. Därifrån kunde de iterera för att förfina saker bara genom att skriva fram och tillbaka med Assistant. Vi vet att verkligheten av vad människor skapar med dessa verktyg, när de blir tillgängliga, kommer att gå långt utöver vad vi ens kan föreställa oss.

Tidsstämpel:

Mer från Roblox