Forradalmasító alkotás a Robloxon a generatív mesterséges intelligencia segítségével – Roblox Blog

Forradalmasítja az alkotást a Robloxon a Generatív AI segítségével – Roblox Blog

Forrás csomópont: 2874293

Az év elején megosztottuk velünk látomás a generatív mesterséges intelligenciához (AI) a Robloxon és az intuitív új eszközökhöz, amelyek lehetővé teszik, hogy minden felhasználó alkotóvá váljon. Mivel ezek az eszközök gyorsan fejlődnek az iparágban, szerettem volna néhány frissítést közölni az általunk elért előrehaladásról, a még előttünk álló útról a generatív mesterséges intelligencia létrehozásának demokratizálása felé, és arról, hogy miért gondoljuk, hogy a generatív mesterséges intelligencia kritikus eleme a Roblox fejlődésének. 

A generatív mesterséges intelligencia és a nagy nyelvi modellek (LLM) fejlődése hihetetlen lehetőséget kínál a magával ragadó élmények jövőjének feltárására azáltal, hogy egyszerűbb, gyorsabb létrehozást tesz lehetővé, miközben megőrzi a biztonságot és nem igényel hatalmas számítási erőforrásokat. Továbbá a multimodális mesterséges intelligencia modellek fejlődése, vagyis többféle tartalommal – például képekkel, kóddal, szöveggel, 3D-s modellekkel és hanggal – képezik őket, megnyitják az ajtót a létrehozási eszközök új fejlesztései előtt. Ugyanezek a modellek kezdenek multimodális kimeneteket is előállítani, például olyan modellt, amely szöveges kimenetet tud létrehozni, valamint néhány, a szöveget kiegészítő látványelemet. Úgy tekintünk ezekre a mesterséges intelligencia áttörésekre, mint egy hatalmas lehetőség arra, hogy egyidejűleg növeljük a hatékonyságot a tapasztaltabb alkotók számára, és még több ember számára lehetővé tegyük, hogy nagyszerű ötleteket valósíthassanak meg a Robloxon. Az idei évben Roblox Developers Conference (RDC), több új eszközt is bejelentettünk, amelyek a generatív mesterséges intelligenciát behozzák a Roblox Studióba és azon túl is, hogy a Roblox skálán bárkit gyorsabban, gyorsabban iterálhassanak, és még jobb tartalmat készíthessenek. 

Roblox asszisztens

A Roblox mindig is biztosította az alkotókat az eszközökkel, szolgáltatásokés támogatás magával ragadó 3D-s élményeket kell kialakítaniuk. Ugyanakkor azt láttuk, hogy alkotóink elkezdtek harmadik féltől származó generatív és párbeszédes AI-t használni az alkotás elősegítésére. Bár hasznosak az alkotó munkaterhének csökkentésében, ezeket a kész verziókat nem a végpontok közötti Roblox-munkafolyamatokhoz tervezték, és nem képezték őket a Roblox-kóddal, szlenggel és nyelvhasználattal. Ez azt jelenti, hogy az alkotóknak jelentős további munkával kell szembenézniük, hogy ezeket a verziókat használhassák a Roblox számára készült tartalom létrehozására. Dolgoztunk azon, hogy miként vigyük be ezeknek az eszközöknek az értékét a Roblox Studióba, és az RDC-nél megosztottuk az Assistant korai példáját.

Az asszisztens a társalgási mesterséges intelligencia, amely lehetővé teszi, hogy minden képzettségi szinttel rendelkező alkotók lényegesen kevesebb időt töltsenek az alkotással kapcsolatos hétköznapi, ismétlődő feladatokra, és több időt töltsenek olyan nagy értékű tevékenységekre, mint például a narratíva, a játékmenet és az élménytervezés. A Roblox egyedülálló helyzetben van a magával ragadó 3D-s világok számára a párbeszédes mesterségesintelligencia-modell megépítésében, köszönhetően a nyilvános 3D-modellek széles készletéhez való hozzáférésünknek, amelyeken gyakorolni lehet, a modellt integrálni tudjuk a platform API-jainkkal, valamint az innovatív mesterséges intelligencia-megoldások növekvő készletét. . Az alkotók természetes nyelvű szöveges promptokkal jeleneteket hozhatnak létre, 3D modelleket szerkeszthetnek, és interaktív viselkedést alkalmazhatnak az objektumokon. Az asszisztens az alkotás három fázisát támogatja: tanulás, kódolás és építés:

  • Tanulás: Akár egy alkotó teljesen új a Robloxon való fejlesztésben, akár egy tapasztalt veterán, a Roblox Asszisztens a felületek széles skáláján segít megválaszolni a kérdéseket a természetes nyelv használatával. 
  • Kódolás: Az asszisztens kibővíti a legutóbbi Code Assist eszköz. A fejlesztők például megkérhetik a Segédet, hogy javítsa a kódját, magyarázzon el egy kódrészletet, vagy segítsen a hibakeresésben, és javaslatot tehet a nem megfelelően működő kódra.
  • Épület: Az Asszisztens segít az alkotóknak új ötletek gyors prototípusában. Például egy új alkotó egész jeleneteket generálhat, és különféle verziókat próbálhat ki, egyszerűen begépelhet egy olyan parancsot, mint például: „Tegyen fel néhány utcai lámpát az út mentén” vagy „Készítsen erdőt különböző fákkal. Most adj hozzá néhány bokrot és virágot."

A Segéddel végzett munka együttműködésen alapuló, interaktív és iteratív lesz, lehetővé téve az alkotók számára, hogy visszajelzést adhassanak, és a Segéd munkája a megfelelő megoldást kínálja. Olyan lesz, mintha egy szakértő alkotó lenne a partnere, akitől ötleteket ugrálhat, és addig próbálhat ki ötleteket, amíg jól nem sikerül.

frameborder=”0″ enable=”gyorsulásmérő; automatikus lejátszás; vágólap-írás; titkosított média; giroszkóp; kép a képben; web-share” enablefullscreen>

Annak érdekében, hogy az Assistant a lehető legjobb partner legyen, újabb bejelentést tettünk az RDC-nél: Meghívtuk a fejlesztőket, hogy belépni hogy hozzájáruljanak anonimizált Luau-szkript adataikhoz. Ezek a szkriptadatok segítenek abban, hogy mesterséges intelligencia-eszközeink, mint például a Code Assist és az Assistant, lényegesen jobbak legyenek a kódjavaslatban és hatékonyabb kód létrehozásában, visszaadva az őket használó Roblox-fejlesztőknek. Továbbá, ha a fejlesztők a Robloxon kívüli megosztás mellett döntenek, a szkriptadataikat hozzáadják egy harmadik felek számára elérhető adatkészlethez, hogy megtanítsák mesterséges intelligencia csevegőeszközeiket a Luau kód jobb javaslatára, és mindenhol visszaadják a Luau fejlesztőknek.

Az egyértelműség kedvéért: átfogó felhasználói kutatások és a legjobb fejlesztőkkel folytatott átlátható beszélgetések révén ezt úgy alakítottuk ki, hogy ez a részvételi lehetőség legyen, és segítsen biztosítani, hogy minden résztvevő megértse és beleegyezzen abba, amit a program magában foglal. Köszönetképpen azoknak, akik úgy döntenek, hogy részt vesznek a szkriptadatok Robloxszal való megosztásában, hozzáférést biztosítunk az Assistant és a Code Assist erősebb verzióihoz, amelyeket ez a közösség által kiképzett modell hajt. Azok, akik nem iratkoztak fel, továbbra is hozzáférhetnek az Assistant és a Code Assist meglévő verziójához.

Könnyebb avatárkészítés 

Végső soron azt akarjuk, hogy napi 65.5 millió felhasználónk mindegyike rendelkezzen egy avatárral, amely valóban képviseli őket, és kifejezi, hogy kik is ők. Nemrég kiadtuk az UGC program tagjai számára a lehetőséget létrehozni és eladni mind az avatártesteket, mind az önálló fejeket. Manapság ehhez a folyamathoz hozzáférés szükséges a Stúdióhoz vagy az UGC programunkhoz, meglehetősen magas szintű készségekre és több napos munkára, hogy lehetővé tegye az arckifejezést, a testmozgást, a 3D kötélzetet stb. Ez időigényessé teszi az avatarok létrehozását, és dátum, korlátozta a rendelkezésre álló lehetőségek számát. Még tovább akarunk menni.

Ahhoz, hogy a Robloxon mindenkinek személyre szabott, kifejező avatarja legyen, nagyon egyszerűvé kell tennünk az avatarok generálását és testreszabását. Az RDC-nél bejelentettünk egy új eszközt, amelyet 2024-ben adunk ki, amely lehetővé teszi egyéni avatar egyszerű létrehozását egy képből vagy több képből. Ezzel az eszközzel bármely alkotó, aki hozzáfér a Stúdióhoz vagy az UGC programunkhoz, képes lesz képet feltölteni, létrehozni egy avatart, majd tetszés szerint módosítani. Hosszabb távon ezt is közvetlenül elérhetővé kívánjuk tenni a Robloxon keresztül.

Ennek lehetővé tétele érdekében mesterséges intelligencia-modelleket tanítunk a Roblox avatarsémájára és a Roblox tulajdonában lévő 3D-s avatarmodellekre. Az egyik megközelítés kihasználja kutatás 3D stilizált avatarok generálásához 2D képekből. Azt is vizsgáljuk, hogy előre betanított szöveg-kép diffúziós modelleket használjunk a korlátozott 3D-s képzési adatok 2D-s generatív technikákkal történő kiegészítésére, valamint egy generatív ellenséges hálózat (GAN) alapú 3D-generáló hálózat használatára a képzéshez. Végül a felhasználáson dolgozunk ControlNet előre definiált pózokban rétegezve az avatarok többnézetű képeit. 

Ez a folyamat 3D-s hálót hoz létre az avatar számára. Ezután a 3D-t használjuk szemantikai szegmentációs kutatás3D-s avatar pózokra edzett, hogy felvegye ezt a 3D hálót, és beállítsa a megfelelő arcvonások, ketrecbe zárás, kötélzet és textúrák hozzáadásához, lényegében a statikus 3D hálóból egy Roblox avatárt. Végül egy hálószerkesztő eszköz lehetővé teszi a felhasználók számára, hogy átalakítsák és módosítsák a modellt, hogy az jobban hasonlítson az általuk elképzelt verzióhoz. És mindez gyorsan – perceken belül – megtörténik, és egy új avatart generál, amelyet importálhatunk a Robloxba és használhatunk egy élményben.

frameborder=”0″ enable=”gyorsulásmérő; automatikus lejátszás; vágólap-írás; titkosított média; giroszkóp; kép a képben; web-share” enablefullscreen>

Hangkommunikáció moderálása

A mesterséges intelligencia számunkra nem csak az alkotásról szól, hanem egy sokkal hatékonyabb rendszert is a sokszínű, biztonságos és civil közösség biztosítására. Ahogy elkezdjük az új hangfunkciók bevezetését, beleértve a hangcsevegést és a Roblox Connect-et, az új hívást az avatarként, valamint az RDC-n bejelentett API-kat, új kihívással nézünk szembe: a beszélt nyelv valós idejű moderálásával. Ennek jelenlegi iparági szabványa az Automatic Speech Recognition (ASR) néven ismert folyamat, amely lényegében egy hangfájlt vesz át, átírja, hogy szöveggé alakítsa, majd elemzi a szöveget, hogy megkeresse a nem megfelelő nyelvezetet, kulcsszavakat stb. 

Ez jól működik azoknál a cégeknél, amelyek kisebb léptékben használják, de ahogy megvizsgáltuk, hogy ugyanezt az ASR-eljárást alkalmazzuk a hangkommunikáció mérséklésére, hamar rájöttünk, hogy ez nehéz és nem hatékony a mi léptékünkben. Ez a megközelítés a beszélő hangerejében és hangszínében kódolt hihetetlenül értékes információkat, valamint a beszélgetés tágabb kontextusát is elveszíti. Annak a több millió percnyi beszélgetésnek, amelyet minden nap át kellene írnunk különböző nyelveken, csak nagyon kis százaléka hangzik esetleg valami nem megfelelőnek. És ahogy folytatjuk a méretezést, ennek a rendszernek egyre több számítási teljesítményre lenne szüksége ahhoz, hogy lépést tartson. Ezért közelebbről megvizsgáltuk, hogyan tudnánk ezt hatékonyabban megtenni egy olyan csatorna kiépítésével, amely közvetlenül az élő hanganyagtól a tartalom címkézéséhez vezet, jelezve, hogy az sérti-e az irányelveinket vagy sem.

Végül sikerült létrehoznunk egy házon belüli egyéni hangérzékelő rendszert az ASR használatával házon belüli hangadatkészleteink osztályozására, majd a minősített hangadatok felhasználásával a rendszer betanításához. Pontosabban, ennek az új rendszernek a betanításához hanggal kezdjük, és létrehozunk egy átiratot. Ezután futtatjuk az átiratot a Roblox szövegszűrő rendszerünkön keresztül, hogy osztályozzuk a hangot. Ez a szövegszűrőrendszer nagyszerűen képes észlelni a szabályokat sértő nyelvezeteket a Robloxon, mivel ugyanezt a szűrőrendszert évek óta optimalizáltuk a Roblox-specifikus szlengekre, rövidítésekre és nyelvhasználatra. A képzés ezen rétegeinek végén van egy modellünk, amely képes az irányelvek megsértését közvetlenül a hangból, valós időben észlelni.

Bár ez a rendszer képes bizonyos kulcsszavak, például káromkodás észlelésére, az irányelvek megsértése ritkán csak egyetlen szóból áll. Egy-egy szó gyakran problémásnak tűnhet az egyik kontextusban, és egy másik kontextusban is jó. Lényegében az ilyen típusú jogsértések magukban foglalják, hogy mit mondasz, hogyan mondod, és a kijelentések kontextusát.

A kontextus jobb megértése érdekében kihasználjuk a transzformátor alapú architektúra natív erejét, amely nagyon jó a sorozatok összefoglalásában. Elfogadhat egy adatsort, például egy hangfolyamot, és összefoglalhatja azokat. Ez az architektúra lehetővé teszi számunkra, hogy megőrizzünk egy hosszabb hangsort, így nemcsak a szavakat, hanem a kontextust és az intonációkat is észlelhetjük. Ha ezek az elemek összeállnak, van egy végső rendszerünk, amelyben a bemenet hang, a kimenet pedig egy osztályozás – sérti-e az irányelveket, vagy nem. Ez a rendszer képes felismerni a kulcsszavakat és az irányelveket sértő kifejezéseket, de a hangnemet, a hangulatot és a szándék meghatározásához fontos egyéb kontextust is. Ez az új rendszer, amely az irányelveket sértő beszédet közvetlenül a hangból észleli, lényegesen hatékonyabb a számítástechnika, mint a hagyományos ASR rendszer, ami sokkal könnyebbé teszi a méretezhetőséget, miközben folyamatosan újragondoljuk, hogyan jönnek össze az emberek.

Szükségünk volt egy új módra is, hogy figyelmeztsük a hangkommunikációs eszközeinket használókat az ilyen típusú nyelvek lehetséges következményeire. Ezzel a rendelkezésünkre álló innovatív észlelési rendszerrel most olyan módszerekkel kísérletezünk, amelyekkel befolyásolhatjuk az online viselkedést a biztonságos környezet fenntartása érdekében. Tudjuk, hogy az emberek néha nem szándékosan sértik meg irányelveinket, és szeretnénk megérteni, hogy egy alkalmi emlékeztető segíthet-e megelőzni a további jogsértéseket. Ennek elősegítésére kísérletezzünk az értesítéseken keresztüli valós idejű felhasználói visszajelzésekkel. Ha a rendszer azt észleli, hogy Ön többször mondott valamit, ami sérti az irányelveinket, akkor egy előugró értesítést jelenítünk meg a képernyőn, amely tájékoztatja Önt arról, hogy az Ön nyelve sérti irányelveinket, és további információért az irányelveinkhez irányítja.

A hangfolyam-értesítések azonban csak egy elemét képezik a moderációs rendszernek. Megvizsgáljuk a platformon tapasztalható viselkedési mintákat, valamint a Robloxon mások panaszait is, hogy általános moderációs döntéseinket meghozzuk. Ezeknek a jeleknek az összesítése erősebb következményekkel járhat, beleértve az audiofunkciókhoz való hozzáférés visszavonását, vagy súlyosabb jogsértések esetén a platform teljes kitiltását. Közösségünk biztonságban és civilben tartása kritikus fontosságú, mivel a multimodális mesterségesintelligencia-modellek, a generatív mesterségesintelligencia és az LLM-ek ezen fejlesztései együtt hihetetlen új eszközöket és képességeket tesznek lehetővé az alkotók számára. 

Úgy gondoljuk, hogy az alkotók számára ezekkel az eszközökkel csökkentjük a kevésbé tapasztalt alkotók belépési korlátait, és megszabadítjuk a tapasztaltabb alkotókat a folyamat fáradságosabb feladataitól. Ez lehetővé teszi számukra, hogy több időt töltsenek a finomhangolás és az ötletelés ötletes aspektusaival. Mindezzel az a célunk, hogy mindenki, bárhol életre keltse az ötleteit, és jelentősen növelje a Robloxon elérhető avatarok, tárgyak és élmények sokszínűségét. mi is információk és eszközök megosztása az új alkotások védelmében

Már most elképesztő lehetőségeket képzelünk el: Tegyük fel, hogy valaki képes közvetlenül egy fényképből létrehozni egy doppelganger avatárt, majd testreszabhatja az avatárját, hogy magasabb legyen, vagy anime stílusban renderelje le. Vagy építhetnek élményt úgy, hogy megkérik a Segédet, hogy adjon hozzá autókat, épületeket és tájat, állítsa be a világítást vagy a szélviszonyokat, vagy módosítsa a terepet. Innentől kezdve a Segéddel oda-vissza gépelve finomíthatják a dolgokat. Tudjuk, hogy a valóság, amit az emberek ezekkel az eszközökkel hoznak létre, amint elérhetővé válnak, jóval meghaladja azt, amit el tudunk képzelni.

Időbélyeg:

Még több roblox