Rewolucja w tworzeniu w Robloxie dzięki generatywnej sztucznej inteligencji – Blog Roblox

Rewolucja w tworzeniu w Robloxie dzięki generatywnej sztucznej inteligencji – Blog Roblox

Węzeł źródłowy: 2874293

Na początku tego roku udostępniliśmy nasze wizja za generatywną sztuczną inteligencję (AI) w Robloxie i nowe, intuicyjne narzędzia, które pozwolą każdemu użytkownikowi stać się twórcą. Ponieważ narzędzia te szybko ewoluują w całej branży, chciałem przedstawić aktualne informacje na temat poczynionego przez nas postępu, drogi, która wciąż jest przed nami, aby demokratyzować tworzenie generatywnej sztucznej inteligencji i dlaczego uważamy, że generatywna sztuczna inteligencja jest kluczowym elementem kierunku, w którym zmierza Roblox. 

Postępy w generatywnej sztucznej inteligencji i modelach dużych języków (LLM) stwarzają niesamowitą szansę na odblokowanie przyszłości wciągających doświadczeń, umożliwiając łatwiejsze i szybsze tworzenie przy zachowaniu bezpieczeństwa i bez konieczności posiadania ogromnych zasobów obliczeniowych. Co więcej, postęp w modelach sztucznej inteligencji, które są multimodalne, co oznacza, że ​​są szkolone przy użyciu wielu typów treści — takich jak obrazy, kod, tekst, modele 3D i dźwięk — otwierają drzwi dla nowych osiągnięć w narzędziach do tworzenia. Te same modele zaczynają również generować wyniki multimodalne, takie jak model, który może tworzyć wynik tekstowy, a także pewne wizualizacje uzupełniające tekst. Postrzegamy te przełomowe rozwiązania w zakresie sztucznej inteligencji jako ogromną szansę na jednoczesne zwiększenie wydajności bardziej doświadczonych twórców i umożliwienie jeszcze większej liczbie osób realizowania świetnych pomysłów w Robloxie. Na tegorocznym Konferencja Deweloperów Roblox (RDC)ogłosiliśmy kilka nowych narzędzi, które wprowadzą generatywną sztuczną inteligencję do Roblox Studio i nie tylko, aby pomóc każdemu użytkownikowi Roblox szybciej skalować, szybciej iterować i zwiększać swoje umiejętności w celu tworzenia jeszcze lepszych treści. 

Asystent Robloxa

Roblox zawsze zapewniał twórcom narzędzia, elektryczne , wsparcie muszą tworzyć wciągające doświadczenia 3D. Jednocześnie zaobserwowaliśmy, że nasi twórcy zaczęli wykorzystywać generatywną i konwersacyjną sztuczną inteligencję innych firm, aby pomóc im w tworzeniu. Chociaż są one przydatne, aby pomóc zmniejszyć obciążenie twórcy, te gotowe wersje nie zostały zaprojektowane z myślą o kompleksowych przepływach pracy w Robloxie ani nie były przeszkolone w zakresie kodu, slangu i żargonu Roblox. Oznacza to, że twórcy muszą wykonać znaczną dodatkową pracę, aby wykorzystać te wersje do tworzenia treści dla Roblox. Pracowaliśmy nad sposobami przeniesienia wartości tych narzędzi do Roblox Studio, a w RDC udostępniliśmy wczesny przykład Asystenta.

Asystent to nasza konwersacyjna sztuczna inteligencja, która umożliwia twórcom na wszystkich poziomach umiejętności spędzanie znacznie mniej czasu na przyziemnych, powtarzalnych zadaniach związanych z tworzeniem, a więcej na czynnościach o wysokiej wartości, takich jak narracja, rozgrywka i projektowanie doświadczeń. Roblox ma wyjątkową pozycję do budowania tego konwersacyjnego modelu sztucznej inteligencji dla wciągających światów 3D, dzięki naszemu dostępowi do dużego zestawu publicznych modeli 3D do trenowania, naszej możliwości integracji modelu z interfejsami API naszej platformy oraz naszemu rosnącemu zestawowi innowacyjnych rozwiązań AI . Twórcy będą mogli używać podpowiedzi tekstowych w języku naturalnym do tworzenia scen, edytowania modeli 3D i stosowania interaktywnych zachowań do obiektów. Asystent będzie wspierać trzy fazy tworzenia: naukę, kodowanie i budowanie:

  • Uczenie się: Niezależnie od tego, czy twórca dopiero zaczyna tworzyć w Robloxie, czy też jest doświadczonym weteranem, Roblox Assistant pomoże odpowiedzieć na pytania na wielu różnych płaszczyznach, używając języka naturalnego. 
  • Kodowanie: Asystent rozwinie naszą najnowszą wersję Asystent kodu narzędzie. Na przykład programiści mogą poprosić Asystenta o ulepszenie kodu, wyjaśnienie sekcji kodu lub pomoc w debugowaniu i zasugerowanie poprawek kodu, który nie działa poprawnie.
  • Budynek: Asystent pomoże twórcom szybko prototypować nowe pomysły. Na przykład nowy twórca może wygenerować całe sceny i wypróbować różne wersje, po prostu wpisując monit typu „Dodaj latarnie wzdłuż tej drogi” lub „Utwórz las z różnymi gatunkami drzew”. Teraz dodaj trochę krzewów i kwiatów.

Praca z Asystentem będzie oparta na współpracy, interaktywna i iteracyjna, umożliwiając twórcom przekazywanie opinii i pracę Asystenta w celu zapewnienia odpowiedniego rozwiązania. To tak, jakby mieć za partnera doświadczonego twórcę, od którego możesz przekazywać pomysły i wypróbowywać je, aż w końcu osiągniesz właściwy wynik.

frameborder=”0″ allow=”akcelerometr; Automatyczne odtwarzanie; zapis do schowka; zaszyfrowane media; żyroskop; Obrazek w obrazku; web-share” allowfullscreen>

Aby uczynić Asystenta najlepszym partnerem, jaki może być, ogłosiliśmy na RDC kolejne ogłoszenie: Zaprosiliśmy programistów włączyć do przesyłania swoich anonimowych danych dotyczących skryptu Luau. Te dane skryptu pomogą sprawić, że nasze narzędzia AI, takie jak Code Assist i Assistant, będą znacznie lepsze w sugerowaniu i tworzeniu bardziej wydajnego kodu, odwdzięczając się programistom Roblox, którzy z nich korzystają. Co więcej, jeśli programiści zdecydują się na udostępnianie poza Robloxem, dane ich skryptów zostaną dodane do zestawu danych udostępnianego stronom trzecim w celu wyszkolenia ich narzędzi do czatowania AI, aby lepiej sugerowały kod Luau, przekazując je programistom Luau na całym świecie.

Żeby było jasne, dzięki kompleksowym badaniom użytkowników i przejrzystym rozmowom z najlepszymi programistami zaprojektowaliśmy ten program w taki sposób, aby można było na niego wyrazić zgodę, co pomoże zapewnić, że wszyscy uczestnicy rozumieją i wyrażają zgodę na to, co obejmuje program. W ramach podziękowania tym, którzy zdecydują się na udostępnianie danych skryptów Robloxowi, zapewnimy dostęp do potężniejszych wersji Asystenta i Asystenta kodu, które działają w oparciu o ten model wyszkolony przez społeczność. Osoby, które nie wyraziły zgody, będą nadal mieć dostęp do naszych istniejących wersji Asystenta i Code Assist.

Łatwiejsze tworzenie awatarów 

Docelowo chcemy, aby każdy z 65.5 miliona naszych codziennych użytkowników miał awatar, który naprawdę go reprezentuje i wyraża, kim jest. Niedawno udostępniliśmy możliwość członkom naszego programu UGC twórz i sprzedawaj zarówno ciała awatarów, jak i samodzielne głowy. Obecnie proces ten wymaga dostępu do Studio lub naszego programu UGC, dość wysokiego poziomu umiejętności i wielu dni pracy, aby umożliwić mimikę twarzy, ruchy ciała, rigging 3D itp. To sprawia, że ​​tworzenie awatarów jest czasochłonne i musi daty, liczba dostępnych opcji jest ograniczona. Chcemy pójść jeszcze dalej.

Aby umożliwić każdemu użytkownikowi Roblox posiadanie spersonalizowanego, wyrazistego awatara, musimy sprawić, aby generowanie i dostosowywanie awatarów było bardzo łatwe. W RDC ogłosiliśmy wprowadzenie nowego narzędzia, które udostępnimy w 2024 roku, które umożliwi łatwe utworzenie niestandardowego awatara z obrazu lub kilku obrazów. Dzięki temu narzędziu każdy twórca mający dostęp do Studio lub naszego programu UGC będzie mógł przesłać obraz, utworzyć dla niego awatar, a następnie zmodyfikować go według własnego uznania. W dłuższej perspektywie zamierzamy udostępnić to również bezpośrednio w ramach doświadczeń w Robloxie.

Aby było to możliwe, szkolimy modele AI na schemacie awatara Roblox i zestawie modeli awatarów 3D należących do Robloxa. Jedno podejście wykorzystuje dźwignię Badania naukowe do generowania stylizowanych awatarów 3D z obrazów 2D. Rozważamy również wykorzystanie wstępnie wyszkolonych modeli dyfuzji tekstu na obraz w celu uzupełnienia ograniczonych danych szkoleniowych 3D za pomocą technik generatywnych 2D oraz wykorzystanie do szkolenia sieci generowania 3D opartej na generatywnej sieci kontradyktoryjnej (GAN). Wreszcie pracujemy nad użyciem Sieć kontrolna nakładanie warstw w predefiniowanych pozach, aby kierować powstałymi obrazami awatarów z wieloma widokami. 

W wyniku tego procesu powstaje siatka 3D dla awatara. Następnie wykorzystujemy technologię 3D badania segmentacji semantycznej, przeszkolony w zakresie pozycji awatara 3D, aby wziąć tę siatkę 3D i dostosować ją, aby dodać odpowiednie rysy twarzy, klatki, osprzęt i tekstury, w istocie, przekształcając statyczną siatkę 3D w awatara Robloxa. Wreszcie narzędzie do edycji siatki pozwala użytkownikom przekształcać i dostosowywać model, aby wyglądał bardziej jak wersja, którą sobie wyobrażają. A wszystko to dzieje się szybko – w ciągu kilku minut – generując nowy awatar, który można zaimportować do Roblox i wykorzystać w doświadczeniu.

frameborder=”0″ allow=”akcelerometr; Automatyczne odtwarzanie; zapis do schowka; zaszyfrowane media; żyroskop; Obrazek w obrazku; web-share” allowfullscreen>

Moderowanie komunikacji głosowej

Sztuczna inteligencja to dla nas nie tylko tworzenie, to także znacznie wydajniejszy system zapewniający zróżnicowaną, bezpieczną i obywatelską społeczność na dużą skalę. Gdy zaczynamy wdrażać nowe funkcje głosowe, w tym czat głosowy i Roblox Connect, nową funkcję połączeń jako awatar oraz interfejsy API ogłoszone na RDC, stajemy przed nowym wyzwaniem — moderowaniem języka mówionego w czasie rzeczywistym. Obecnym standardem branżowym jest proces znany jako automatyczne rozpoznawanie mowy (ASR), który zasadniczo pobiera plik audio, transkrybuje go w celu przekształcenia na tekst, a następnie analizuje tekst w poszukiwaniu nieodpowiedniego języka, słów kluczowych itp. 

Działa to dobrze w przypadku firm korzystających z niego na mniejszą skalę, ale gdy zaczęliśmy badać wykorzystanie tego samego procesu ASR do moderowania komunikacji głosowej, szybko zdaliśmy sobie sprawę, że jest to trudne i nieefektywne na naszą skalę. Takie podejście traci także niezwykle cenne informacje, które są zakodowane w głośności i tonie głosu mówiącego, a także w szerszym kontekście rozmowy. Z milionów minut rozmów, które musielibyśmy codziennie transkrybować w różnych językach, tylko niewielki procent mógłby w ogóle brzmieć jak coś niestosownego. W miarę dalszego skalowania system ten będzie wymagał coraz większej mocy obliczeniowej, aby nadążyć. Przyjrzeliśmy się więc bliżej, jak możemy to zrobić skuteczniej, budując potok prowadzący bezpośrednio od transmisji audio na żywo do oznaczania treści w celu wskazania, czy naruszają one nasze zasady, czy nie.

Ostatecznie udało nam się zbudować własny, niestandardowy system wykrywania głosu, wykorzystując ASR do klasyfikacji naszych wewnętrznych zestawów danych głosowych, a następnie wykorzystać te sklasyfikowane dane głosowe do szkolenia systemu. Mówiąc dokładniej, aby wytrenować ten nowy system, zaczynamy od dźwięku i tworzymy transkrypcję. Następnie przepuszczamy transkrypcję przez nasz system filtrów tekstu Roblox, aby sklasyfikować dźwięk. Ten system filtrów tekstu świetnie radzi sobie z wykrywaniem języka naruszającego zasady w Robloxie, ponieważ od lat optymalizujemy ten sam system filtrów pod kątem slangu, skrótów i żargonu specyficznego dla Robloxa. Na koniec tych warstw szkolenia mamy model, który umożliwia wykrywanie naruszeń zasad bezpośrednio na podstawie dźwięku w czasie rzeczywistym.

Chociaż system ten potrafi wykrywać określone słowa kluczowe, takie jak wulgaryzmy, naruszenia zasad rzadko dotyczą tylko jednego słowa. Jedno słowo może często wydawać się problematyczne w jednym kontekście i dobrze działać w innym kontekście. Zasadniczo tego typu naruszenia dotyczą tego, co mówisz, w jaki sposób mówisz oraz kontekstu, w jakim wypowiedzi są formułowane.

Aby lepiej zrozumieć kontekst, wykorzystujemy natywną moc architektury opartej na transformatorze, która jest bardzo dobra w podsumowywaniu sekwencji. Może pobrać sekwencję danych, na przykład strumień audio, i podsumować ją. Taka architektura pozwala nam zachować dłuższą sekwencję dźwiękową, dzięki czemu możemy wykryć nie tylko słowa, ale także kontekst i intonację. Gdy wszystkie te elementy zostaną połączone, otrzymamy ostateczny system, w którym sygnał wejściowy to dźwięk, a sygnał wyjściowy to klasyfikacja – czy narusza zasady, czy nie. System ten wykrywa słowa kluczowe i wyrażenia naruszające zasady, ale także ton, nastroje i inny kontekst ważny dla określenia intencji. Ten nowy system, który bezpośrednio z dźwięku wykrywa mowę naruszającą zasady, jest znacznie bardziej wydajny obliczeniowo niż tradycyjny system ASR, co znacznie ułatwi jego skalowanie w miarę ciągłego odkrywania na nowo sposobu, w jaki ludzie się spotykają.

Potrzebowaliśmy także nowego sposobu ostrzegania użytkowników naszych narzędzi komunikacji głosowej o potencjalnych konsekwencjach używania tego typu języka. Dysponując tym innowacyjnym systemem wykrywania, eksperymentujemy obecnie nad sposobami wpływania na zachowania online w celu utrzymania bezpiecznego środowiska. Wiemy, że ludzie czasami nieumyślnie naruszają nasze zasady i chcemy zrozumieć, czy okazjonalne przypomnienie może pomóc w zapobieganiu dalszym przestępstwom. Aby temu zaradzić, eksperymentujemy z otrzymywaniem opinii użytkowników w czasie rzeczywistym za pośrednictwem powiadomień. Jeśli system wykryje, że kilka razy powiedziałeś coś, co narusza nasze zasady, wyświetlimy na ekranie wyskakujące powiadomienie z informacją, że Twój język narusza nasze zasady i przekierujemy Cię do naszych zasad, aby uzyskać więcej informacji.

Powiadomienia o transmisji głosowej to jednak tylko jeden z elementów systemu moderacji. Przyglądamy się także wzorcom zachowań na platformie, a także skargom innych osób w Robloxie, aby podejmować ogólne decyzje dotyczące moderacji. Połączenie tych sygnałów może spowodować poważniejsze konsekwencje, w tym odebranie dostępu do funkcji audio lub w przypadku poważniejszych naruszeń całkowity zakaz korzystania z platformy. Zapewnienie bezpieczeństwa i obywatelstwa naszej społeczności ma kluczowe znaczenie, ponieważ postępy w multimodalnych modelach sztucznej inteligencji, generatywnej sztucznej inteligencji i LLM łączą się, tworząc niesamowite nowe narzędzia i możliwości dla twórców. 

Wierzymy, że udostępnienie twórcom tych narzędzi zarówno obniży barierę wejścia dla mniej doświadczonych twórców, jak i uwolni bardziej doświadczonych twórców od bardziej żmudnych zadań tego procesu. Dzięki temu będą mogli poświęcić więcej czasu na wynalazcze aspekty dostrajania i tworzenia pomysłów. Naszym celem jest umożliwienie każdemu, wszędzie, wcielenia w życie swoich pomysłów i znaczne zwiększenie różnorodności awatarów, przedmiotów i doświadczeń dostępnych w Robloxie. My też jesteśmy dzielenie się informacjami i narzędziami pomagającymi chronić nowe dzieła

Już wyobrażamy sobie niesamowite możliwości: załóżmy, że ktoś jest w stanie stworzyć sobowtóra awatara bezpośrednio ze zdjęcia, a następnie może dostosować swojego awatara, aby był wyższy lub wyrenderowany w stylu anime. Mogą też zbudować doświadczenie, prosząc Asystenta o dodanie samochodów, budynków i scenerii, ustawienie oświetlenia lub warunków wiatrowych albo zmianę terenu. Stamtąd mogliby iterować i udoskonalać wszystko, wpisując tam i z powrotem za pomocą Asystenta. Wiemy, że rzeczywistość tego, co ludzie tworzą za pomocą tych narzędzi, gdy staną się dostępne, znacznie wykracza poza to, co możemy sobie nawet wyobrazić.

Znak czasu:

Więcej z Roblox