Révolutionner la création sur Roblox avec l'IA générative - Roblox Blog

Révolutionner la création sur Roblox avec l'IA générative – Roblox Blog

Nœud source: 2874293

Plus tôt cette année, nous avons partagé notre vision pour l'intelligence artificielle (IA) générative sur Roblox et les nouveaux outils intuitifs qui permettront à chaque utilisateur de devenir un créateur. Alors que ces outils évoluent rapidement dans l'industrie, je voulais fournir quelques mises à jour sur les progrès que nous avons réalisés, le chemin qu'il nous reste à parcourir pour démocratiser la création d'IA générative et pourquoi nous pensons que l'IA générative est un élément essentiel pour la direction que prend Roblox. 

Les progrès de l'IA générative et des grands modèles de langage (LLM) présentent une incroyable opportunité d'ouvrir l'avenir des expériences immersives en permettant une création plus facile et plus rapide tout en maintenant la sécurité et sans nécessiter d'énormes ressources de calcul. De plus, les progrès des modèles d'IA multimodaux, c'est-à-dire qu'ils sont entraînés avec plusieurs types de contenu, tels que des images, du code, du texte, des modèles 3D et de l'audio, ouvrent la porte à de nouvelles avancées dans les outils de création. Ces mêmes modèles commencent également à produire des sorties multimodales, comme un modèle capable de créer une sortie texte, ainsi que des visuels complétant le texte. Nous considérons ces avancées en matière d'IA comme une énorme opportunité d'augmenter simultanément l'efficacité des créateurs les plus expérimentés et de permettre à encore plus de personnes de donner vie à de grandes idées sur Roblox. À cette année Conférence des développeurs Roblox (RDC), nous avons annoncé plusieurs nouveaux outils qui intégreront l'IA générative dans Roblox Studio et au-delà pour aider toute personne utilisant Roblox à évoluer plus rapidement, à itérer plus rapidement et à augmenter ses compétences pour créer un contenu encore meilleur. 

Assistant Roblox

Roblox a toujours fourni aux créateurs les outils, intégréset une Support ils doivent créer des expériences 3D immersives. Dans le même temps, nous avons vu nos créateurs commencer à utiliser une IA générative et conversationnelle tierce pour les aider à créer. Bien qu'elles soient utiles pour aider à réduire la charge de travail du créateur, ces versions standard n'ont pas été conçues pour les flux de travail Roblox de bout en bout ni formées au code, à l'argot et au jargon Roblox. Cela signifie que les créateurs sont confrontés à un travail supplémentaire important pour utiliser ces versions afin de créer du contenu pour Roblox. Nous avons travaillé sur les moyens d'apporter la valeur de ces outils dans Roblox Studio, et chez RDC, nous avons partagé un premier exemple d'Assistant.

Assistant est notre IA conversationnelle qui permet aux créateurs de tous niveaux de consacrer beaucoup moins de temps aux tâches banales et répétitives impliquées dans la création et plus de temps aux activités à grande valeur ajoutée, comme la narration, le jeu et la conception d'expériences. Roblox est dans une position unique pour créer ce modèle d'IA conversationnelle pour des mondes 3D immersifs, grâce à notre accès à un large ensemble de modèles 3D publics sur lesquels s'entraîner, notre capacité à intégrer un modèle avec les API de notre plateforme et notre suite croissante de solutions d'IA innovantes. . Les créateurs pourront utiliser des invites textuelles en langage naturel pour créer des scènes, modifier des modèles 3D et appliquer des comportements interactifs aux objets. L'assistant prendra en charge les trois phases de création : apprentissage, codage et construction :

  • Apprentissage: Qu'un créateur soit nouveau dans le développement sur Roblox ou un vétéran chevronné, Roblox Assistant aidera à répondre aux questions sur un large éventail de surfaces en utilisant le langage naturel. 
  • Codage: L'Assistant développera notre récent Aide au code outil. Par exemple, les développeurs peuvent demander à l'Assistant d'améliorer leur code, d'expliquer une section de code ou d'aider au débogage et de suggérer des correctifs pour le code qui ne fonctionne pas correctement.
  • Bâtiment: Assistant aidera les créateurs à prototyper rapidement de nouvelles idées. Par exemple, un nouveau créateur pourrait générer des scènes entières et essayer différentes versions en tapant simplement une invite telle que « Ajoutez des lampadaires le long de cette route » ou « Créez une forêt avec différents types d'arbres. Maintenant, ajoutez quelques buissons et fleurs.

Le travail avec Assistant sera collaboratif, interactif et itératif, permettant aux créateurs de fournir des commentaires et de laisser Assistant travailler pour fournir la bonne solution. Ce sera comme avoir un créateur expert comme partenaire avec lequel vous pourrez échanger des idées et essayer des idées jusqu'à ce que vous obteniez la bonne solution.

frameborder=”0″ allow=”accéléromètre; lecture automatique; presse-papiers-écrire ; support crypté ; gyroscope; image dans l'image; partage Web "allowfullscreen>

Pour faire d'Assistant le meilleur partenaire possible, nous avons fait une autre annonce au RDC : nous avons invité les développeurs à opter pour apporter leurs données de script Luau anonymisées. Ces données de script contribueront à rendre nos outils d'IA, comme Code Assist et Assistant, nettement meilleurs dans la suggestion et la création de code plus efficace, redonnant ainsi aux développeurs Roblox qui les utilisent. De plus, si les développeurs choisissent de partager au-delà de Roblox, leurs données de script seront ajoutées à un ensemble de données mis à la disposition de tiers pour entraîner leurs outils de chat IA à mieux suggérer du code Luau, redonnant ainsi aux développeurs Luau du monde entier.

Pour être clair, grâce à des recherches approfondies sur les utilisateurs et à des conversations transparentes avec les meilleurs développeurs, nous avons conçu ce programme pour qu'il soit opt-in et contribuerons à garantir que tous les participants comprennent et consentent à ce que le programme implique. En guise de remerciement à ceux qui choisissent de participer au partage de données de script avec Roblox, nous accorderons l'accès aux versions les plus puissantes d'Assistant et de Code Assist qui sont alimentées par ce modèle formé par la communauté. Ceux qui ne se sont pas inscrits continueront d’avoir accès à notre version existante d’Assistant et de Code Assist.

Création d'avatar plus facile 

En fin de compte, nous souhaitons que chacun de nos 65.5 millions d’utilisateurs quotidiens ait un avatar qui le représente véritablement et exprime qui il est. Nous avons récemment rendu disponible la possibilité pour les membres de notre programme UGC de créer et vendre des corps d'avatar et des têtes autonomes. Aujourd'hui, ce processus nécessite l'accès à Studio ou à notre programme UGC, un niveau de compétence assez élevé et plusieurs jours de travail pour permettre l'expression du visage, les mouvements du corps, le rigging 3D, etc. Cela rend la création d'avatars longue et doit être date, limité le nombre d’options disponibles. Nous voulons aller encore plus loin.

Pour permettre à tout le monde sur Roblox d'avoir un avatar personnalisé et expressif, nous devons rendre les avatars très faciles à générer et à personnaliser. Chez RDC, nous avons annoncé un nouvel outil que nous lancerons en 2024 et qui permettra de créer facilement un avatar personnalisé à partir d'une image ou de plusieurs images. Avec cet outil, tout créateur ayant accès à Studio ou à notre programme UGC pourra télécharger une image, se faire créer un avatar pour lui, puis le modifier à sa guise. À plus long terme, nous avons l'intention de rendre cela également disponible directement dans les expériences sur Roblox.

Pour rendre cela possible, nous formons des modèles d'IA sur le schéma d'avatar de Roblox et sur un ensemble de modèles d'avatar 3D appartenant à Roblox. Une approche exploite un article pour générer des avatars stylisés 3D à partir d'images 2D. Nous envisageons également d'utiliser des modèles de diffusion texte-image pré-entraînés pour augmenter les données de formation 3D limitées avec des techniques génératives 2D, et d'utiliser un réseau de génération 3D basé sur un réseau contradictoire génératif (GAN) pour la formation. Enfin, nous travaillons sur l'utilisation ContrôleNet à superposer dans des poses prédéfinies pour guider les images multi-vues résultantes des avatars. 

Ce processus produit un maillage 3D pour l'avatar. Ensuite, nous exploitons la 3D recherche sur la segmentation sémantique, formé aux poses d'avatar 3D, pour prendre ce maillage 3D et l'ajuster pour ajouter des caractéristiques faciales, une mise en cage, un gréement et des textures appropriés, transformant essentiellement le maillage 3D statique en un avatar Roblox. Enfin, un outil d'édition de maillage permet aux utilisateurs de transformer et d'ajuster le modèle pour qu'il ressemble davantage à la version qu'ils imaginent. Et tout cela se produit rapidement, en quelques minutes, générant un nouvel avatar qui peut être importé dans Roblox et utilisé dans une expérience.

frameborder=”0″ allow=”accéléromètre; lecture automatique; presse-papiers-écrire ; support crypté ; gyroscope; image dans l'image; partage Web "allowfullscreen>

Modération de la communication vocale

Pour nous, l'IA n'est pas seulement une question de création, c'est aussi un système beaucoup plus efficace pour garantir une communauté diversifiée, sûre et civile, à grande échelle. Alors que nous commençons à déployer de nouvelles fonctionnalités vocales, notamment le chat vocal et Roblox Connect, la nouvelle fonctionnalité d'appel en tant qu'avatar et les API annoncées au RDC, nous sommes confrontés à un nouveau défi : modérer le langage parlé en temps réel. La norme industrielle actuelle pour cela est un processus connu sous le nom de reconnaissance automatique de la parole (ASR), qui prend essentiellement un fichier audio, le transcrit pour le convertir en texte, puis analyse le texte pour rechercher un langage, des mots-clés inappropriés, etc. 

Cela fonctionne bien pour les entreprises qui l'utilisent à plus petite échelle, mais lorsque nous avons exploré l'utilisation de ce même processus ASR pour modérer les communications vocales, nous avons rapidement réalisé que c'était difficile et inefficace à notre échelle. Cette approche perd également des informations incroyablement précieuses qui sont codées dans le volume et le ton de la voix de l'orateur, ainsi que dans le contexte plus large de la conversation. Parmi les millions de minutes de conversation que nous devrions transcrire chaque jour, dans différentes langues, seul un très petit pourcentage pourrait même sembler inapproprié. Et à mesure que nous continuons à évoluer, ce système nécessiterait de plus en plus de puissance de calcul pour suivre le rythme. Nous avons donc examiné de plus près comment nous pourrions y parvenir plus efficacement, en créant un pipeline qui va directement de l'audio en direct à l'étiquetage du contenu pour indiquer s'il viole ou non nos politiques.

En fin de compte, nous avons pu créer un système de détection vocale personnalisé en interne en utilisant l'ASR pour classer nos ensembles de données vocales internes, puis utiliser ces données vocales classifiées pour entraîner le système. Plus précisément, pour entraîner ce nouveau système, nous commençons par l'audio et créons une transcription. Nous exécutons ensuite la transcription via notre système de filtrage de texte Roblox pour classer l'audio. Ce système de filtrage de texte est idéal pour détecter les langages qui enfreignent les politiques sur Roblox puisque nous optimisons ce même système de filtrage depuis des années sur l'argot, les abréviations et le jargon spécifiques à Roblox. À la fin de ces niveaux de formation, nous disposons d’un modèle capable de détecter les violations des politiques directement à partir de l’audio en temps réel.

Bien que ce système ait la capacité de détecter des mots-clés spécifiques tels que des grossièretés, les violations des politiques ne se limitent rarement à un seul mot. Un mot peut souvent sembler problématique dans un contexte et très bien dans un contexte différent. Essentiellement, ces types de violations concernent ce que vous dites, la manière dont vous le dites et le contexte dans lequel les déclarations sont faites.

Pour mieux comprendre le contexte, nous exploitons la puissance native d'une architecture basée sur un transformateur, qui est très efficace pour résumer les séquences. Il peut prendre une séquence de données, comme un flux audio, et la résumer pour vous. Cette architecture nous permet de conserver une séquence audio plus longue afin de pouvoir détecter non seulement les mots mais également le contexte et les intonations. Une fois tous ces éléments réunis, nous obtenons un système final dans lequel l'entrée est audio et la sortie est une classification – viole ou non la politique. Ce système peut détecter les mots clés et les expressions qui enfreignent les règles, mais également le ton, les sentiments et d'autres contextes importants pour déterminer l'intention. Ce nouveau système, qui détecte les discours enfreignant les politiques directement à partir de l'audio, est nettement plus efficace en termes de calcul qu'un système ASR traditionnel, ce qui facilitera grandement sa mise à l'échelle à mesure que nous continuons à réimaginer la façon dont les gens se réunissent.

Il nous fallait également un nouveau moyen d’avertir les utilisateurs de nos outils de communication vocale des conséquences potentielles de ce type de langage. Grâce à ce système de détection innovant à notre disposition, nous expérimentons désormais des moyens d'influencer le comportement en ligne afin de maintenir un environnement sûr. Nous savons que les gens enfreignent parfois nos politiques involontairement et nous souhaitons comprendre si un rappel occasionnel pourrait aider à prévenir de nouvelles infractions. Pour vous aider, nous expérimentons les commentaires des utilisateurs en temps réel via des notifications. Si le système détecte que vous avez dit quelque chose qui enfreint nos politiques à plusieurs reprises, nous afficherons une notification contextuelle sur votre écran vous informant que votre langue viole nos politiques et vous dirigerons vers nos politiques pour plus d'informations.

Les notifications de flux vocal ne sont cependant qu’un élément du système de modération. Nous examinons également les modèles de comportement sur la plateforme, ainsi que les plaintes des autres utilisateurs de Roblox, pour orienter nos décisions globales de modération. L’ensemble de ces signaux pourrait entraîner des conséquences plus graves, notamment la révocation de l’accès aux fonctionnalités audio ou, pour des infractions plus graves, le bannissement complet de la plateforme. Assurer la sécurité et la civilité de notre communauté est essentiel, car ces avancées dans les modèles d'IA multimodaux, l'IA générative et les LLM se combinent pour permettre aux créateurs d'incroyables nouveaux outils et capacités. 

Nous pensons que fournir ces outils aux créateurs réduira les barrières à l'entrée pour les créateurs moins expérimentés et libérera les créateurs plus expérimentés des tâches les plus fastidieuses de ce processus. Cela leur permettra de consacrer plus de temps aux aspects inventifs de la mise au point et de l’idéation. Notre objectif avec tout cela est de permettre à chacun, partout, de donner vie à ses idées et d'augmenter considérablement la diversité des avatars, des objets et des expériences disponibles sur Roblox. Nous sommes aussi partager des informations et des outils pour aider à protéger les nouvelles créations

Nous imaginons déjà des possibilités étonnantes : supposons que quelqu'un soit capable de créer un sosie d'avatar directement à partir d'une photo, il pourrait ensuite personnaliser son avatar pour le rendre plus grand ou le rendre dans un style anime. Ils pourraient également créer une expérience en demandant à l'Assistant d'ajouter des voitures, des bâtiments et des paysages, de définir les conditions d'éclairage ou de vent, ou de modifier le terrain. À partir de là, ils pouvaient itérer pour affiner les choses simplement en tapant dans les deux sens avec l'Assistant. Nous savons que la réalité de ce que les gens créent avec ces outils, à mesure qu’ils seront disponibles, ira bien au-delà de ce que nous pouvons même imaginer.

Horodatage:

Plus de Roblox