Revolucionando la creación en Roblox con IA generativa - Blog de Roblox

Revolucionando la creación en Roblox con IA generativa – Blog de Roblox

Nodo de origen: 2874293

A principios de este año, compartimos nuestra visión para la inteligencia artificial generativa (IA) en Roblox y las nuevas herramientas intuitivas que permitirán a cada usuario convertirse en un creador. A medida que estas herramientas evolucionan rápidamente en toda la industria, quería brindar algunas actualizaciones sobre el progreso que hemos logrado, el camino que aún queda por recorrer para democratizar la creación de IA generativa y por qué creemos que la IA generativa es un elemento crítico hacia dónde se dirige Roblox. 

Los avances en la IA generativa y los grandes modelos de lenguaje (LLM) presentan una oportunidad increíble para desbloquear el futuro de las experiencias inmersivas al permitir una creación más fácil y rápida manteniendo la seguridad y sin requerir recursos informáticos masivos. Además, los avances en los modelos de IA que son multimodales, es decir, que se entrenan con múltiples tipos de contenido (como imágenes, código, texto, modelos 3D y audio), abren la puerta a nuevos avances en las herramientas de creación. Estos mismos modelos están comenzando a producir también resultados multimodales, como un modelo que puede crear un resultado de texto, así como algunos elementos visuales que complementan el texto. Vemos estos avances en IA como una enorme oportunidad para aumentar simultáneamente la eficiencia para los creadores más experimentados y permitir que aún más personas hagan realidad grandes ideas en Roblox. en este año Conferencia de desarrolladores de Roblox (RDC), anunciamos varias herramientas nuevas que incorporarán IA generativa a Roblox Studio y más allá para ayudar a cualquier persona en Roblox a escalar más rápido, iterar más rápidamente y aumentar sus habilidades para crear contenido aún mejor. 

Asistente de Roblox

Roblox siempre ha proporcionado a los creadores las herramientas, xDSLy SOPORTE necesitan crear experiencias inmersivas en 3D. Al mismo tiempo, hemos visto a nuestros creadores comenzar a utilizar IA conversacional y generativa de terceros para ayudarlos a crear. Si bien son útiles para ayudar a reducir la carga de trabajo del creador, estas versiones listas para usar no fueron diseñadas para flujos de trabajo de Roblox de un extremo a otro ni capacitadas en código, jerga y jerga de Roblox. Eso significa que los creadores enfrentan un trabajo adicional significativo para usar estas versiones para crear contenido para Roblox. Hemos estado trabajando en formas de incorporar el valor de estas herramientas a Roblox Studio y en RDC compartimos un ejemplo inicial de Assistant.

Assistant es nuestra IA conversacional que permite a los creadores de todos los niveles dedicar mucho menos tiempo a las tareas mundanas y repetitivas involucradas en la creación y más tiempo a actividades de alto valor, como la narrativa, el juego y el diseño de experiencias. Roblox está en una posición única para construir este modelo de IA conversacional para mundos 3D inmersivos, gracias a nuestro acceso a un gran conjunto de modelos 3D públicos para entrenar, nuestra capacidad de integrar un modelo con las API de nuestra plataforma y nuestro creciente conjunto de soluciones innovadoras de IA. . Los creadores podrán utilizar indicaciones de texto en lenguaje natural para crear escenas, editar modelos 3D y aplicar comportamientos interactivos a los objetos. El Asistente respaldará las tres fases de la creación: aprendizaje, codificación y construcción:

  • Aprendizaje: Ya sea que un creador sea nuevo en el desarrollo en Roblox o un veterano experimentado, Roblox Assistant lo ayudará a responder preguntas en una amplia gama de superficies utilizando lenguaje natural. 
  • Codificación: El Asistente ampliará nuestra reciente Asistente de código herramienta. Por ejemplo, los desarrolladores podrían pedirle al Asistente que mejore su código, explique una sección del código o ayude a depurar y sugerir correcciones para el código que no funciona correctamente.
  • Edificio: El asistente ayudará a los creadores a crear rápidamente prototipos de nuevas ideas. Por ejemplo, un nuevo creador podría generar escenas completas y probar diferentes versiones simplemente escribiendo un mensaje como "Agrega algunas farolas a lo largo de este camino" o "Haz un bosque con diferentes tipos de árboles". Ahora añade algunos arbustos y flores”.

Trabajar con el Asistente será colaborativo, interactivo e iterativo, lo que permitirá a los creadores brindar comentarios y hacer que el Asistente trabaje para brindar la solución adecuada. Será como tener un creador experto como socio con el que puedas intercambiar ideas y probarlas hasta que lo hagas bien.

frameborder=”0″ allow=”acelerómetro; auto-reproducción; portapapeles-escribir; medios cifrados; giroscopio; imagen en imagen; web-share” allowfullscreen>

Para hacer de Assistant el mejor socio posible, hicimos otro anuncio en RDC: invitamos a los desarrolladores a optar para contribuir con sus datos anónimos del guión Luau. Estos datos de script ayudarán a que nuestras herramientas de inteligencia artificial, como Code Assist y Assistant, sean significativamente mejores a la hora de sugerir y crear código más eficiente, lo que retribuirá a los desarrolladores de Roblox que los utilizan. Además, si los desarrolladores optan por compartir más allá de Roblox, los datos de sus scripts se agregarán a un conjunto de datos disponible para terceros para entrenar sus herramientas de chat de IA para que sugieran mejor el código de Luau, lo que retribuirá a los desarrolladores de Luau en todas partes.

Para ser claros, a través de una investigación exhaustiva de los usuarios y conversaciones transparentes con los mejores desarrolladores, hemos diseñado esto para que sea opcional y ayudaremos a garantizar que todos los participantes comprendan y den su consentimiento a lo que implica el programa. Como agradecimiento a quienes decidan participar en el intercambio de datos de secuencias de comandos con Roblox, otorgaremos acceso a las versiones más potentes de Assistant y Code Assist que funcionan con este modelo capacitado por la comunidad. Aquellos que no se hayan suscrito seguirán teniendo acceso a nuestra versión existente de Assistant y Code Assist.

Creación de avatar más sencilla 

En última instancia, queremos que cada uno de nuestros 65.5 millones de usuarios diarios tenga un avatar que realmente los represente y exprese quiénes son. Recientemente lanzamos la capacidad para que los miembros de nuestro programa UGC puedan crear y vender cuerpos de avatar y cabezas independientes. Hoy en día, ese proceso requiere acceso a Studio o a nuestro programa UGC, un nivel bastante alto de habilidad y varios días de trabajo para permitir la expresión facial, el movimiento corporal, la manipulación 3D, etc. Esto hace que crear avatares lleve mucho tiempo y, además, fecha, limitó el número de opciones disponibles. Queremos ir aún más lejos.

Para permitir que todos en Roblox tengan un avatar expresivo y personalizado, necesitamos hacer que los avatares sean muy fáciles de generar y personalizar. En RDC, anunciamos una nueva herramienta que lanzaremos en 2024 que permitirá la creación sencilla de un avatar personalizado a partir de una imagen o de varias imágenes. Con esta herramienta, cualquier creador con acceso a Studio o a nuestro programa UGC podrá subir una imagen, crear un avatar para él y luego modificarlo como quiera. A largo plazo, pretendemos que esto también esté disponible directamente en las experiencias de Roblox.

Para que esto sea posible, estamos entrenando modelos de IA en el esquema de avatar de Roblox y un conjunto de modelos de avatar 3D propiedad de Roblox. Un enfoque aprovecha la investigación para generar avatares estilizados en 3D a partir de imágenes en 2D. También estamos considerando el uso de modelos de difusión de texto a imagen previamente entrenados para aumentar los datos de entrenamiento 3D limitados con técnicas generativas 2D, y el uso de una red de generación 3D basada en una red generativa adversarial (GAN) para el entrenamiento. Finalmente, estamos trabajando en el uso Red de control para superponer capas en poses predefinidas para guiar las imágenes de vista múltiple resultantes de los avatares. 

Este proceso produce una malla 3D para el avatar. A continuación, aprovechamos el 3D. investigación de segmentación semántica, entrenado en poses de avatar 3D, para tomar esa malla 3D y ajustarla para agregar rasgos faciales, jaulas, aparejos y texturas apropiadas, en esencia, convirtiendo la malla 3D estática en un avatar de Roblox. Finalmente, una herramienta de edición de malla permite a los usuarios transformar y ajustar el modelo para que se parezca más a la versión que están imaginando. Y todo esto sucede rápidamente, en cuestión de minutos, generando un nuevo avatar que puede importarse a Roblox y usarse en una experiencia.

frameborder=”0″ allow=”acelerómetro; auto-reproducción; portapapeles-escribir; medios cifrados; giroscopio; imagen en imagen; web-share” allowfullscreen>

Moderar la comunicación por voz

Para nosotros, la IA no se trata solo de creación, también es un sistema mucho más eficiente para garantizar una comunidad diversa, segura y civil, a escala. A medida que comenzamos a implementar nuevas funciones de voz, incluido el chat de voz y Roblox Connect, la nueva función de llamada como avatar y las API anunciadas en RDC, enfrentamos un nuevo desafío: moderar el lenguaje hablado en tiempo real. El estándar actual de la industria para esto es un proceso conocido como Reconocimiento Automático de Voz (ASR), que esencialmente toma un archivo de audio, lo transcribe para convertirlo en texto y luego analiza el texto para buscar lenguaje, palabras clave, etc. inapropiados. 

Esto funciona bien para empresas que lo utilizan a menor escala, pero a medida que exploramos el uso de este mismo proceso ASR para moderar la comunicación de voz, rápidamente nos dimos cuenta de que es difícil e ineficiente a nuestra escala. Este enfoque también pierde información increíblemente valiosa que está codificada en el volumen y el tono de voz del hablante, así como en el contexto más amplio de la conversación. De los millones de minutos de conversación que tendríamos que transcribir cada día, en diferentes idiomas, sólo un porcentaje muy pequeño posiblemente sonaría como algo inapropiado. Y a medida que sigamos escalando, ese sistema requeriría cada vez más potencia informática para mantenerse al día. Así que analizamos más de cerca cómo podríamos hacer esto de manera más eficiente, construyendo un canal que vaya directamente desde el audio en vivo hasta etiquetar el contenido para indicar si viola nuestras políticas o no.

Al final, pudimos construir un sistema interno de detección de voz personalizado utilizando ASR para clasificar nuestros conjuntos de datos de voz internos y luego usar esos datos de voz clasificados para entrenar el sistema. Más específicamente, para entrenar este nuevo sistema, comenzamos con audio y creamos una transcripción. Luego pasamos la transcripción a través de nuestro sistema de filtro de texto Roblox para clasificar el audio. Este sistema de filtro de texto es excelente para detectar lenguaje que infringe las políticas en Roblox, ya que hemos estado optimizando este mismo sistema de filtro durante años en jerga, abreviaturas y jerga específicos de Roblox. Al final de estas capas de capacitación, tenemos un modelo que es capaz de detectar violaciones de políticas directamente desde el audio en tiempo real.

Si bien este sistema tiene la capacidad de detectar palabras clave específicas, como malas palabras, las violaciones de las políticas rara vez se refieren a una sola palabra. A menudo, una palabra puede parecer problemática en un contexto y muy bien en otro. Esencialmente, este tipo de violaciones involucran lo que usted dice, cómo lo dice y el contexto en el que se hacen las declaraciones.

Para mejorar la comprensión del contexto, aprovechamos el poder nativo de una arquitectura basada en transformadores, que es muy buena para el resumen de secuencias. Puede tomar una secuencia de datos, como una secuencia de audio, y resumirla. Esta arquitectura nos permite preservar una secuencia de audio más larga para que podamos detectar no solo palabras sino también contexto y entonaciones. Una vez que todos estos elementos se juntan, tenemos un sistema final donde la entrada es audio y la salida es una clasificación: viola la política o no. Este sistema puede detectar palabras clave y frases que infrinjan las políticas, pero también tono, sentimiento y otro contexto que es importante para determinar la intención. Este nuevo sistema, que detecta discursos que violan las políticas directamente desde el audio, es significativamente más eficiente en computación que un sistema ASR tradicional, lo que hará que sea mucho más fácil de escalar a medida que continuamos reimaginando cómo se unen las personas.

También necesitábamos una nueva forma de advertir a quienes utilizan nuestras herramientas de comunicación por voz sobre las posibles consecuencias de este tipo de lenguaje. Con este innovador sistema de detección a nuestra disposición, ahora estamos experimentando formas de afectar el comportamiento en línea para mantener un entorno seguro. Sabemos que a veces las personas violan nuestras políticas sin querer y queremos saber si un recordatorio ocasional podría ayudar a prevenir nuevas infracciones. Para ayudar con esto, estamos experimentando con comentarios de los usuarios en tiempo real a través de notificaciones. Si el sistema detecta que usted ha dicho algo que viola nuestras políticas varias veces, mostraremos una notificación emergente en su pantalla informándole que su idioma viola nuestras políticas y lo dirigiremos a nuestras políticas para obtener más información.

Sin embargo, las notificaciones de transmisión de voz son sólo un elemento del sistema de moderación. También analizamos los patrones de comportamiento en la plataforma, así como las quejas de otros en Roblox, para impulsar nuestras decisiones generales de moderación. La combinación de estas señales podría tener consecuencias más graves, incluida la revocación del acceso a funciones de audio o, en el caso de infracciones más graves, la exclusión total de la plataforma. Mantener a nuestra comunidad segura y cívica es fundamental, ya que estos avances en modelos de IA multimodal, IA generativa y LLM se unen para permitir nuevas herramientas y capacidades increíbles para los creadores. 

Creemos que proporcionar estas herramientas a los creadores reducirá la barrera de entrada para los creadores menos experimentados y liberará a los creadores más experimentados de las tareas más tediosas de este proceso. Esto les permitirá dedicar más tiempo a los aspectos inventivos del ajuste y la creación de ideas. Nuestro objetivo con todo esto es permitir que todos, en todas partes, hagan realidad sus ideas y aumenten enormemente la diversidad de avatares, elementos y experiencias disponibles en Roblox. Nosotros también compartir información y herramientas para ayudar a proteger nuevas creaciones

Ya estamos imaginando posibilidades asombrosas: digamos que alguien puede crear un avatar doble directamente a partir de una foto, luego podría personalizar su avatar para hacerlo más alto o renderizarlo en estilo anime. O podrían crear una experiencia pidiéndole al Asistente que agregue autos, edificios y paisajes, establezca condiciones de iluminación o viento, o cambie el terreno. A partir de ahí, podrían iterar para refinar las cosas simplemente escribiendo con el Asistente. Sabemos que la realidad de lo que la gente crea con estas herramientas, a medida que estén disponibles, irá mucho más allá de lo que podamos imaginar.

Sello de tiempo:

Mas de Roblox