Generative AI Reconstructs Videos People Are Watching By Reading Their Brain Activity

Reeditado por Platón

seguidores: 0

la habilidadtipo de máquinas para leer nuestras mentes ha ido progresando sostenidamente en los últimos años. Ahora, los investigadores han utilizado la tecnología de generación de video AI para darnos una ventana al ojo de la mente.

El principal impulsor de los intentos de interpretar las señales cerebrales es la esperanza de que algún día podamos ofrecer nuevas ventanas de comunicación para las personas en coma o con diversas formas de parálisis. Pero también hay esperanzas de que la tecnología pueda crear interfaces más intuitivas entre humanos y máquinas que también podrían tener aplicaciones para personas sanas.

Hasta ahora, la mayor parte de la investigación se ha centrado en los esfuerzos para recrear el monólogo interno.s de pacientes, utilizando sistemas de IA escoger en qué palabras están pensando. Los resultados más prometedores también provienen de implantes cerebrales invasivos que es poco probable que sean un enfoque práctico para la mayoría de las personas.

Ahora, sin embargo, investigadores de la Universidad Nacional de Singapur y la Universidad China de Hong Kong han demostrado que pueden combinar escaneos cerebrales no invasivos y tecnología de generación de imágenes de IA para crear fragmentos cortos de video que son asombrosamente similares a los clips que los sujetos estaban viendo. cuando se recogieron sus datos cerebrales.

El trabajo es una extensión de la investigación de los mismos autores. publicado a fines del año pasado, donde demostraron que podían generar imágenes fijas que coincidían aproximadamente con las imágenes que se les habían mostrado a los sujetos. Esto se logró entrenando primero un modelo con grandes cantidades de datos recopilados mediante escáneres cerebrales fMRI. Luego, este modelo se combinó con la generación de imágenes de código abierto AI Stable Diffusion para crear las imágenes.

En un nuevo documento publicado en el servidor de preimpresión arXiv, los autores adoptan un enfoque similar, pero lo adaptan para que el sistema pueda interpretar flujos de datos cerebrales y convertirlos en videos en lugar de imágenes fijas. Primero, entrenaron a un modelo con grandes cantidades de resonancia magnética funcional para que pudiera aprender las características generales de estos escáneres cerebrales. Luego, esto se aumentó para que pudiera procesar una sucesión de exploraciones de IRMf en lugar de individuales, y luego se entrenó nuevamente en combinaciones de exploraciones de IRMf, los fragmentos de video que provocaron esa actividad cerebral y descripciones de texto.

Por separado, los investigadores adaptaron el modelo Stable Diffusion previamente entrenado para producir videos en lugar de imágenes fijas. Luego se entrenó nuevamente en los mismos videos y descripciones de texto en los que se había entrenado el primer modelo. Finalmente, los dos modelos se combinaron y ajustaron juntos en escaneos fMRI y sus videos asociados.

El sistema resultante fue capaz de tomar nuevos escaneos fMRI que no había visto antes y generar videos que se parecían ampliamente a los clips de sujetos humanos.d estado viendo en ese momento. Si bien está lejos de ser una combinación perfecta, la salida de la IA generalmente fue bastante similar al video original, recreando con precisión escenas de multitudes o manadas de caballos y, a menudo, haciendo coincidir la paleta de colores.

Para evaluar su sistema, los investigadores utilizaron un clasificador de video diseñado para evaluar qué tan bien el modelo había entendido la semántica de la escena, por ejemplo, si se había dado cuenta de que el video era de peces nadando en un acuario o de una familia caminando por un sendero. incluso si las imágenes eran ligeramente diferentes. Su modelo obtuvo una puntuación del 85 por ciento, que es una mejora del 45 por ciento con respecto al estado de la técnica.

Si bien los videos que genera la IA todavía tienen fallas, los autores dicen que esta línea de investigación podría tener aplicaciones tanto en la neurociencia básica como en el futuro. interfaces cerebro-máquina. Sin embargo, también reconocen las posibles desventajas de la tecnología. “Se requieren regulaciones gubernamentales y esfuerzos de las comunidades de investigación para garantizar la privacidad de los datos biológicos y evitar cualquier uso malicioso de esta tecnología”, escriben.

Es probable que sea un guiño a las preocupaciones de que la combinación de la tecnología de escaneo cerebral de IA podría hacer posible que las personas registren de manera intrusiva los pensamientos de otros sin su consentimiento. Alas ansiedades eran también expresado a principios de este año cuando los investigadores utilizaron un enfoque similar para crear esencialmente un aproximado transcripción de la voz dentro de la cabeza de las personas, aunque los expertos han señalado que esto sería poco práctico si no imposible en el futuro inmediato.

Pero ya sea que lo vea como una invasión espeluznante de su privacidad o como una nueva y emocionante forma de interactuar con la tecnología, parece que los lectores de mentes de máquinas se están acercando a la realidad.

Crédito de la imagen: claudia dewald en Pixabay