Generativ AI rekonstruerer videoer folk ser på ved å lese hjerneaktiviteten deres

Publisert av Platon

Følgere: 0

Den ability av maskiner til lese tankene våre har hatt en jevn fremgang de siste årene. Nå har forskere brukt AI-videogenereringsteknologi for å gi oss et vindu inn i sinnets øye.

Hoveddriveren bak forsøk på å tolke hjernesignaler er håpet om at vi en dag kanskje kan tilby nye kommunikasjonsvinduer for de som er i koma eller med ulike former for lammelser. Men det er også håp om at teknologien kan skape mer intuitive grensesnitt mellom mennesker og maskiner som også kan ha applikasjoner for friske mennesker.

Så langt har mesteparten av forskningen fokusert på arbeidet med å gjenskape den interne monologens av pasienter ved å bruke AI-systemer å velge ut hvilke ord de tenker på. De mest lovende resultatene har også kommet fra invasive hjerneimplantater som neppe vil være en praktisk tilnærming for folk flest.

Nå har forskere fra National University of Singapore og det kinesiske universitetet i Hong Kong vist at de kan kombinere ikke-invasive hjerneskanninger og AI-bildegenereringsteknologi for å lage korte videoklipp som ligner uhyggelig på klipp som forsøkspersonene så på. når hjernedataene deres ble samlet inn.

Arbeidet er en forlengelse av forskning de samme forfatterne publisert sent i fjor, hvor de viste at de kunne generere stillbilder som omtrent samsvarte med bildene som motivene hadde blitt vist. Dette ble oppnådd ved først å trene en modell på store mengder data samlet inn ved hjelp av fMRI hjerneskannere. Denne modellen ble deretter kombinert med åpen kildekode-bildegenerering AI Stable Diffusion for å lage bildene.

I et nytt papir publisert på forhåndstrykk -server arXiv, forfatterne har en lignende tilnærming, men tilpasser den slik at systemet kan tolke strømmer av hjernedata og konvertere dem til videoer i stedet for stillbilder. Først trente de en modell på store mengder fMRI slik at den kunne lære de generelle egenskapene til disse hjerneskanningene. Dette ble deretter utvidet slik at det kunne behandle en rekke fMRI-skanninger i stedet for individuelle, og deretter trent igjen på kombinasjoner av fMRI-skanninger, videosnuttene som fremkalte hjerneaktiviteten og tekstbeskrivelser.

Separat tilpasset forskerne den ferdigtrente stabile diffusjonsmodellen for å produsere video i stedet for stillbilder. Den ble deretter trent igjen på de samme videoene og tekstbeskrivelsene som den første modellen hadde blitt trent på. Til slutt ble de to modellene kombinert og finjustert sammen på fMRI-skanninger og tilhørende videoer.

Det resulterende systemet var i stand til å ta ferske fMRI-skanninger det ikke hadde sett før og generere videoer som i stor grad lignet klippene fra menneskelige personer.d så på den tiden. Selv om det var langt fra en perfekt match, var AI-resultatet generelt ganske nær den originale videoen, og gjenskapte nøyaktig publikumsscener eller flokker av hester og matchet ofte fargepaletten.

For å evaluere systemet deres brukte forskerne en videoklassifiserer designet for å vurdere hvor godt modellen hadde forstått semantikken til scenen – for eksempel om den hadde innsett at videoen var av fisk som svømmer i et akvarium eller en familie som gikk nedover en sti – selv om bildet var litt annerledes. Modellen deres oppnådde 85 prosent, som er en forbedring på 45 prosent i forhold til det nyeste.

Selv om videoene AI genererer fortsatt er feilaktige, sier forfatterne at denne forskningslinjen til syvende og sist kan ha anvendelser i både grunnleggende nevrovitenskap og også i fremtiden hjerne-maskin-grensesnitt. Imidlertid erkjenner de også potensielle ulemper ved teknologien. "Statlige forskrifter og innsats fra forskningsmiljøer er nødvendig for å sikre personvernet til ens biologiske data og unngå ondsinnet bruk av denne teknologien," skriver de.

Det er sannsynligvis et nikk til bekymringer om at kombinasjonen av AI-hjerneskanningsteknologi kan gjøre det mulig for folk å påtrengende registrere andres tanker uten deres samtykke. Abekymringer var også uttalt tidligere i år da forskere brukte en lignende tilnærming for å lage en rough transkripsjon av stemmen inne i folks hoder, selv om eksperter har påpekt at dette ville være upraktisk om ikke umulig i overskuelig fremtid.

Men enten du ser det som en skummel invasjon av personvernet ditt eller en spennende ny måte å kommunisere med teknologi på, ser det ut til at maskinlesere nærmer seg virkeligheten.

Bilde Credit: Claudia Dewald fra Pixabay