Modele zamiany tekstu na obraz uczą się efektywniej dzięki fałszywym danym

Modele zamiany tekstu na obraz uczą się efektywniej dzięki fałszywym danym

Węzeł źródłowy: 2974582

Według informatyków z MIT i Google obrazy syntetyczne mogą pomóc modelom AI dokładniej poznać reprezentacje wizualne w porównaniu z rzeczywistymi snapami. W rezultacie sieci neuronowe lepiej radzą sobie z tworzeniem obrazów na podstawie pisemnych opisów.

Sercem wszystkich modeli zamiany tekstu na obraz jest ich zdolność do mapowania obiektów na słowa. Biorąc pod uwagę monit o wprowadzenie tekstu – na przykład „dziecko trzymające czerwony balonik w słoneczny dzień” – powinni zwrócić obraz zbliżony do opisu. Aby to zrobić, muszą nauczyć się wizualnych reprezentacji tego, jak mogłoby wyglądać dziecko, czerwony balon i słoneczny dzień. 

Zespół MIT-Google wierzy, że sieci neuronowe mogą generować dokładniejsze obrazy na podstawie podpowiedzi po przeszkoleniu na obrazach stworzonych przez sztuczną inteligencję, zamiast korzystać z prawdziwych snapów. Aby to zademonstrować, grupa rozwinęła się StabilnyRep, który uczy, jak przekształcać opisowe podpisy w odpowiednie obrazy z obrazów wygenerowanych przez popularny model Stable Diffusion typu „tekst na obraz” o otwartym kodzie źródłowym.

Innymi słowy: wykorzystanie ustalonego, wyszkolonego modelu sztucznej inteligencji do uczenia innych modeli.

Jak wynika z przeddruku artykułu naukowców opublikowanego za pośrednictwem arXiv pod koniec ubiegłego miesiąca stwierdził: „Dzięki wyłącznie syntetycznym obrazom reprezentacje wyuczone przez StableRep przewyższają wydajność reprezentacji wyuczonych przez SimCLR i CLIP przy użyciu tego samego zestawu podpowiedzi tekstowych i odpowiadających im rzeczywistych obrazów na dużych zbiorach danych”. SimCLR i CLIP to algorytmy uczenia maszynowego, których można używać do tworzenia obrazów na podstawie podpowiedzi tekstowych.

„Kiedy dodamy jeszcze nadzór językowy, metoda StableRep przeszkolona na podstawie 20 milionów syntetycznych obrazów osiąga lepszą dokładność niż metoda przeszkolona CLIP na podstawie 50 milionów rzeczywistych obrazów” – czytamy dalej w artykule.

Algorytmy uczenia maszynowego wychwytują relacje między cechami obiektów i znaczeniami słów w postaci tablicy liczb. Używając StableRep, badacze mogą dokładniej kontrolować ten proces – ucząc model na wielu obrazach generowanych przez Stable Diffusion w tym samym wierszu. Oznacza to, że model może nauczyć się bardziej zróżnicowanych reprezentacji wizualnych i zobaczyć, które obrazy bardziej odpowiadają podpowiedziom niż inne. 

Myślę, że będziemy mieli ekosystem składający się z niektórych modeli wyszkolonych na danych rzeczywistych, a innych na syntetycznych

„Uczymy model, aby uczył się więcej o koncepcjach wysokiego poziomu poprzez kontekst i wariancję, a nie tylko poprzez dostarczanie mu danych” – Lijie Fan, główna badaczka badania i doktorantka elektrotechniki na MIT, wyjaśnione w tym tygodniu. „Wykorzystując wiele obrazów, wszystkie wygenerowane na podstawie tego samego tekstu i wszystkie traktowane jako przedstawienia tego samego przedmiotu, model zagłębia się w koncepcje stojące za obrazami – powiedzmy obiekt – a nie tylko w ich piksele”.

Jak zauważono powyżej, takie podejście oznacza również, że do trenowania sieci neuronowej można użyć mniejszej liczby obrazów syntetycznych niż rzeczywistych i uzyskać lepsze wyniki, co jest korzystne dla twórców sztucznej inteligencji.

Metody takie jak StableRep oznaczają, że pewnego dnia modele zamiany tekstu na obraz będą mogły być trenowane na danych syntetycznych. Pozwoliłoby to programistom w mniejszym stopniu polegać na prawdziwych obrazach i może być konieczne, jeśli silniki AI wyczerpią dostępne zasoby online.

„Myślę, że [trenowanie modeli sztucznej inteligencji na obrazach syntetycznych] będzie coraz bardziej powszechne” – powiedział Phillip Isola, współautor artykułu i profesor nadzwyczajny widzenia komputerowego na MIT Rejestr. „Myślę, że będziemy mieli ekosystem składający się z niektórych modeli wyszkolonych na rzeczywistych danych, niektórych na syntetycznych, a być może większość modeli będzie wytrenowana na obu.”

Trudno polegać wyłącznie na obrazach generowanych przez sztuczną inteligencję, ponieważ ich jakość i rozdzielczość często są gorsze od prawdziwych zdjęć. Generujące je modele zamiany tekstu na obraz są również ograniczone pod innymi względami. Opcja Stabilne rozproszenie nie zawsze tworzy obrazy wierne podpowiedziom tekstowym.

Isola ostrzegła, że ​​używanie syntetycznych obrazów również nie omija potencjalnego problemu naruszenia praw autorskich, ponieważ generujące je modele prawdopodobnie zostały przeszkolone na materiałach chronionych.

„Dane syntetyczne mogą obejmować dokładne kopie danych dotyczących praw autorskich. Jednak dane syntetyczne zapewniają także nowe możliwości obejścia kwestii własności intelektualnej i prywatności, ponieważ potencjalnie możemy w nie interweniować, edytując model generatywny w celu usunięcia wrażliwych atrybutów” – wyjaśnił.

Zespół ostrzegł również, że systemy szkoleniowe na obrazach generowanych przez sztuczną inteligencję mogą potencjalnie pogłębić błędy systematyczne wynikające z leżącego u ich podstaw modelu zamiany tekstu na obraz. ®

Znak czasu:

Więcej z Rejestr