Modele tekstu na obraz Ucz się efektywniej dzięki fałszywym danym

Opublikowane ponownie przez Plato

Obserwuje: 0

Według informatyków z MIT i Google obrazy syntetyczne mogą pomóc modelom AI dokładniej poznać reprezentacje wizualne w porównaniu z rzeczywistymi snapami. W rezultacie sieci neuronowe lepiej radzą sobie z tworzeniem obrazów na podstawie pisemnych opisów.

Sercem wszystkich modeli zamiany tekstu na obraz jest ich zdolność do mapowania obiektów na słowa. Biorąc pod uwagę monit o wprowadzenie tekstu – na przykład „dziecko trzymające czerwony balonik w słoneczny dzień” – powinni zwrócić obraz zbliżony do opisu. Aby to zrobić, muszą nauczyć się wizualnych reprezentacji tego, jak mogłoby wyglądać dziecko, czerwony balon i słoneczny dzień.

Zespół MIT-Google wierzy, że sieci neuronowe mogą generować dokładniejsze obrazy na podstawie podpowiedzi po przeszkoleniu na obrazach stworzonych przez sztuczną inteligencję, zamiast korzystać z prawdziwych snapów. Aby to zademonstrować, grupa rozwinęła się StabilnyRep, który uczy, jak przekształcać opisowe podpisy w odpowiednie obrazy z obrazów wygenerowanych przez popularny model Stable Diffusion typu „tekst na obraz” o otwartym kodzie źródłowym.

Innymi słowy: wykorzystanie ustalonego, wyszkolonego modelu sztucznej inteligencji do uczenia innych modeli.

Jak wynika z przeddruku artykułu naukowców opublikowanego za pośrednictwem arXiv pod koniec ubiegłego miesiąca stwierdził: „Dzięki wyłącznie syntetycznym obrazom reprezentacje wyuczone przez StableRep przewyższają wydajność reprezentacji wyuczonych przez SimCLR i CLIP przy użyciu tego samego zestawu podpowiedzi tekstowych i odpowiadających im rzeczywistych obrazów na dużych zbiorach danych”. SimCLR i CLIP to algorytmy uczenia maszynowego, których można używać do tworzenia obrazów na podstawie podpowiedzi tekstowych.

„Kiedy dodamy jeszcze nadzór językowy, metoda StableRep przeszkolona na podstawie 20 milionów syntetycznych obrazów osiąga lepszą dokładność niż metoda przeszkolona CLIP na podstawie 50 milionów rzeczywistych obrazów” – czytamy dalej w artykule.

Algorytmy uczenia maszynowego wychwytują relacje między cechami obiektów i znaczeniami słów w postaci tablicy liczb. Używając StableRep, badacze mogą dokładniej kontrolować ten proces – ucząc model na wielu obrazach generowanych przez Stable Diffusion w tym samym wierszu. Oznacza to, że model może nauczyć się bardziej zróżnicowanych reprezentacji wizualnych i zobaczyć, które obrazy bardziej odpowiadają podpowiedziom niż inne.

Myślę, że będziemy mieli ekosystem składający się z niektórych modeli wyszkolonych na danych rzeczywistych, a innych na syntetycznych

„Uczymy model, aby uczył się więcej o koncepcjach wysokiego poziomu poprzez kontekst i wariancję, a nie tylko poprzez dostarczanie mu danych” – Lijie Fan, główna badaczka badania i doktorantka elektrotechniki na MIT, wyjaśnione w tym tygodniu. „Wykorzystując wiele obrazów, wszystkie wygenerowane na podstawie tego samego tekstu i wszystkie traktowane jako przedstawienia tego samego przedmiotu, model zagłębia się w koncepcje stojące za obrazami – powiedzmy obiekt – a nie tylko w ich piksele”.

Jak zauważono powyżej, takie podejście oznacza również, że do trenowania sieci neuronowej można użyć mniejszej liczby obrazów syntetycznych niż rzeczywistych i uzyskać lepsze wyniki, co jest korzystne dla twórców sztucznej inteligencji.

Metody takie jak StableRep oznaczają, że pewnego dnia modele zamiany tekstu na obraz będą mogły być trenowane na danych syntetycznych. Pozwoliłoby to programistom w mniejszym stopniu polegać na prawdziwych obrazach i może być konieczne, jeśli silniki AI wyczerpią dostępne zasoby online.

„Myślę, że [trenowanie modeli sztucznej inteligencji na obrazach syntetycznych] będzie coraz bardziej powszechne” – powiedział Phillip Isola, współautor artykułu i profesor nadzwyczajny widzenia komputerowego na MIT Rejestr. „Myślę, że będziemy mieli ekosystem składający się z niektórych modeli wyszkolonych na rzeczywistych danych, niektórych na syntetycznych, a być może większość modeli będzie wytrenowana na obu.”

Trudno polegać wyłącznie na obrazach generowanych przez sztuczną inteligencję, ponieważ ich jakość i rozdzielczość często są gorsze od prawdziwych zdjęć. Generujące je modele zamiany tekstu na obraz są również ograniczone pod innymi względami. Opcja Stabilne rozproszenie nie zawsze tworzy obrazy wierne podpowiedziom tekstowym.

Isola ostrzegła, że używanie syntetycznych obrazów również nie omija potencjalnego problemu naruszenia praw autorskich, ponieważ generujące je modele prawdopodobnie zostały przeszkolone na materiałach chronionych.

„Dane syntetyczne mogą obejmować dokładne kopie danych dotyczących praw autorskich. Jednak dane syntetyczne zapewniają także nowe możliwości obejścia kwestii własności intelektualnej i prywatności, ponieważ potencjalnie możemy w nie interweniować, edytując model generatywny w celu usunięcia wrażliwych atrybutów” – wyjaśnił.

Zespół ostrzegł również, że systemy szkoleniowe na obrazach generowanych przez sztuczną inteligencję mogą potencjalnie pogłębić błędy systematyczne wynikające z leżącego u ich podstaw modelu zamiany tekstu na obraz. ®

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://go.theregister.com/feed/www.theregister.com/2023/11/22/texttoimage_models_mit/

Znak czasu: Listopad 22, 2023

Eksperci ostrzegają przed wyginięciem ze strony sztucznej inteligencji, jeśli działania nie zostaną podjęte teraz

Klaster źródłowy:

Rejestr

Węzeł źródłowy: 2688105

Znak czasu: 30 maja 2023 r.

Modele zamiany tekstu na obraz uczą się efektywniej dzięki fałszywym danym

Opublikowane ponownie przez Plato

Więcej z Rejestr

Teraz Amazon debiutuje asystentem programowania AI – CodeWhisperer

Departament Sprawiedliwości Stanów Zjednoczonych podobno sprawdza firmę RealPage zajmującą się ustalaniem cen czynszów AI

Ponad 1,000 ludzi nie pokonało rywala AI w najwyższej krzyżówce

Inwestycje w sztuczną inteligencję nadal na etapie planowania do 2024 r.: Gartner

Sztuczna inteligencja Zdjęć Google nadal nie może oznaczać goryli

FTC rozpoczyna dochodzenie w sprawie ofert Amazon, Google i Microsoft AI

Chatbot AI wyszkolony na postach z kanału internetowego 4chan zachowywał się źle – tak jak ludzie

Doradcy premiera Indii twierdzą, że sztuczna inteligencja może powodować „masową schizofrenię”

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto