Czy generatywna sztuczna inteligencja może naładować rynki telefoniczne? - Semiwiki

Czy generatywna sztuczna inteligencja może naładować rynki telefoniczne? – Półwiki

Węzeł źródłowy: 2926005

Konsensus na rynkach smartfonów oscyluje pomiędzy lekkim spadkiem a niewielkim wzrostem, co wskazuje na brak oczywistych czynników zapewniających silniejszy wzrost. Jako szansa biznesowa ten nieatrakcyjny stan jest w pewnym stopniu równoważony przez sam wolumen (według jednego źródła 500 miliardów dolarów w 2023 r.), ale jesteśmy już blisko szczytowego wdrożenia poza Chinami, więc prawdziwym pytaniem dla producentów telefonów musi być: „co będzie kolejnym zabójcą” aplikacja, która mogłaby poruszyć igłą?”

Czy generatywna sztuczna inteligencja może naładować rynki telefoniczne

My, konsumenci, jesteśmy kapryśni i wydaje się, że rozrywka zajmuje wysokie miejsce na naszej liście rzeczy, które trzeba mieć. Ramię jest obstawianie gier mobilnych. Inną możliwością może być generatywna sztuczna inteligencja do tworzenia/manipulacji obrazami. Qualcomm zademonstrował już możliwość korzystania z telefonu podczas gdy inne, w tym Apple, nadal koncentrują się na aplikacjach opartych na dużych modelach językowych. Według mnie warto przyjrzeć się bliżej aspektowi wizerunkowemu generatywnej sztucznej inteligencji, aby mieć trochę większą wiedzę, czy i kiedy to się sprawdzi. Dla zabawy wygenerowałem tutaj obraz za pomocą Kreatora obrazów z Microsoft Bing.

Generacja oparta na dyfuzji

Spróbuję wyjaśnić tę koncepcję poprzez porównanie z LLM. LLM trenują na sekwencjach tekstowych, koniecznie liniowych. Dużo tego. Pracują na tokenizowanym tekście, ucząc się, kiedy zobaczą określoną sekwencję tokenów, co zwykle może następować po tej sekwencji. Świetnie nadaje się do tekstu, ale nie do obrazów, które są 2D i generalnie nie można ich tokenizować, więc podejście do szkolenia musi być inne. W uczeniu opartym na dyfuzji pierwszy szum jest stopniowo dodawany do obrazów uczących (dyfuzja w przód), podczas gdy sieć jest uczona poprzez odszumianie zmodyfikowanych obrazów w celu odzyskania każdego oryginalnego obrazu (dyfuzja odwrotna). Brzmi chaotycznie, ale najwyraźniej metoda odszumiania (rozwiązywanie stochastycznych równań różniczkowych) jest dobrze zdefiniowana i solidna. Jednym z przykładów jest model stabilnej dyfuzji, który jest publicznie dostępny.

Możliwe jest wówczas wygenerowanie nowych obrazów z wyszkolonej sieci, zaczynając od obrazu losowego szumu. Teraz potrzebujesz metody, która określi, jaki obraz chcesz wygenerować. Dall.E-2, Midjourney i Stable Diffusion mogą wyświetlać komunikaty tekstowe. Zależą one od treningu pobranego z etykiet tekstowych dostarczonych wraz z obrazami szkoleniowymi. Wnioskowanie obejmuje następnie natychmiastowe informacje w procesie uwagi na ścieżce do wnioskowania o ostatecznym obrazie. Podobnie jak LLM, systemy te również wykorzystują transformatory, co oznacza, że ​​obsługa tej funkcji wymaga nowego sprzętu.

Generacja nie ogranicza się do tworzenia obrazów od zera. Technika tzw malowanie można wykorzystać do ulepszenia lub zastąpienia części obrazu. Pomyśl o tym jak o opartej na sztucznej inteligencji wersji edycji obrazu, która jest już popularna na smartfonach. Nie tylko podstawowy kolor, balans światła, kadrowanie fotobomb itp., ale także naprawianie znacznie trudniejszych problemów lub przeróbka strojów cosplayowych – wszystko. Teraz widzę, że jest bardzo popularny.

Czy generatywna sztuczna inteligencja poruszy igłą?

Nie mam pojęcia – patrz powyższy komentarz na temat kapryśnych konsumentów. Z drugiej strony bodźce wzrokowe, szczególnie wokół nas, i zabawa przemawiają do prawie każdego. Jeśli możesz to zrobić na swoim telefonie, dlaczego nie? Sztuczna inteligencja to szybko zmieniająca się dziedzina, która wydaje się zachęcać do dużych zakładów. Z pewnością nie chciałbym stawiać na taką możliwość.

Powinienem także wspomnieć, że obrazowanie generatywne ma już poważniejsze zastosowania, szczególnie w medycynie, gdzie można je wykorzystać do naprawy zaszumionego skanu tomografii komputerowej lub odzyskania szczegółów potencjalnie zablokowanych przez strukturę kości. Mogę sobie nawet wyobrazić, że ta technologia trafi do zestawu narzędzi medycyny sądowej. Wszyscy widzieliśmy programy telewizyjne – w których Abby lub Angela uzupełniały brakujące szczegóły na zdjęciu, ekstrapolując je na podstawie przeszkolonych danych z tego, co widoczne. Obrazowanie generatywne może to umożliwić!

Udostępnij ten post przez:

Znak czasu:

Więcej z Półwiki