Kan generatieve AI de telefoonmarkten nieuw leven inblazen? - Semiwiki

Kan generatieve AI de telefoonmarkten nieuw leven inblazen? – Semiwiki

Bronknooppunt: 2926005

De consensus over de smartphonemarkten schommelt ergens tussen een lichte daling en een lichte groei, wat erop wijst dat er geen duidelijke aanjagers zijn voor een robuustere groei. Als zakelijke kans wordt deze onaantrekkelijke situatie enigszins gecompenseerd door het enorme volume ($500 miljard in 2023 volgens één bron), maar we zijn al dicht bij de piek in het gebruik buiten China, dus de echte vraag voor telefoonfabrikanten moet zijn: wat is de volgende moordenaar? app die de naald kan bewegen?”

Kan generatieve AI de telefoonmarkten nieuw leven inblazen

Wij consumenten zijn een wispelturig stel en entertainment lijkt hoog op onze lijst van must-haves te staan. Arm wel wedden op mobiel gamen. Een andere mogelijkheid zou generatieve AI kunnen zijn voor het maken/manipuleren van afbeeldingen. Qualcomm heeft al een telefoongebaseerde mogelijkheid gedemonstreerd terwijl anderen, waaronder Apple, nog steeds gefocust zijn op apps met grote taalmodellen. Voor mij is het de moeite waard om nader naar het beeldaspect van generatieve AI te kijken, gewoon om wat meer kennis te hebben of en wanneer dit van start gaat. Voor de lol heb ik de afbeelding hier gegenereerd met Image Creator van Microsoft Bing.

Op diffusie gebaseerde generatie

Ik ga proberen het concept uit te leggen door het te vergelijken met een LLM. LLM's trainen op tekstreeksen, noodzakelijkerwijs lineair. Veel ervan. En ze werken aan getokeniseerde tekst en leren, wanneer ze een bepaalde reeks tokens zien, wat gewoonlijk op die reeks zou kunnen volgen. Geweldig voor tekst, maar niet voor afbeeldingen die 2D zijn en over het algemeen niet tokenizeerbaar zijn, dus de trainingsaanpak moet anders zijn. Bij op diffusie gebaseerde training wordt de eerste ruis geleidelijk aan trainingsbeelden toegevoegd (voorwaartse diffusie), terwijl het netwerk wordt getraind door de ruis van gewijzigde beelden te verwijderen om elk origineel beeld te herstellen (omgekeerde diffusie). Klinkt rommelig, maar blijkbaar is de ruisonderdrukkingsmethode (het oplossen van stochastische differentiaalvergelijkingen) goed gedefinieerd en robuust. Het Stable Diffusion-model is bijvoorbeeld openbaar beschikbaar.

Vanuit dit getrainde netwerk is het vervolgens mogelijk om nieuwe beelden te genereren, uitgaande van een willekeurig ruisbeeld. Nu heb je een methode nodig om te bepalen welke afbeelding je wilt genereren. Dall.E-2, Midjourney en Stable Diffusion kunnen allemaal tekstprompts verwerken. Deze zijn afhankelijk van de training die is overgenomen van de tekstlabels die bij de trainingsafbeeldingen zijn geleverd. Inferentie omvat dan snelle informatie in het aandachtsproces op het pad naar het afleiden van een uiteindelijk beeld. Net als LLM's gebruiken deze systemen ook transformatoren, wat betekent dat ondersteuning voor deze mogelijkheid nieuwe hardware vereist.

Het genereren beperkt zich niet tot het helemaal opnieuw maken van afbeeldingen. Een techniek genaamd schilderen kan worden gebruikt om delen van een afbeelding te verbeteren of te vervangen. Zie dit als een op AI gebaseerde versie van de beeldbewerking die al populair is op smartphones. Niet alleen de basiskleuren, lichtbalans, het uitsnijden van fotobommen, enz., maar het oplossen van veel uitdagendere problemen of het opnieuw vormgeven van jezelf in cosplay-outfits – wat dan ook. Nu ik zie dat ik erg populair ben.

Zal generatieve AI de naald verplaatsen?

Ik heb geen idee – zie bovenstaande opmerking over wispelturige consumenten. Aan de andere kant spreken visuele prikkels, vooral rond onszelf, en spel bijna iedereen aan. Als je dit op je telefoon kunt doen, waarom niet? AI is een snel evoluerend domein dat grote weddenschappen lijkt aan te moedigen. Ik zou zeker niet tegen deze mogelijkheid willen wedden.

Ik moet ook vermelden dat generatieve beeldvorming al serieuzere toepassingen heeft, vooral op medisch gebied, waar het kan worden gebruikt om een ​​luidruchtige CAT-scan te repareren of details te herstellen die mogelijk geblokkeerd zijn door de botstructuur. Ik kan me zelfs voorstellen dat deze technologie zijn weg vindt naar de forensische toolkit. We hebben allemaal de tv-programma's gezien: Abby of Angela vullen ontbrekende details op een foto in door met getrainde gegevens te extrapoleren van wat zichtbaar is. Generatieve beeldvorming zou dat mogelijk kunnen maken!

Deel dit bericht via:

Tijdstempel:

Meer van semi-wiki