L’intelligenza artificiale generativa può ricaricare i mercati della telefonia? -Semiwiki

L’intelligenza artificiale generativa può ricaricare i mercati della telefonia? – Semiwiki

Nodo di origine: 2926005

Il consenso sui mercati degli smartphone si aggira tra un leggero calo e una leggera crescita, indicando la mancanza di fattori evidenti per una crescita più robusta. Come opportunità di business, questo stato poco attraente è in qualche modo controbilanciato dal volume (500 miliardi di dollari nel 2023 secondo una fonte), ma siamo già vicini al picco di adozione al di fuori della Cina, quindi la vera domanda per i produttori di telefoni deve essere “qual è il prossimo killer” app che potrebbe spostare l'ago?"

L’intelligenza artificiale generativa può ricaricare i mercati della telefonia

Noi consumatori siamo un gruppo volubile e l’intrattenimento sembra essere in cima alla nostra lista dei must-have. Il braccio è scommettere sui giochi mobili. Un’altra possibilità potrebbe essere l’intelligenza artificiale generativa per la creazione/manipolazione di immagini. Qualcomm ha già dimostrato una capacità basata sul telefono mentre altri, inclusa Apple, sono ancora concentrati su app con modelli linguistici di grandi dimensioni. Per me vale la pena guardare più da vicino l'aspetto dell'immagine dell'intelligenza artificiale generativa semplicemente per essere un po' più informato se e quando questo decollerà. Per divertimento ho generato l'immagine qui utilizzando Image Creator di Microsoft Bing.

Generazione basata sulla diffusione

Cercherò di spiegare il concetto confrontandolo con un LLM. I LLM si allenano su sequenze testuali, necessariamente lineari. Un sacco. E lavorano su testo tokenizzato, imparando quando vedono una certa sequenza di token cosa potrebbe comunemente seguire quella sequenza. Ottimo per il testo ma non per le immagini che sono 2D e generalmente non tokenizzabili, quindi l'approccio formativo deve essere diverso. Nell'addestramento basato sulla diffusione, il primo rumore viene progressivamente aggiunto alle immagini di addestramento (diffusione in avanti), mentre la rete viene addestrata rimuovendo il rumore dalle immagini modificate per recuperare ciascuna immagine originale (diffusione inversa). Sembra complicato, ma a quanto pare il metodo di denoising (risoluzione di equazioni differenziali stocastiche) è ben definito e robusto. Il modello di diffusione stabile, ad esempio, è disponibile al pubblico.

È quindi possibile generare nuove immagini da questa rete addestrata, a partire da un'immagine di rumore casuale. Ora hai bisogno di un metodo per guidare quale immagine vuoi generare. Dall.E-2, Midjourney e Stable Diffusion possono tutti accettare messaggi di testo. Questi dipendono dall'addestramento ricavato dalle etichette di testo fornite insieme alle immagini di addestramento. L'inferenza include quindi informazioni tempestive nel processo di attenzione nel percorso per dedurre un'immagine finale. Come gli LLM, anche questi sistemi utilizzano trasformatori, il che significa che il supporto per questa funzionalità richiede nuovo hardware.

La generazione non si limita alla creazione di immagini da zero. Una tecnica chiamata Reintegrazione può essere utilizzato per migliorare o sostituire parti di un'immagine. Consideratela una versione basata sull'intelligenza artificiale dell'editing delle immagini già popolare sugli smartphone. Non solo il colore di base, il bilanciamento della luce, il ritaglio di fotobomb, ecc., ma anche la risoluzione di problemi molto più impegnativi o la rielaborazione di abiti cosplay: qualsiasi cosa. Adesso vedo che sono molto popolare.

L’IA generativa sposterà l’ago della bilancia?

Non ne ho idea: vedi il commento sopra sui consumatori volubili. D'altra parte, lo stimolo visivo, soprattutto intorno a noi stessi, e il gioco attraggono quasi tutti. Se puoi farlo sul tuo telefono, perché no? L’intelligenza artificiale è un settore in rapida evoluzione che sembra incoraggiare grandi scommesse. Sicuramente non vorrei scommettere contro questa possibilità.

Dovrei anche menzionare che l’imaging generativo ha già applicazioni più serie, soprattutto in campo medico dove può essere utilizzato per riparare una TAC rumorosa o recuperare dettagli potenzialmente bloccati dalla struttura ossea. Posso persino immaginare che questa tecnologia si faccia strada negli strumenti forensi. Abbiamo visto tutti i programmi televisivi: Abby o Angela riempiono i dettagli mancanti in una fotografia estrapolando dati addestrati da ciò che è visibile. L’imaging generativo potrebbe renderlo possibile!

Condividi questo post tramite:

Timestamp:

Di più da Semiwiki