Google lancia i sistemi di intelligenza artificiale Gemini in tre versioni

Google lancia i sistemi di intelligenza artificiale Gemini in tre versioni

Nodo di origine: 2997630

Google ha presentato Gemini, la sua classe più potente di modelli basati su trasformatore, in grado di elaborare testo, immagini, audio e video. 

Gemini è un modello multimodale con una finestra di contesto da 32k che può accettare diversi tipi di dati come input e generare immagini e testo come output ed è disponibile in tre diverse dimensioni. La più grande, Gemini Ultra, è la versione più potente progettata per compiti complessi che richiedono “ragionamento” o elaborazione di più tipologie di dati.

Gemini Pro è il modello di medie dimensioni che è stato ottimizzato per funzionare in modo più efficiente ed eseguire una gamma più ampia di attività. Il più piccolo Gemini Nano è diviso in due, il Nano-1 ha 1.8 miliardi di parametri e il Nano-2 ha 3.25 miliardi di parametri e è progettato per funzionare su piccoli dispositivi. Google non ha rivelato quanti parametri contengano i suoi modelli più potenti Gemini Pro e Gemini Ultra. 

Allora, per cosa Google utilizza Gemini? A partire da oggi, il suo chatbot AI Bard è stato aggiornato per eseguire Gemini Pro, il che significa che dovrebbe essere migliore nella comprensione e nella sintesi del testo rispetto alla versione precedente basata sul modello linguistico PaLM 2 di Google. Le funzionalità multimodali, tuttavia, non sono ancora pronte e la versione Gemini-Pro di Bard può solo elaborare e generare testo e per ora supporta solo l'inglese. 

Google prevede inoltre di rinnovare alcuni dei suoi prodotti Search, Ads, Chrome e Duet AI con Gemini Pro, come Gmail, Google Docs e altri nei prossimi mesi.

Nel frattempo, l'ultimo Pixel 8 Pro di Google eseguirà Gemini Nano per supportare due nuove funzionalità, riassumendo i file audio nella sua app Registratore e generando risposte rapide ai messaggi di testo tramite l'app tastiera virtuale Gboard. Google creerà più funzionalità AI oltre a Gemini Nano per i suoi smartphone, ha affermato, e prevede di aprire il software per consentire anche agli sviluppatori Android di terze parti con il suo servizio AICore.

AICore funziona su Android 14 e offre agli sviluppatori l'accesso al modello tramite API open source e gestirà aspetti come tempi di esecuzione e sicurezza.

Sfortunatamente, coloro che aspettano di provare Gemini Ultra dovranno aspettare ancora un po'. "Stiamo attualmente completando controlli approfonditi su fiducia e sicurezza, incluso il red-teaming di soggetti esterni fidati, e perfezionando ulteriormente il modello utilizzando la messa a punto e l'apprendimento di rinforzo dal feedback umano prima di renderlo ampiamente disponibile", Google ha spiegato

The Chocolate Factory prevede di rendere disponibile Gemini Ultra il prossimo anno e inizierà a sperimentare le capacità del modello con clienti e sviluppatori selezionati prima di lanciare il suo chatbot Bard Advanced. 

I fornitori che desiderano creare strumenti IA specializzati basati su Gemini per applicazioni specifiche, come quelli che lavorano nei settori legale, delle risorse umane, medico o finanziario, ad esempio, potranno accedere a Gemini Pro come API in Google AI Studio o Google Cloud Piattaforme Vertex AI dal 13 dicembre. 

Google contro OpenAI

Google è stata criticata per la lentezza nel rilasciare prodotti di intelligenza artificiale nonostante sia leader nella ricerca e nello sviluppo della tecnologia.

OpenAI ha lanciato la sua app web virale ChatGPT un anno fa e ha aiutato Microsoft a rilasciare il proprio chatbot AI Bing poco dopo, lasciando Google a recuperare. Ora, anche le ultime versioni ChatGPT e AI Bing basate su GPT-4 possono elaborare immagini. Gemini è la spinta di Google per rimanere competitivo. Quindi come si confronta con i modelli di OpenAI?

La risposta breve è: Gemini Pro sembra essere leggermente migliore di GPT-3.5, mentre Gemini Ultra è leggermente migliore di GPT-4, secondo alcuni test benchmark rilasciati da Google.

"In generale, troviamo che le prestazioni di Gemini Pro superano i modelli ottimizzati per l'inferenza come GPT-3.5 e funzionano in modo comparabile con molti dei modelli più capaci disponibili, e Gemini Ultra supera tutti i modelli attuali", ha affermato il team Gemini in un documento [PDF]

I tester hanno confrontato le abilità di Gemini con vari modelli di OpenAI, Anthropic, X e Meta in dieci diversi test. Riguardavano principalmente attività basate su testo come la risoluzione di problemi di matematica e di codifica Python, domande e risposte per la comprensione del testo, controlli di buon senso e traduzione automatica. 

Gemini Ultra ha ottenuto risultati migliori di GPT-4, Claude, Grok-1 e Llama-2 in otto attività su dieci, mentre Gemini Pro ha superato GPT-3.5 e tutti gli altri modelli in sette attività su nove. Questi risultati di riferimento, tuttavia, dovrebbero essere presi con le pinze.

Sebbene le tecnologie di intelligenza artificiale stiano migliorando, non sono perfette e i loro comportamenti sono imprevedibili. I Gemelli hanno ancora gli stessi limiti di tutti i modelli linguistici di grandi dimensioni (LLM) nel generare informazioni fattivamente errate, un processo noto come allucinazione.

“Nonostante le loro impressionanti capacità, dobbiamo notare che esistono limitazioni all’uso dei LLM. C'è un bisogno continuo di ricerca e sviluppo continui sulle "allucinazioni" generate dai LLM per garantire che i risultati del modello siano più affidabili e verificabili", ha avvertito il team Gemini.

"I LLM hanno anche difficoltà con compiti che richiedono capacità di ragionamento di alto livello come la comprensione causale, la deduzione logica e il ragionamento controfattuale, anche se ottengono prestazioni impressionanti sui parametri di riferimento degli esami."

Tuttavia, Google sta investendo molto nella tecnologia. Sotto la guida del CEO Sundar Pichai, il colosso della ricerca si è riorientato come “un’azienda AI-first” e ora si sta affrettando a commercializzare i suoi sforzi e rimanere competitivo con la nuova ondata di startup AI. 

“A quasi otto anni dall’inizio del nostro viaggio come azienda AI first, il ritmo del progresso non fa che accelerare: milioni di persone utilizzano ora l’intelligenza artificiale generativa nei nostri prodotti per fare cose che non avrebbero potuto fare nemmeno un anno fa, dal trovare risposte a più domande complesse sull’utilizzo di nuovi strumenti per collaborare e creare”, ha disse. "

“Allo stesso tempo, gli sviluppatori utilizzano i nostri modelli e la nostra infrastruttura per creare nuove applicazioni di intelligenza artificiale generativa, e startup e imprese in tutto il mondo stanno crescendo con i nostri strumenti di intelligenza artificiale. Si tratta di uno slancio incredibile, eppure stiamo solo iniziando a scalfire la superficie di ciò che è possibile”. ®

Timestamp:

Di più da Il registro