A Google három változatban dobja piacra a Gemini AI rendszereket

A Google három változatban dobja piacra a Gemini AI rendszereket

Forrás csomópont: 2997630

A Google bemutatta a Geminit, a transzformátor alapú modellek eddigi legerősebb osztályát, amely képes szöveg, kép, hang és videó feldolgozására. 

A Gemini egy multimodális modell 32 XNUMX kontextusablakkal, amely különböző típusú adatokat fogad be bemenetként, és képeket és szöveget generál kimenetként, és három különböző méretben kapható. A legnagyobb, a Gemini Ultra a legerősebb változat, amelyet olyan összetett feladatokra terveztek, amelyek többféle adattípust igényelnek „okoskodás” vagy feldolgozás.

A Gemini Pro egy közepes méretű modell, amelyet úgy optimalizáltak, hogy hatékonyabban működjön és szélesebb körű feladatokat hajtson végre. A legkisebb Gemini Nano két részre oszlik, a Nano-1 1.8 milliárd, a Nano-2 pedig 3.25 milliárd paraméterrel rendelkezik, és kis eszközökön való futtatásra tervezték. A Google nem árulta el, hogy az erősebb Gemini Pro és Gemini Ultra modellek hány paramétert tartalmaznak. 

Tehát mire használja a Google a Geminit? Mától kezdve az AI csevegőbotját, a Bard-ot a Gemini Pro futtatására frissítették, ami azt jelenti, hogy jobban megérti és összefoglalja a szöveget, mint a Google PaLM 2 nyelvi modelljével működő korábbi verziója. A multimodális képességek azonban még nincsenek teljesen készen, és a Bard Gemini-Pro verziója csak szöveget tud feldolgozni és generálni, és egyelőre csak az angolt támogatja. 

A Google azt is tervezi, hogy a következő néhány hónapban megújítja néhány Search, Ads, Chrome és Duet AI termékét a Gemini Pro segítségével, például a Gmailt, a Google Dokumentumokat és még sok mást.

Mindeközben a Google legújabb Pixel 8 Pro-ja a Gemini Nano-t futtatja, hogy támogassa a két új funkciót, a hangfájlok összefoglalását a Recorder alkalmazásban, és gyors válaszokat generál a szöveges üzenetekre a Gboard virtuális billentyűzet alkalmazáson keresztül. A Google a Gemini Nano mellett további mesterséges intelligencia-funkciókat épít ki okostelefonjaihoz, és azt tervezi, hogy megnyitja a szoftvert, hogy az AICore szolgáltatásával a külső Android-fejlesztők számára is lehetővé váljon.

Az AICore Android 14-en fut, és nyílt forráskódú API-kon keresztül hozzáférést biztosít a fejlesztőknek a modellhez, és olyan dolgokat is kezel, mint a futásidő és a biztonság.

Sajnos azoknak, akik a Gemini Ultra tesztelésére várnak, még várniuk kell egy kicsit. „Jelenleg kiterjedt megbízhatósági és biztonsági ellenőrzéseket hajtunk végre, beleértve a megbízható külső felek általi red-teaming-ot, valamint a modell további finomítását, finomhangolást és az emberi visszajelzésekből tanult megerősítést használva, mielőtt széles körben elérhetővé tesszük” magyarázható

A Chocolate Factory tervei szerint a következő évben elérhetővé teszi a Gemini Ultra-t, és kiválasztott ügyfelekkel és fejlesztőkkel kísérletezni kezd a modell képességeivel, mielőtt elindítaná Bard Advanced chatbotját. 

Azok a szállítók, akik speciális, Gemini által üzemeltetett mesterséges intelligencia eszközöket szeretnének építeni bizonyos alkalmazásokhoz, például a jogi, HR, orvosi vagy pénzügyi ágazatban dolgozók, API-ként érhetik el a Gemini Pro-t a Google AI Stúdióban vagy a Google Cloudban. Vertex AI platformok december 13-tól. 

Google vs OpenAI

A Google-t kritika érte, mert lassan szállítja az AI-termékeket annak ellenére, hogy vezető szerepet tölt be a technológia kutatásában és fejlesztésében.

Az OpenAI egy éve indította el vírusos webes alkalmazását, a ChatGPT-t, és nem sokkal ezután segített a Microsoftnak kiadni a saját AI Bing chatbotját, így a Google-ra maradt a felzárkózás. Mostantól a GPT-4 által hajtott legújabb ChatGPT és AI Bing verzió is képes képeket feldolgozni. A Gemini a Google törekvése, hogy versenyképes maradjon. Tehát hogyan viszonyul ez az OpenAI modelljéhez?

A rövid válasz a következő: a Gemini Pro egy kicsit jobbnak tűnik, mint a GPT-3.5, míg a Gemini Ultra egy kicsit jobb, mint a GPT-4, a Google által kiadott néhány benchmark teszt szerint.

"Általánosan úgy találjuk, hogy a Gemini Pro teljesítménye felülmúlja a következtetésekre optimalizált modelleket, például a GPT-3.5-öt, és összehasonlíthatóan teljesít a legtöbb elérhető modellel, a Gemini Ultra pedig felülmúlja az összes jelenlegi modellt" - áll a Gemini csapata közleményében. [PDF]

A tesztelők tíz különböző teszten hasonlították össze a Gemini képességeit az OpenAI, az Anthropic, az X és a Meta különféle modelljeivel. Ezek többnyire szövegalapú feladatokat tartalmaztak, mint például matematikai és Python kódolási problémák megoldása, szövegértést segítő kérdések és válaszok, józan ész ellenőrzése és gépi fordítás. 

A Gemini Ultra tízből nyolc feladatban jobban teljesített, mint a GPT-4, Claude, Grok-1 és Llama-2, míg a Gemini Pro kilenc feladatból hétben felülmúlta a GPT-3.5-öt és az összes többi modellt. Ezeket a benchmark eredményeket azonban egy szem sóval kell venni.

Bár az AI-technológiák javulnak, nem tökéletesek, és viselkedésük kiszámíthatatlan. A Gemininek továbbra is ugyanazok a korlátai vannak, mint az összes nagy nyelvi modellnek (LLM) a tényszerűen hibás információk generálásában, ezt a folyamatot hallucinációnak nevezik.

„Lenyűgöző képességeik ellenére meg kell jegyeznünk, hogy az LLM-ek használatának vannak korlátai. Folyamatosan szükség van az LLM-ek által generált „hallucinációk” folyamatos kutatására és fejlesztésére annak érdekében, hogy a modellkimenetek megbízhatóbbak és ellenőrizhetőbbek legyenek” – figyelmeztetett a Gemini csapata.

„Az LLM-ek olyan magas szintű érvelési képességeket igénylő feladatokkal is küzdenek, mint az ok-okozati összefüggések megértése, a logikus levezetés és a tények ellentétes érvelése, bár lenyűgöző teljesítményt érnek el a vizsgákon.”

Ennek ellenére a Google sokat fektet a technológiába. Sundar Pichai vezérigazgató irányítása alatt a keresőóriás „az AI-első vállalattá” változtatta magát, és most azon fáradozik, hogy kereskedelmi forgalomba hozza erőfeszítéseit, és versenyképes maradjon a mesterséges intelligencia induló új hullámával. 

„Majdnem nyolc éve, hogy MI-első vállalatként utunk, a fejlődés üteme csak felgyorsul: ma már emberek milliói használnak generatív mesterséges intelligenciát termékeinkben olyan dolgok megtételére, amelyekre még egy évvel ezelőtt sem tudtak, a válaszok megtalálásától a többiig. összetett kérdéseket tesz fel az új eszközök használatához az együttműködéshez és az alkotáshoz” – mondta mondott. "

„Ugyanakkor a fejlesztők modelljeinket és infrastruktúráinkat használják új generatív mesterségesintelligencia-alkalmazások létrehozására, és a startupok és a vállalkozások világszerte növekednek AI-eszközeinkkel. Ez hihetetlen lendület, és mégis csak a felszínét kezdjük megkarcolni annak, ami lehetséges.” ®

Időbélyeg:

Még több A regisztráció