Google Launches Gemini AI Systems In Three Flavors

Ponovno objavil Platon

Spremljevalci: 0

Google je predstavil Gemini, svoj najmočnejši razred transformatorskih modelov doslej, ki lahko obdelujejo besedilo, slike, zvok in video.

Gemini je multimodalni model z 32k kontekstnim oknom, ki lahko sprejme različne vrste podatkov kot vhod in ustvari slike in besedilo kot izhod ter je na voljo v treh različnih velikostih. Največja, Gemini Ultra, je najzmogljivejša različica, zasnovana za kompleksne naloge, ki zahtevajo "razumevanje" ali obdelavo več vrst podatkov.

Gemini Pro je srednje velik model, ki je optimiziran za učinkovitejše delovanje in opravljanje širšega obsega nalog. Najmanjši Gemini Nano je razdeljen na dva dela, Nano-1 ima 1.8 milijarde parametrov, Nano-2 pa 3.25 milijarde parametrov in sta zasnovana za delovanje na majhnih napravah. Google ni razkril, koliko parametrov vsebujeta njegova zmogljivejša modela Gemini Pro in Gemini Ultra.

Torej, za kaj Google uporablja Gemini? Z današnjim dnem je njegov klepetalni robot Bard z umetno inteligenco zdaj posodobljen za izvajanje Gemini Pro, kar pomeni, da bi moral biti boljši pri razumevanju in povzemanju besedila kot njegova prejšnja različica, ki jo poganja Googlov jezikovni model PaLM 2. Večmodalne zmogljivosti pa še niso povsem pripravljene in različica Barda Gemini-Pro lahko samo obdeluje in ustvarja besedilo ter za zdaj podpira samo angleščino.

Google prav tako načrtuje prenovo nekaterih svojih izdelkov Search, Ads, Chrome in Duet AI z Gemini Pro, kot so Gmail, Google Docs in drugi v naslednjih nekaj mesecih.

Medtem bo Googlov najnovejši Pixel 8 Pro poganjal Gemini Nano za podporo dveh novih funkcij, povzemanja zvočnih datotek v aplikaciji Snemalnik in generiranja hitrih odgovorov na besedilna sporočila prek aplikacije virtualne tipkovnice Gboard. Google bo zgradil več funkcij umetne inteligence poleg Gemini Nano za svoje pametne telefone, je dejal, in namerava odpreti programsko opremo, da bi s svojo storitvijo AICore omogočil tudi razvijalcem Android tretjih oseb.

AICore deluje v sistemu Android 14 in omogoča razvijalcem dostop do modela prek odprtokodnih API-jev ter bo obravnaval stvari, kot sta čas izvajanja in varnost.

Na žalost bodo morali tisti, ki čakajo na preizkus Gemini Ultra, še malo počakati. "Trenutno zaključujemo obsežna preverjanja zaupanja in varnosti, vključno z rednim združevanjem zaupanja vrednih zunanjih strank, in dodatno izpopolnjujemo model z uporabo natančnega prilagajanja in krepitve učenja iz človeških povratnih informacij, preden ga damo na široko dostopen," Google razložiti.

Chocolate Factory načrtuje, da bo Gemini Ultra na voljo naslednje leto in bo začel eksperimentirati z zmogljivostmi modela z izbranimi strankami in razvijalci, preden bo lansiral svojega klepetalnega robota Bard Advanced.

Prodajalci, ki želijo izdelati specializirana orodja umetne inteligence, ki jih poganja Gemini, za posebne aplikacije, na primer tisti, ki delajo v pravni, kadrovski, medicinski ali finančni industriji, bodo lahko dostopali do Gemini Pro kot API-ja v Google AI Studio ali Google Cloud. Vertex AI platforme od 13. decembra.

Google proti OpenAI

Google je bil deležen kritik zaradi počasnega pošiljanja izdelkov umetne inteligence, čeprav je vodilni v raziskavah in razvoju tehnologije.

OpenAI je pred enim letom lansiral svojo virusno spletno aplikacijo ChatGPT in kmalu zatem pomagal Microsoftu izdati lastnega klepetalnega robota AI Bing, pri čemer je Google pustil, da igra dohitevanje. Zdaj lahko najnovejše različice ChatGPT in AI Bing, ki jih poganja GPT-4, prav tako obdelujejo slike. Gemini je Googlova spodbuda, da ostane konkurenčen. Kako se torej primerja z modeli OpenAI?

Kratek odgovor je: zdi se, da je Gemini Pro nekoliko boljši od GPT-3.5, medtem ko je Gemini Ultra nekoliko boljši od GPT-4, glede na nekatere primerjalne teste, ki jih je objavil Google.

»Na splošno ugotavljamo, da zmogljivost Gemini Pro prekaša modele, optimizirane za sklepanje, kot je GPT-3.5, in deluje primerljivo z več najzmogljivejšimi razpoložljivimi modeli, Gemini Ultra pa prekaša vse trenutne modele,« je ekipa Gemini zapisala v članku. [PDF].

Preizkuševalci so primerjali sposobnosti Geminija z različnimi modeli OpenAI, Anthropic, X in Meta v desetih različnih testih. Večinoma so vključevali naloge, ki temeljijo na besedilu, kot so reševanje problemov matematike in kodiranja v Pythonu, vprašanja in odgovori za razumevanje besedila, zdravorazumska preverjanja in strojno prevajanje.

Gemini Ultra je bil boljši od GPT-4, Claude, Grok-1 in Llama-2 pri osmih od desetih nalog, medtem ko je Gemini Pro presegel GPT-3.5 in vse druge modele pri sedmih od devetih nalog. Te primerjalne rezultate pa je treba jemati z rezervo.

Čeprav se tehnologije umetne inteligence izboljšujejo, niso popolne in njihovo vedenje je nepredvidljivo. Gemini ima še vedno enake omejitve kot vsi veliki jezikovni modeli (LLM) pri ustvarjanju dejansko napačnih informacij, proces, znan kot halucinacija.

»Kljub njihovim impresivnim zmogljivostim moramo upoštevati, da obstajajo omejitve pri uporabi LLM. Obstaja stalna potreba po nenehnih raziskavah in razvoju 'halucinacij', ki jih ustvarjajo LLM, da bi zagotovili, da so rezultati modela bolj zanesljivi in preverljivi,« je opozorila ekipa Gemini.

»Študiji LLM se prav tako spopadajo z nalogami, ki zahtevajo visoko stopnjo sposobnosti sklepanja, kot so vzročno razumevanje, logična dedukcija in hipotetično sklepanje, čeprav dosegajo impresivno uspešnost pri merilih uspešnosti na izpitih.«

Kljub temu Google veliko vlaga v tehnologijo. Pod vodstvom izvršnega direktorja Sundarja Pichaija se je iskalni velikan preusmeril v »podjetje, ki je na prvem mestu AI« in si zdaj prizadeva komercializirati svoja prizadevanja ter ostati konkurenčen novemu valu startupov AI.

»Po skoraj osmih letih našega potovanja kot podjetja, ki je na prvem mestu umetna inteligenca, se tempo napredka samo še pospešuje: milijoni ljudi zdaj uporabljajo generativno umetno inteligenco v naših izdelkih, da počnejo stvari, ki jih še pred enim letom niso mogli, od iskanja odgovorov do več zapletena vprašanja o uporabi novih orodij za sodelovanje in ustvarjanje,« je dejal je dejal«.

»Hkrati razvijalci uporabljajo naše modele in infrastrukturo za gradnjo novih generativnih aplikacij AI, startupi in podjetja po vsem svetu pa rastejo z našimi orodji AI. To je neverjeten zagon, pa vendarle šele začenjamo praskati po površini tega, kar je mogoče.” ®