A Gemini API ingyenes elérése és használata - KDnuggets

A Gemini API ingyenes elérése és használata – KDnuggets

Forrás csomópont: 3033824

A Gemini API ingyenes elérése és használata
A kép szerzője 

A Gemini a Google által fejlesztett új modell, a Bard pedig újra használhatóvá válik. A Gemini segítségével most már szinte tökéletes válaszokat kaphat kérdéseire, ha képeket, hangot és szöveget lát el.

Ebben az oktatóanyagban megismerjük a Gemini API-t és azt, hogyan állítsd be a gépeden. Ezenkívül megvizsgáljuk a Python API különféle funkcióit, beleértve a szöveggenerálást és a képértelmezést.

Gemini egy új mesterséges intelligencia modell, amelyet a Google csapatai, köztük a Google Research és a Google DeepMind együttműködésével fejlesztettek ki. Kifejezetten multimodálisnak készült, ami azt jelenti, hogy különböző típusú adatokat, például szöveget, kódot, hangot, képeket és videót képes megérteni és azokkal dolgozni.

A Gemini a Google által eddig kifejlesztett legfejlettebb és legnagyobb mesterségesintelligencia-modell. Úgy tervezték, hogy rendkívül rugalmas legyen, így hatékonyan tud működni a rendszerek széles skáláján, az adatközpontoktól a mobileszközökig. Ez azt jelenti, hogy forradalmasíthatja azt a módot, ahogyan a vállalkozások és a fejlesztők AI-alkalmazásokat építhetnek és méretezhetnek.

Íme a Gemini modell három változata, amelyeket különféle felhasználási esetekre terveztek:

  • Gemini Ultra: A legnagyobb és legfejlettebb mesterséges intelligencia, amely képes összetett feladatok elvégzésére.
  • GeminiPro: Kiegyensúlyozott modell, amely jó teljesítménnyel és skálázhatósággal rendelkezik.
  • Gemini Nano: A leghatékonyabb mobileszközökön.

 

A Gemini API ingyenes elérése és használata
Kép Bemutatkozik az Ikrek
 

A Gemini Ultra a legmodernebb teljesítménnyel rendelkezik, amely több mutatóban is meghaladja a GPT-4 teljesítményét. Ez az első modell, amely felülmúlja a humán szakértőket a Massive Multitask Language Understanding benchmarkban, amely 57 különböző témakörben teszteli a világismeretet és a problémamegoldást. Ez bemutatja fejlett megértési és problémamegoldó képességeit.

Az API használatához először be kell szereznünk egy API-kulcsot, amelyet innen tud meg: https://ai.google.dev/tutorials/setup

 
A Gemini API ingyenes elérése és használata

A Gemini API ingyenes elérése és használata
 

Ezután kattintson az „API-kulcs beszerzése” gombra, majd kattintson az „API-kulcs létrehozása új projektben” gombra.

 
A Gemini API ingyenes elérése és használata

A Gemini API ingyenes elérése és használata
 

Másolja ki az API-kulcsot, és állítsa be környezeti változóként. Deepnote-ot használunk, és nagyon könnyű beállítani a „GEMINI_API_KEY” nevű kulcsot. Csak lépjen az integrációhoz, görgessen le, és válassza ki a környezeti változókat.

 
A Gemini API ingyenes elérése és használata

A Gemini API ingyenes elérése és használata
 

A következő lépésben a Python API-t PIP használatával telepítjük:

pip install -q -U google-generativeai

Ezt követően beállítjuk az API-kulcsot a Google GenAI-jára, és elindítjuk a példányt.

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

Az API-kulcs beállítása után egyszerű a Gemini Pro modell használata a tartalom létrehozásához. Adja meg a "generate_content" függvényt, és jelenítse meg a kimenetet Markdownként.

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

Ez csodálatos, de nem értek egyet a listával. Azonban megértem, hogy minden a személyes preferenciákon múlik.

 
A Gemini API ingyenes elérése és használata

A Gemini API ingyenes elérése és használata
 

Az Ikrek több választ is generálhatnak, amelyeket jelölteknek neveznek egyetlen felszólításra. Kiválaszthatja a legmegfelelőbbet. A mi esetünkben csak egy válaszunk volt.

response.candidates

A Gemini API ingyenes elérése és használata

A Gemini API ingyenes elérése és használata
 

Kérjük meg, hogy írjon egy egyszerű játékot Pythonban.

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

Az eredmény egyszerű és lényegre törő. A legtöbb LLM elkezdi magyarázni a Python kódot ahelyett, hogy megírná.

A Gemini API ingyenes elérése és használata

A Gemini API ingyenes elérése és használata

Válaszát testreszabhatja a "generation_config" argumentum használatával. A jelöltek számát 1-re korlátozzuk, hozzáadjuk a „space” stopszót, és beállítjuk a maximális tokeneket és a hőmérsékletet.

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

Mint látható, a válasz megállt a „szóköz” szó előtt. Elképesztő.

 
A Gemini API ingyenes elérése és használata

A Gemini API ingyenes elérése és használata

A "stream" argumentumot is használhatja a válasz streamelésére. Hasonló az Anthropic és OpenAI API-khoz, de gyorsabb.

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

A Gemini API ingyenes elérése és használata

A Gemini API ingyenes elérése és használata

Ebben a részben betöltjük Masood Aslamié fotót, és ezzel tesztelje a Gemini Pro Vision multimodalitását.

Töltse be a képeket a "PIL"-be, és jelenítse meg.

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

Van egy jó minőségű fotónk a Rua Augusta Archról.

 
A Gemini API ingyenes elérése és használata

A Gemini API ingyenes elérése és használata
 

Töltsük be a Gemini Pro Vision modellt, és biztosítsuk a képpel.

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

A makett pontosan azonosította a palotát, és további információkat szolgáltatott történetéről és építészetéről.

 
A Gemini API ingyenes elérése és használata

A Gemini API ingyenes elérése és használata
 

Adjuk meg ugyanazt a képet a GPT-4-nek, és kérdezzük meg a képről. Mindkét modell közel hasonló választ adott. De a GPT-4 választ jobban szeretem.

 
A Gemini API ingyenes elérése és használata

A Gemini API ingyenes elérése és használata
 

Most megadjuk a szöveget és a képet az API-nak. Megkértük a jövőkép modellt, hogy írjon utazási blogot a kép felhasználásával referenciaként.

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

Ez biztosított számomra egy rövid blogot. Hosszabb formátumra számítottam.

 
A Gemini API ingyenes elérése és használata

A Gemini API ingyenes elérése és használata
 

A GPT-4-hez képest a Gemini Pro Vision modell nehezen tudott hosszú formátumú blogot létrehozni.

 
A Gemini API ingyenes elérése és használata

A Gemini API ingyenes elérése és használata

Beállíthatjuk a modellt oda-vissza csevegésre. Így a modell megjegyzi a kontextust és a válaszokat az előző beszélgetések segítségével.

A mi esetünkben elindítottuk a csevegést, és megkértük a modellt, hogy segítsen a Dota 2 játék megkezdésében.

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

Amint látja, a `chat` objektum elmenti a felhasználó és a mód chat előzményeit.

 
A Gemini API ingyenes elérése és használata

A Gemini API ingyenes elérése és használata
 
Markdown stílusban is megjeleníthetjük őket.

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

A Gemini API ingyenes elérése és használata

A Gemini API ingyenes elérése és használata
 

Tegyük fel a következő kérdést.

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Lefelé görgetve láthatjuk a teljes munkamenetet a modellel.

 
A Gemini API ingyenes elérése és használata

A Gemini API ingyenes elérése és használata

A beágyazott modellek egyre népszerűbbek a környezettudatos alkalmazásokban. A Gemini beágyazás-001 modell lehetővé teszi, hogy szavak, mondatok vagy teljes dokumentumok sűrű vektorokként jelenjenek meg, amelyek szemantikai jelentést kódolnak. Ez a vektoros ábrázolás lehetővé teszi a különböző szövegrészek hasonlóságának egyszerű összehasonlítását a megfelelő beágyazási vektorok összehasonlításával.

Meg tudjuk adni a tartalmat az `embed_content`-nek, és a szöveget beágyazásokká alakíthatjuk. Ennyire egyszerű.

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])
[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

Több szövegdarabot konvertálhatunk beágyazássá, ha egy karakterlánc-listát adunk át a „tartalom” argumentumnak.

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])
[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

Ha problémái vannak ugyanazon eredmény reprodukálásával, nézze meg az enyémet Deepnote munkaterület.

Olyan sok speciális funkció van, amelyekre ebben a bevezető oktatóanyagban nem tértünk ki. A Gemini API-ról többet megtudhat a következő oldalon Gemini API: Gyorsindítás a Pythonnal.

Ebben az oktatóanyagban megismerkedtünk a Geminivel és a Python API elérésével válaszok generálásához. Különösen a szöveggenerálásról, a vizuális megértésről, a streamelésről, a beszélgetési előzményekről, az egyéni kimenetekről és a beágyazásokról tanultunk. Ez azonban csak megkarcolja a felszínt, mire képesek az Ikrek.

Nyugodtan oszd meg velem, hogy mit építettél fel az ingyenes Gemini API segítségével. A lehetőségek korlátlanok.

 
 

Abid Ali Awan (@1abidaliawan) okleveles adattudós szakember, aki szereti a gépi tanulási modellek építését. Jelenleg tartalomkészítéssel foglalkozik, és technikai blogokat ír a gépi tanulásról és az adattudományi technológiákról. Abid mesterdiplomát szerzett technológiamenedzsmentből és alapdiplomát távközlési mérnökből. Elképzelése az, hogy egy MI-terméket hozzon létre egy gráf neurális hálózat segítségével a mentális betegséggel küzdő diákok számára.

Időbélyeg:

Még több KDnuggets