Kuinka päästä ja käyttää Gemini APIa ilmaiseksi - KDnuggets

Julkaissut Platon

seuraajia: 0

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi
Kuva tekijältä

Gemini on Googlen kehittämä uusi malli, ja Bardista on tulossa taas käyttökelpoinen. Geminin avulla on nyt mahdollista saada lähes täydelliset vastaukset kyselyihisi tarjoamalla heille kuvia, ääntä ja tekstiä.

Tässä opetusohjelmassa opimme Gemini API:sta ja sen määrittämisestä koneellesi. Tutustumme myös erilaisiin Python API -toimintoihin, mukaan lukien tekstin luominen ja kuvien ymmärtäminen.

Kaksoset on uusi tekoälymalli, joka on kehitetty yhteistyössä Googlen tiimien, mukaan lukien Google Researchin ja Google DeepMindin, välillä. Se on rakennettu erityisesti multimodaaliksi, mikä tarkoittaa, että se voi ymmärtää ja käsitellä erityyppisiä tietoja, kuten tekstiä, koodia, ääntä, kuvia ja videoita.

Gemini on edistynein ja suurin Googlen kehittämä tekoälymalli. Se on suunniteltu erittäin joustavaksi, jotta se voi toimia tehokkaasti monenlaisissa järjestelmissä datakeskuksista mobiililaitteisiin. Tämä tarkoittaa, että se voi mullistaa tavan, jolla yritykset ja kehittäjät voivat rakentaa ja skaalata tekoälysovelluksia.

Tässä on kolme versiota Gemini-mallista, jotka on suunniteltu eri käyttötapauksiin:

Gemini Ultra: Suurin ja edistynein tekoäly, joka pystyy suorittamaan monimutkaisia tehtäviä.
GeminiPro: Tasapainoinen malli, jolla on hyvä suorituskyky ja skaalautuvuus.
Gemini Nano: Tehokkain mobiililaitteille.

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi
Kuva Esittelyssä Kaksoset

Gemini Ultrassa on huippuluokan suorituskyky, joka ylittää GPT-4:n suorituskyvyn useilla mittareilla. Se on ensimmäinen malli, joka päihittää ihmisten asiantuntijat Massive Multitask Language Understanding -benchmarkissa, joka testaa maailmantietoa ja ongelmanratkaisua 57 eri aiheesta. Tämä osoittaa sen edistyneen ymmärryksen ja ongelmanratkaisukykynsä.

Sovellusliittymän käyttöä varten meidän on ensin hankittava API-avain, jonka voit saada täältä: https://ai.google.dev/tutorials/setup

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

Napsauta sen jälkeen "Hanki API-avain" -painiketta ja napsauta sitten "Luo API-avain uudessa projektissa".

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

Kopioi API-avain ja aseta se ympäristömuuttujaksi. Käytämme Deepnotea ja meille on melko helppoa asettaa avain nimellä "GEMINI_API_KEY". Mene vain integraatioon, vieritä alas ja valitse ympäristömuuttujat.

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

Seuraavassa vaiheessa asennamme Python API:n PIP:n avulla:

pip install -q -U google-generativeai

Tämän jälkeen asetamme API-avaimen Googlen GenAI:hen ja aloitamme esiintymän.

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

API-avaimen määrittämisen jälkeen Gemini Pro -mallin käyttäminen sisällön luomiseen on helppoa. Anna kehote "generate_content"-funktiolle ja näytä tulos Markdown-arvona.

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

Tämä on hämmästyttävää, mutta en ole samaa mieltä luettelosta. Ymmärrän kuitenkin, että kaikki riippuu henkilökohtaisista mieltymyksistä.

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

Kaksoset voivat luoda useita vastauksia, joita kutsutaan ehdokkaiksi, yhteen kehotteeseen. Voit valita sopivimman. Meidän tapauksessamme meillä oli vain yksi vastaus.

response.candidates

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

Pyydetään sitä kirjoittamaan yksinkertainen peli Pythonissa.

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

Tulos on yksinkertainen ja ytimekäs. Useimmat LLM:t alkavat selittää Python-koodia sen kirjoittamisen sijaan.

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

Voit mukauttaa vastaustasi käyttämällä generation_config-argumenttia. Rajoitamme ehdokkaiden määrän yhteen, lisäämme lopetussanan "välilyönti" ja asetamme enimmäismäärän ja lämpötilan.

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

Kuten näette, vastaus pysähtyi ennen sanaa "välilyönti". Hämmästyttävä.

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

Voit myös käyttää "stream"-argumenttia vastauksen suoratoistoon. Se on samanlainen kuin Anthropic ja OpenAI API, mutta nopeampi.

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

Tässä osiossa lataamme Masood Aslamin valokuva ja testaa sen avulla Gemini Pro Visionin multimodaalisuutta.

Lataa kuvat "PIL"-kansioon ja näytä se.

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

Meillä on korkealaatuinen valokuva Rua Augusta Archista.

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

Ladataan Gemini Pro Vision -malli ja toimitetaan se kuvan kanssa.

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

Malli tunnisti palatsin tarkasti ja antoi lisätietoja sen historiasta ja arkkitehtuurista.

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

Toimitetaan sama kuva GPT-4:lle ja kysytään siltä kuvasta. Molemmat mallit ovat antaneet lähes samanlaisia vastauksia. Mutta pidän GPT-4-vasteesta enemmän.

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

Toimitamme nyt tekstin ja kuvan API:lle. Olemme pyytäneet visiomallia kirjoittamaan matkablogin käyttämällä kuvaa viitteenä.

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

Se on tarjonnut minulle lyhyen blogin. Odotin pidempää formaattia.

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

GPT-4:ään verrattuna Gemini Pro Vision -mallilla on ollut vaikeuksia luoda pitkämuotoista blogia.

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

Voimme määrittää mallin pitämään edestakaisin chat-istunnon. Näin malli muistaa kontekstin ja vastauksen aiempien keskustelujen perusteella.

Meidän tapauksessamme olemme aloittaneet chat-istunnon ja pyytäneet mallia auttamaan minua pääsemään alkuun Dota 2 -pelin kanssa.

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

Kuten näet, chat-objekti tallentaa käyttäjän historian ja chat-tilan.

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

Voimme myös näyttää ne Markdown-tyylillä.

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

Esitetään jatkokysymys.

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Voimme rullata alas ja nähdä koko istunnon mallin kanssa.

Kuinka päästä ja käyttää Gemini APIa ilmaiseksi

Upotusmalleista on tulossa yhä suositumpia kontekstitietoisissa sovelluksissa. Gemini embedding-001 -malli mahdollistaa sanojen, lauseiden tai kokonaisten asiakirjojen esittämisen tiheinä vektoreina, jotka koodaavat semanttista merkitystä. Tämä vektoriesitys mahdollistaa helposti eri tekstinkappaleiden samankaltaisuuden vertaamisen vertaamalla niitä vastaavia upotusvektoreita.

Voimme tarjota sisällön "embed_content" -elementtiin ja muuntaa tekstin upotuksiksi. Se on niin yksinkertaista.

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

Voimme muuntaa useita tekstikappaleita upotuksiksi välittämällä merkkijonoluettelon "sisältö"-argumentille.

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

Jos sinulla on vaikeuksia tuottaa samaa tulosta, katso minun Deepnote-työtila.

On niin monia lisätoimintoja, joita emme käsitelleet tässä johdanto-opetusohjelmassa. Saat lisätietoja Gemini API:sta siirtymällä osoitteeseen Gemini API: Pika-aloitus Pythonilla.

Tässä opetusohjelmassa olemme oppineet Geministä ja Python API:n käyttämisestä vastausten luomiseen. Olemme oppineet erityisesti tekstin luomisesta, visuaalisesta ymmärtämisestä, suoratoistosta, keskusteluhistoriasta, mukautetusta tulosteesta ja upotuksista. Tämä kuitenkin vain raapaa pintaa, mitä Kaksoset voivat tehdä.

Voit vapaasti jakaa kanssani, mitä olet rakentanut ilmaisen Gemini API:n avulla. Mahdollisuudet ovat rajattomat.

Abid Ali Awan (@1abidaliawan) on sertifioitu datatieteilijä, joka rakastaa koneoppimismallien rakentamista. Tällä hetkellä hän keskittyy sisällöntuotantoon ja kirjoittaa teknisiä blogeja koneoppimisesta ja datatieteen teknologioista. Abidilla on maisterin tutkinto teknologiajohtamisesta ja kandidaatin tutkinto tietoliikennetekniikasta. Hänen visionsa on rakentaa tekoälytuote graafisen hermoverkon avulla opiskelijoille, jotka kamppailevat mielenterveysongelmista.