Hvordan få tilgang til og bruke Gemini API gratis - KDnuggets

Publisert av Platon

Følgere: 0

Hvordan få tilgang til og bruke Gemini API gratis
Bilde av forfatter

Gemini er en ny modell utviklet av Google, og Bard er i ferd med å bli brukbar igjen. Med Gemini er det nå mulig å få nesten perfekte svar på spørsmålene dine ved å gi dem bilder, lyd og tekst.

I denne opplæringen lærer vi om Gemini API og hvordan du setter det opp på maskinen din. Vi vil også utforske ulike Python API-funksjoner, inkludert tekstgenerering og bildeforståelse.

Gemini er en ny AI-modell utviklet gjennom samarbeid mellom team hos Google, inkludert Google Research og Google DeepMind. Den ble bygget spesielt for å være multimodal, noe som betyr at den kan forstå og arbeide med forskjellige typer data som tekst, kode, lyd, bilder og video.

Gemini er den mest avanserte og største AI-modellen utviklet av Google til dags dato. Den er designet for å være svært fleksibel slik at den kan fungere effektivt på et bredt spekter av systemer, fra datasentre til mobile enheter. Dette betyr at det har potensial til å revolusjonere måten bedrifter og utviklere kan bygge og skalere AI-applikasjoner på.

Her er tre versjoner av Gemini-modellen designet for ulike brukstilfeller:

Gemini Ultra: Største og mest avanserte AI som er i stand til å utføre komplekse oppgaver.
GeminiPro: En balansert modell som har god ytelse og skalerbarhet.
Gemini Nano: Mest effektivt for mobile enheter.

Hvordan få tilgang til og bruke Gemini API gratis
Bilde fra Vi introduserer Gemini

Gemini Ultra har state-of-the-art ytelse, som overgår ytelsen til GPT-4 på flere beregninger. Det er den første modellen som overgår menneskelige eksperter på referanseindeksen Massive Multitask Language Understanding, som tester verdenskunnskap og problemløsning på tvers av 57 forskjellige fag. Dette viser dens avanserte forståelse og problemløsningsevner.

For å bruke API-en må vi først få en API-nøkkel som du kan herfra: https://ai.google.dev/tutorials/setup

Hvordan få tilgang til og bruke Gemini API gratis

Klikk deretter på "Få en API-nøkkel"-knappen og klikk deretter på "Opprett API-nøkkel i nytt prosjekt".

Hvordan få tilgang til og bruke Gemini API gratis

Kopier API-nøkkelen og sett den som en miljøvariabel. Vi bruker Deepnote og det er ganske enkelt for oss å sette nøkkelen med navnet "GEMINI_API_KEY". Bare gå til integrasjonen, bla ned og velg miljøvariabler.

Hvordan få tilgang til og bruke Gemini API gratis

I neste trinn vil vi installere Python API ved å bruke PIP:

pip install -q -U google-generativeai

Etter det vil vi sette API-nøkkelen til Googles GenAI og starte forekomsten.

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

Etter å ha satt opp API-nøkkelen, er det enkelt å bruke Gemini Pro-modellen til å generere innhold. Gi en melding til «generer_innhold»-funksjonen og vis utdataene som Markdown.

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

Dette er fantastisk, men jeg er ikke enig i listen. Imidlertid forstår jeg at det handler om personlige preferanser.

Hvordan få tilgang til og bruke Gemini API gratis

Gemini kan generere flere svar, kalt kandidater, for en enkelt forespørsel. Du kan velge den mest passende. I vårt tilfelle hadde vi bare ett svar.

response.candidates

Hvordan få tilgang til og bruke Gemini API gratis

La oss be den skrive et enkelt spill i Python.

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

Resultatet er enkelt og konkret. De fleste LLM-er begynner å forklare Python-koden i stedet for å skrive den.

Hvordan få tilgang til og bruke Gemini API gratis

Du kan tilpasse svaret ditt ved å bruke argumentet `generation_config`. Vi begrenser antallet kandidater til 1, legger til stoppordet «mellomrom» og angir maks. tokens og temperatur.

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

Som du kan se, stoppet svaret før ordet "mellomrom". Fantastisk.

Hvordan få tilgang til og bruke Gemini API gratis

Du kan også bruke "stream"-argumentet for å streame svaret. Det ligner på Anthropic og OpenAI APIer, men raskere.

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

Hvordan få tilgang til og bruke Gemini API gratis

I denne delen vil vi laste Masood Aslami foto og bruk det til å teste multimodaliteten til Gemini Pro Vision.

Last inn bildene til `PIL` og vis den.

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

Vi har et høykvalitetsbilde av Rua Augusta Arch.

Hvordan få tilgang til og bruke Gemini API gratis

La oss laste inn Gemini Pro Vision-modellen og gi den bildet.

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

Modellen identifiserte palasset nøyaktig og ga tilleggsinformasjon om dets historie og arkitektur.

Hvordan få tilgang til og bruke Gemini API gratis

La oss gi det samme bildet til GPT-4 og spørre det om bildet. Begge modellene har gitt nesten like svar. Men jeg liker GPT-4-responsen mer.

Hvordan få tilgang til og bruke Gemini API gratis

Vi vil nå gi tekst og bilde til API. Vi har bedt visjonsmodellen skrive en reiseblogg med bildet som referanse.

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

Det har gitt meg en kort blogg. Jeg forventet lengre format.

Hvordan få tilgang til og bruke Gemini API gratis

Sammenlignet med GPT-4 har Gemini Pro Vision-modellen slitt med å generere en blogg i langt format.

Hvordan få tilgang til og bruke Gemini API gratis

Vi kan sette opp modellen til å ha en frem og tilbake chat-økt. På denne måten husker modellen konteksten og responsen ved å bruke de tidligere samtalene.

I vårt tilfelle har vi startet chatteøkten og bedt modellen hjelpe meg med å komme i gang med Dota 2-spillet.

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

Som du kan se, lagrer "chat"-objektet historikken til bruker- og moduschatten.

Hvordan få tilgang til og bruke Gemini API gratis

Hvordan få tilgang til og bruke Gemini API gratis

Vi kan også vise dem i en Markdown-stil.

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Hvordan få tilgang til og bruke Gemini API gratis

La oss stille oppfølgingsspørsmålet.

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Vi kan scrolle ned og se hele økten med modellen.

Hvordan få tilgang til og bruke Gemini API gratis

Innebyggingsmodeller blir stadig mer populære for kontekstbevisste applikasjoner. Gemini embedding-001-modellen lar ord, setninger eller hele dokumenter representeres som tette vektorer som koder for semantisk betydning. Denne vektorrepresentasjonen gjør det mulig å enkelt sammenligne likheten mellom ulike tekststykker ved å sammenligne deres tilsvarende innebyggingsvektorer.

Vi kan levere innholdet til 'embed_content' og konvertere teksten til embeddings. Så enkelt er det.

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

Vi kan konvertere flere tekstbiter til innebygginger ved å sende en liste med strenger til «innhold»-argumentet.

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

Hvis du har problemer med å gjengi det samme resultatet, sjekk ut min Deepnote arbeidsområde.

Det er så mange avanserte funksjoner som vi ikke dekket i denne introduksjonsopplæringen. Du kan lære mer om Gemini API ved å gå til Gemini API: Hurtigstart med Python.

I denne opplæringen har vi lært om Gemini og hvordan du får tilgang til Python API for å generere svar. Spesielt har vi lært om tekstgenerering, visuell forståelse, streaming, samtalehistorikk, tilpasset utgang og innebygging. Dette skraper imidlertid bare overflaten av hva Gemini kan gjøre.

Del gjerne med meg hva du har bygget ved hjelp av gratis Gemini API. Mulighetene er ubegrensede.

Abid Ali Awan (@1abidaliawan) er en sertifisert dataforsker som elsker å bygge maskinlæringsmodeller. For tiden fokuserer han på innholdsskaping og skriver tekniske blogger om maskinlæring og datavitenskapsteknologier. Abid har en mastergrad i teknologiledelse og en bachelorgrad i telekommunikasjonsteknikk. Hans visjon er å bygge et AI-produkt ved å bruke et grafisk nevralt nettverk for studenter som sliter med psykiske lidelser.