Hur man kommer åt och använder Gemini API gratis - KDnuggets

Återutgiven av Platon

anhängare: 0

Hur man kommer åt och använder Gemini API gratis
Bild av författare

Gemini är en ny modell utvecklad av Google, och Bard blir användbar igen. Med Gemini är det nu möjligt att få nästan perfekta svar på dina frågor genom att förse dem med bilder, ljud och text.

I den här handledningen kommer vi att lära oss om Gemini API och hur du ställer in det på din maskin. Vi kommer också att utforska olika Python API-funktioner, inklusive textgenerering och bildförståelse.

tvillingarna är en ny AI-modell utvecklad genom samarbete mellan team på Google, inklusive Google Research och Google DeepMind. Den byggdes specifikt för att vara multimodal, vilket innebär att den kan förstå och arbeta med olika typer av data som text, kod, ljud, bilder och video.

Gemini är den mest avancerade och största AI-modellen som har utvecklats av Google hittills. Den har utformats för att vara mycket flexibel så att den kan fungera effektivt på ett brett utbud av system, från datacenter till mobila enheter. Detta innebär att det har potential att revolutionera sättet på vilket företag och utvecklare kan bygga och skala AI-applikationer.

Här är tre versioner av Gemini-modellen designade för olika användningsfall:

Gemini Ultra: Största och mest avancerade AI som kan utföra komplexa uppgifter.
GeminiPro: En balanserad modell som har bra prestanda och skalbarhet.
Gemini Nano: Mest effektivt för mobila enheter.

Hur man kommer åt och använder Gemini API gratis
Bild från Vi presenterar Gemini

Gemini Ultra har toppmodern prestanda som överträffar prestanda för GPT-4 på flera mätvärden. Det är den första modellen som överträffar mänskliga experter på riktmärket Massive Multitask Language Understanding, som testar världskunskap och problemlösning i 57 olika ämnen. Detta visar upp dess avancerade förståelse och problemlösningsförmåga.

För att använda API:t måste vi först skaffa en API-nyckel som du kan härifrån: https://ai.google.dev/tutorials/setup

Hur man kommer åt och använder Gemini API gratis

Klicka sedan på knappen "Hämta en API-nyckel" och klicka sedan på "Skapa API-nyckel i nytt projekt".

Hur man kommer åt och använder Gemini API gratis

Kopiera API-nyckeln och ställ in den som en miljövariabel. Vi använder Deepnote och det är ganska enkelt för oss att ställa in nyckeln med namnet "GEMINI_API_KEY". Gå bara till integrationen, scrolla ner och välj miljövariabler.

Hur man kommer åt och använder Gemini API gratis

I nästa steg kommer vi att installera Python API med PIP:

pip install -q -U google-generativeai

Efter det kommer vi att ställa in API-nyckeln till Googles GenAI och initiera instansen.

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

Efter att ha ställt in API-nyckeln är det enkelt att använda Gemini Pro-modellen för att generera innehåll. Ge en prompt till funktionen `generate_content` och visa utdata som Markdown.

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

Detta är fantastiskt, men jag håller inte med om listan. Men jag förstår att det handlar om personliga preferenser.

Hur man kommer åt och använder Gemini API gratis

Gemini kan generera flera svar, kallade kandidater, för en enda uppmaning. Du kan välja den mest lämpliga. I vårt fall hade vi bara ett svar.

response.candidates

Hur man kommer åt och använder Gemini API gratis

Låt oss be den att skriva ett enkelt spel i Python.

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

Resultatet är enkelt och rakt på sak. De flesta LLM:er börjar förklara Python-koden istället för att skriva den.

Hur man kommer åt och använder Gemini API gratis

Du kan anpassa ditt svar med argumentet `generation_config`. Vi begränsar antalet kandidater till 1, lägger till stoppordet "mellanslag" och ställer in maximala tokens och temperatur.

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

Som du kan se stannade svaret före ordet "mellanslag". Fantastisk.

Hur man kommer åt och använder Gemini API gratis

Du kan också använda argumentet `stream` för att streama svaret. Det liknar API:erna Anthropic och OpenAI men snabbare.

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

Hur man kommer åt och använder Gemini API gratis

I det här avsnittet kommer vi att ladda Masood Aslamis foto och använd den för att testa multimodaliteten hos Gemini Pro Vision.

Ladda bilderna till `PIL` och visa den.

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

Vi har ett högkvalitativt foto av Rua Augusta Arch.

Hur man kommer åt och använder Gemini API gratis

Låt oss ladda Gemini Pro Vision-modellen och förse den med bilden.

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

Modellen identifierade palatset exakt och gav ytterligare information om dess historia och arkitektur.

Hur man kommer åt och använder Gemini API gratis

Låt oss tillhandahålla samma bild till GPT-4 och fråga den om bilden. Båda modellerna har gett nästan liknande svar. Men jag gillar GPT-4-svaret mer.

Hur man kommer åt och använder Gemini API gratis

Vi kommer nu att tillhandahålla text och bild till API:t. Vi har bett visionmodellen att skriva en reseblogg med bilden som referens.

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

Det har gett mig en kort blogg. Jag förväntade mig längre format.

Hur man kommer åt och använder Gemini API gratis

Jämfört med GPT-4 har Gemini Pro Vision-modellen kämpat för att skapa en blogg i långformat.

Hur man kommer åt och använder Gemini API gratis

Vi kan ställa in modellen för att ha en fram och tillbaka chattsession. På så sätt kommer modellen ihåg sammanhanget och svaret med de tidigare samtalen.

I vårt fall har vi startat chattsessionen och bett modellen hjälpa mig att komma igång med Dota 2-spelet.

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

Som du kan se sparar "chatt"-objektet historiken för användar- och lägeschatten.

Hur man kommer åt och använder Gemini API gratis

Hur man kommer åt och använder Gemini API gratis

Vi kan också visa dem i en Markdown-stil.

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Hur man kommer åt och använder Gemini API gratis

Låt oss ställa följdfrågan.

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Vi kan scrolla ner och se hela sessionen med modellen.

Hur man kommer åt och använder Gemini API gratis

Inbäddningsmodeller blir allt mer populära för sammanhangsmedvetna applikationer. Gemini embedding-001-modellen tillåter att ord, meningar eller hela dokument representeras som täta vektorer som kodar för semantisk betydelse. Denna vektorrepresentation gör det möjligt att enkelt jämföra likheten mellan olika textstycken genom att jämföra deras motsvarande inbäddningsvektorer.

Vi kan tillhandahålla innehållet till `embed_content` och konvertera texten till inbäddningar. Så enkelt är det.

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

Vi kan konvertera flera bitar av text till inbäddningar genom att skicka en lista med strängar till argumentet "innehåll".

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

Om du har problem med att återskapa samma resultat, kolla in min Deepnote arbetsyta.

Det finns så många avancerade funktioner som vi inte täckte i den här inledande handledningen. Du kan lära dig mer om Gemini API genom att gå till Gemini API: Snabbstart med Python.

I den här handledningen har vi lärt oss om Gemini och hur man kommer åt Python API för att generera svar. I synnerhet har vi lärt oss om textgenerering, visuell förståelse, streaming, konversationshistorik, anpassad utdata och inbäddningar. Men detta skrapar bara på ytan av vad Gemini kan göra.

Dela gärna med dig av vad du har byggt med det kostnadsfria Gemini API. Möjligheterna är obegränsade.

Abid Ali Awan (@1abidaliawan) är en certifierad datavetare som älskar att bygga modeller för maskininlärning. För närvarande fokuserar han på att skapa innehåll och skriva tekniska bloggar om maskininlärning och datavetenskap. Abid har en magisterexamen i Technology Management och en kandidatexamen i telekommunikationsteknik. Hans vision är att bygga en AI-produkt med hjälp av ett grafiskt neuralt nätverk för studenter som kämpar med psykisk ohälsa.