How To Access And Use Gemini API For Free - KDnuggets

Republicat de Platon

Urmaritori: 0

Cum să accesați și să utilizați API-ul Gemini gratuit
Imagine de autor

Gemeni este un nou model dezvoltat de Google, iar Bard devine din nou utilizabil. Cu Gemeni, acum este posibil să obțineți răspunsuri aproape perfecte la întrebările dvs., oferindu-le imagini, sunet și text.

În acest tutorial, vom afla despre API-ul Gemini și despre cum să îl configurați pe mașina dvs. Vom explora, de asemenea, diverse funcții API Python, inclusiv generarea de text și înțelegerea imaginilor.

zodia Gemeni este un nou model AI dezvoltat prin colaborarea dintre echipele Google, inclusiv Google Research și Google DeepMind. A fost creat special pentru a fi multimodal, ceea ce înseamnă că poate înțelege și poate lucra cu diferite tipuri de date, cum ar fi text, cod, audio, imagini și video.

Gemeni este cel mai avansat și cel mai mare model AI dezvoltat de Google până în prezent. A fost conceput pentru a fi extrem de flexibil, astfel încât să poată funcționa eficient pe o gamă largă de sisteme, de la centre de date la dispozitive mobile. Aceasta înseamnă că are potențialul de a revoluționa modul în care companiile și dezvoltatorii pot construi și scala aplicații AI.

Iată trei versiuni ale modelului Gemini concepute pentru diferite cazuri de utilizare:

Gemeni Ultra: Cel mai mare și cel mai avansat AI capabil să realizeze sarcini complexe.
Gemeni Pro: Un model echilibrat, care are performanță și scalabilitate bune.
Gemeni Nano: Cel mai eficient pentru dispozitivele mobile.

Cum să accesați și să utilizați API-ul Gemini gratuit
Imagine de la Vă prezentăm Gemenii

Gemini Ultra are performanțe de ultimă generație, depășind performanța GPT-4 pe mai multe valori. Este primul model care depășește experții umani în raportul de referință Massive Multitask Language Understanding, care testează cunoștințele lumii și rezolvarea problemelor pe 57 de subiecte diverse. Acest lucru arată capabilitățile sale avansate de înțelegere și de rezolvare a problemelor.

Pentru a folosi API-ul, trebuie mai întâi să obținem o cheie API pe care o puteți de aici: https://ai.google.dev/tutorials/setup

Cum să accesați și să utilizați API-ul Gemini gratuit

După aceea, faceți clic pe butonul „Obțineți o cheie API” și apoi faceți clic pe „Creați cheia API în proiectul nou”.

Cum să accesați și să utilizați API-ul Gemini gratuit

Copiați cheia API și setați-o ca variabilă de mediu. Folosim Deepnote și ne este destul de ușor să setăm cheia cu numele „GEMINI_API_KEY”. Doar mergeți la integrare, derulați în jos și selectați variabilele de mediu.

Cum să accesați și să utilizați API-ul Gemini gratuit

În pasul următor, vom instala API-ul Python folosind PIP:

pip install -q -U google-generativeai

După aceea, vom seta cheia API la GenAI Google și vom iniția instanța.

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

După configurarea cheii API, utilizarea modelului Gemini Pro pentru a genera conținut este simplă. Furnizați un prompt pentru funcția `generate_content` și afișați rezultatul ca Markdown.

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

Este uimitor, dar nu sunt de acord cu lista. Cu toate acestea, înțeleg că totul ține de preferințele personale.

Cum să accesați și să utilizați API-ul Gemini gratuit

Gemenii pot genera mai multe răspunsuri, numite candidați, pentru un singur prompt. Puteți alege cel mai potrivit. În cazul nostru, am avut un singur răspuns.

response.candidates

Cum să accesați și să utilizați API-ul Gemini gratuit

Să-i cerem să scrie un joc simplu în Python.

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

Rezultatul este simplu și la obiect. Majoritatea LLM-urilor încep să explice codul Python în loc să-l scrie.

Cum să accesați și să utilizați API-ul Gemini gratuit

Vă puteți personaliza răspunsul folosind argumentul `generation_config`. Limităm numărul de candidați la 1, adăugând cuvântul stop „spațiu” și setând jetoane și temperatura maxime.

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

După cum puteți vedea, răspunsul sa oprit înainte de cuvântul „spațiu”. Uimitor.

Cum să accesați și să utilizați API-ul Gemini gratuit

De asemenea, puteți utiliza argumentul „stream” pentru a transmite răspunsul. Este similar cu API-urile Anthropic și OpenAI, dar mai rapid.

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

Cum să accesați și să utilizați API-ul Gemini gratuit

În această secțiune, vom încărca lui Masood Aslami fotografie și folosiți-o pentru a testa multimodalitatea Gemini Pro Vision.

Încărcați imaginile în `PIL` și afișați-l.

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

Avem o fotografie de înaltă calitate a Rua Augusta Arch.

Cum să accesați și să utilizați API-ul Gemini gratuit

Să încărcăm modelul Gemini Pro Vision și să-i oferim imaginea.

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

Modelul a identificat cu precizie palatul și a oferit informații suplimentare despre istoria și arhitectura acestuia.

Cum să accesați și să utilizați API-ul Gemini gratuit

Să oferim aceeași imagine lui GPT-4 și să-l întrebăm despre imagine. Ambele modele au oferit răspunsuri aproape similare. Dar îmi place mai mult răspunsul GPT-4.

Cum să accesați și să utilizați API-ul Gemini gratuit

Vom furniza acum text și imagine către API. Am cerut modelului de viziune să scrie un blog de călătorie folosind imaginea ca referință.

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

Mi-a oferit un blog scurt. Mă așteptam la format mai lung.

Cum să accesați și să utilizați API-ul Gemini gratuit

În comparație cu GPT-4, modelul Gemini Pro Vision s-a chinuit să genereze un blog de format lung.

Cum să accesați și să utilizați API-ul Gemini gratuit

Putem configura modelul pentru a avea o sesiune de chat înainte și înapoi. În acest fel, modelul își amintește contextul și răspunsul folosind conversațiile anterioare.

În cazul nostru, am început sesiunea de chat și am cerut modelului să mă ajute să încep cu jocul Dota 2.

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

După cum puteți vedea, obiectul `chat` salvează istoricul utilizatorului și al modului de chat.

Cum să accesați și să utilizați API-ul Gemini gratuit

Cum să accesați și să utilizați API-ul Gemini gratuit

Le putem afișa și într-un stil Markdown.

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Cum să accesați și să utilizați API-ul Gemini gratuit

Să punem următoarea întrebare.

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Putem derula în jos și vedem întreaga sesiune cu modelul.

Cum să accesați și să utilizați API-ul Gemini gratuit

Modelele de încorporare devin din ce în ce mai populare pentru aplicațiile conștiente de context. Modelul Gemini embedding-001 permite ca cuvintele, propozițiile sau documentele întregi să fie reprezentate ca vectori denși care codifică semnificația semantică. Această reprezentare vectorială face posibilă compararea cu ușurință a similitudinii dintre diferite bucăți de text prin compararea vectorilor de încorporare corespunzători.

Putem furniza conținutul `embed_content` și converti textul în înglobări. Este atât de simplu.

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

Putem converti mai multe bucăți de text în înglobare prin trecerea unei liste de șiruri la argumentul „conținut”.

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

Dacă întâmpinați probleme la reproducerea aceluiași rezultat, consultați-mi Deepnote spațiu de lucru.

Există atât de multe funcții avansate pe care nu le-am acoperit în acest tutorial introductiv. Puteți afla mai multe despre API-ul Gemini accesând Gemini API: Pornire rapidă cu Python.

În acest tutorial, am învățat despre Gemeni și cum să accesăm API-ul Python pentru a genera răspunsuri. În special, am învățat despre generarea de text, înțelegerea vizuală, streaming, istoricul conversațiilor, ieșirea personalizată și încorporarea. Cu toate acestea, acest lucru doar zgârie suprafața a ceea ce Gemenii pot face.

Simțiți-vă liber să împărtășiți cu mine ceea ce ați construit folosind API-ul gratuit Gemini. Posibilitățile sunt nelimitate.

Abid Ali Awan (@ 1abidaliawan) este un profesionist certificat în domeniul științei datelor, căruia îi place să construiască modele de învățare automată. În prezent, se concentrează pe crearea de conținut și pe scrierea de bloguri tehnice despre învățarea automată și tehnologiile științei datelor. Abid deține o diplomă de master în managementul tehnologiei și o diplomă de licență în ingineria telecomunicațiilor. Viziunea lui este de a construi un produs AI folosind o rețea neuronală grafică pentru studenții care se luptă cu boli mintale.