Come accedere e utilizzare l'API Gemini gratuitamente - KDnuggets

Ripubblicato da Platone

Seguaci: 0

Come accedere e utilizzare l'API Gemini gratuitamente
Immagine dell'autore

Gemini è un nuovo modello sviluppato da Google e Bard sta diventando nuovamente utilizzabile. Con Gemini è ora possibile ottenere risposte quasi perfette alle tue domande fornendo loro immagini, audio e testo.

In questo tutorial impareremo a conoscere l'API Gemini e come configurarla sul tuo computer. Esploreremo anche varie funzioni dell'API Python, inclusa la generazione di testo e la comprensione delle immagini.

Gemini è un nuovo modello di intelligenza artificiale sviluppato attraverso la collaborazione tra i team di Google, tra cui Google Research e Google DeepMind. È stato costruito appositamente per essere multimodale, il che significa che può comprendere e funzionare con diversi tipi di dati come testo, codice, audio, immagini e video.

Gemini è il modello di intelligenza artificiale più avanzato e più grande sviluppato da Google fino ad oggi. È stato progettato per essere altamente flessibile in modo da poter funzionare in modo efficiente su un'ampia gamma di sistemi, dai data center ai dispositivi mobili. Ciò significa che ha il potenziale per rivoluzionare il modo in cui aziende e sviluppatori possono creare e scalare le applicazioni AI.

Ecco tre versioni del modello Gemini progettate per diversi casi d'uso:

Gemelli Ultra: L'intelligenza artificiale più grande e avanzata in grado di eseguire compiti complessi.
Gemelli Pro: Un modello equilibrato che offre buone prestazioni e scalabilità.
Gemelli Nano: Più efficiente per i dispositivi mobili.

Come accedere e utilizzare l'API Gemini gratuitamente
Immagine da Presentazione dei Gemelli

Gemini Ultra offre prestazioni all'avanguardia, superando le prestazioni di GPT-4 su diversi parametri. È il primo modello a superare gli esperti umani nel benchmark Massive Multitask Language Understanding, che mette alla prova la conoscenza del mondo e la risoluzione dei problemi in 57 argomenti diversi. Ciò mette in mostra le sue capacità avanzate di comprensione e risoluzione dei problemi.

Per utilizzare l'API, dobbiamo prima ottenere una chiave API che puoi da qui: https://ai.google.dev/tutorials/setup

Come accedere e utilizzare l'API Gemini gratuitamente

Successivamente fai clic sul pulsante “Ottieni una chiave API” e quindi fai clic su “Crea chiave API nel nuovo progetto”.

Come accedere e utilizzare l'API Gemini gratuitamente

Copia la chiave API e impostala come variabile di ambiente. Stiamo utilizzando Deepnote ed è abbastanza semplice per noi impostare la chiave con il nome "GEMINI_API_KEY". Basta andare all'integrazione, scorrere verso il basso e selezionare le variabili di ambiente.

Come accedere e utilizzare l'API Gemini gratuitamente

Nel passaggio successivo, installeremo l'API Python utilizzando PIP:

pip install -q -U google-generativeai

Successivamente, imposteremo la chiave API su GenAI di Google e avvieremo l'istanza.

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

Dopo aver impostato la chiave API, utilizzare il modello Gemini Pro per generare contenuti è semplice. Fornisci un prompt alla funzione "generate_content" e visualizza l'output come Markdown.

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

Questo è sorprendente, ma non sono d'accordo con l'elenco. Tuttavia, capisco che è tutta una questione di preferenze personali.

Come accedere e utilizzare l'API Gemini gratuitamente

Gemini può generare più risposte, chiamate candidate, per un singolo prompt. Puoi selezionare quello più adatto. Nel nostro caso, abbiamo avuto una sola risposta.

response.candidates

Come accedere e utilizzare l'API Gemini gratuitamente

Chiediamogli di scrivere un semplice gioco in Python.

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

Il risultato è semplice e pertinente. La maggior parte dei LLM iniziano a spiegare il codice Python invece di scriverlo.

Come accedere e utilizzare l'API Gemini gratuitamente

Puoi personalizzare la tua risposta utilizzando l'argomento "generazione_config". Limiteremo il conteggio dei candidati a 1, aggiungendo la parola d'ordine "spazio" e impostando il numero massimo di token e temperatura.

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

Come puoi vedere, la risposta si è fermata prima della parola “spazio”. Sorprendente.

Come accedere e utilizzare l'API Gemini gratuitamente

Puoi anche utilizzare l'argomento "stream" per trasmettere in streaming la risposta. È simile alle API Anthropic e OpenAI ma più veloce.

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

Come accedere e utilizzare l'API Gemini gratuitamente

In questa sezione caricheremo Masood Aslami foto e utilizzala per testare la multimodalità di Gemini Pro Vision.

Caricare le immagini nel `PIL` e visualizzarle.

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

Abbiamo una foto di alta qualità dell'Arco di Rua Augusta.

Come accedere e utilizzare l'API Gemini gratuitamente

Carichiamo il modello Gemini Pro Vision e forniamolo con l'immagine.

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

Il modello identificava accuratamente il palazzo e forniva ulteriori informazioni sulla sua storia e architettura.

Come accedere e utilizzare l'API Gemini gratuitamente

Forniamo la stessa immagine al GPT-4 e chiediamogli informazioni sull'immagine. Entrambi i modelli hanno fornito risposte quasi simili. Ma mi piace di più la risposta GPT-4.

Come accedere e utilizzare l'API Gemini gratuitamente

Ora forniremo il testo e l'immagine all'API. Abbiamo chiesto al modello di visione di scrivere un blog di viaggio utilizzando l'immagine come riferimento.

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

Mi ha fornito un breve blog. Mi aspettavo un formato più lungo.

Come accedere e utilizzare l'API Gemini gratuitamente

Rispetto al GPT-4, il modello Gemini Pro Vision ha faticato a generare un blog di lungo formato.

Come accedere e utilizzare l'API Gemini gratuitamente

Possiamo impostare il modello per avere una sessione di chat avanti e indietro. In questo modo, il modello ricorda il contesto e la risposta utilizzando le conversazioni precedenti.

Nel nostro caso, abbiamo avviato la sessione di chat e chiesto alla modella di aiutarmi a iniziare con il gioco Dota 2.

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

Come puoi vedere, l'oggetto `chat` salva la cronologia dell'utente e della modalità chat.

Come accedere e utilizzare l'API Gemini gratuitamente

Come accedere e utilizzare l'API Gemini gratuitamente

Possiamo anche visualizzarli in stile Markdown.

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Come accedere e utilizzare l'API Gemini gratuitamente

Facciamo la domanda successiva.

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Possiamo scorrere verso il basso e vedere l'intera sessione con il modello.

Come accedere e utilizzare l'API Gemini gratuitamente

I modelli di incorporamento stanno diventando sempre più popolari per le applicazioni sensibili al contesto. Il modello Gemini embedding-001 consente di rappresentare parole, frasi o interi documenti come vettori densi che codificano il significato semantico. Questa rappresentazione vettoriale consente di confrontare facilmente la somiglianza tra diverse parti di testo confrontando i corrispondenti vettori di incorporamento.

Possiamo fornire il contenuto a "embed_content" e convertire il testo in incorporamenti. È così semplice.

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

Possiamo convertire più porzioni di testo in incorporamenti passando un elenco di stringhe all'argomento "contenuto".

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

Se hai problemi a riprodurre lo stesso risultato, dai un'occhiata al mio Area di lavoro delle note profonde.

Ci sono così tante funzioni avanzate che non abbiamo trattato in questo tutorial introduttivo. Puoi saperne di più sull'API Gemini andando su API Gemini: avvio rapido con Python.

In questo tutorial abbiamo imparato a conoscere Gemini e come accedere all'API Python per generare risposte. In particolare, abbiamo imparato a conoscere la generazione del testo, la comprensione visiva, lo streaming, la cronologia delle conversazioni, l'output personalizzato e gli incorporamenti. Tuttavia, questo è solo la superficie di ciò che i Gemelli possono fare.

Sentiti libero di condividere con me ciò che hai creato utilizzando l'API Gemini gratuita. Le possibilità sono illimitate.

Abid Ali Awan (@1abidaliawan) è un professionista di data scientist certificato che ama creare modelli di machine learning. Attualmente si sta concentrando sulla creazione di contenuti e sulla scrittura di blog tecnici sulle tecnologie di apprendimento automatico e scienza dei dati. Abid ha conseguito un Master in Technology Management e una laurea in Ingegneria delle Telecomunicazioni. La sua visione è quella di costruire un prodotto di intelligenza artificiale utilizzando una rete neurale grafica per studenti alle prese con malattie mentali.