Como acessar e usar a API Gemini gratuitamente - KDnuggets

Republicado por Platão

seguidores: 0

Como acessar e usar a API Gemini gratuitamente
Imagem do autor

Gemini é um novo modelo desenvolvido pelo Google e Bard está se tornando utilizável novamente. Com o Gemini, agora é possível obter respostas quase perfeitas às suas dúvidas, fornecendo-lhes imagens, áudio e texto.

Neste tutorial aprenderemos sobre a API Gemini e como configurá-la em sua máquina. Também exploraremos várias funções da API Python, incluindo geração de texto e compreensão de imagens.

Gemini é um novo modelo de IA desenvolvido através da colaboração entre equipes do Google, incluindo Google Research e Google DeepMind. Foi construído especificamente para ser multimodal, o que significa que pode compreender e trabalhar com diferentes tipos de dados como texto, código, áudio, imagens e vídeo.

Gemini é o maior e mais avançado modelo de IA desenvolvido pelo Google até hoje. Ele foi projetado para ser altamente flexível, de modo que possa operar com eficiência em uma ampla variedade de sistemas, desde data centers até dispositivos móveis. Isto significa que tem o potencial de revolucionar a forma como as empresas e os programadores podem construir e dimensionar aplicações de IA.

Aqui estão três versões do modelo Gemini projetadas para diferentes casos de uso:

Gêmeos Ultra: A maior e mais avançada IA capaz de realizar tarefas complexas.
Gêmeos Profissional: Um modelo balanceado que possui bom desempenho e escalabilidade.
Gêmeos Nano: Mais eficiente para dispositivos móveis.

Como acessar e usar a API Gemini gratuitamente
Imagem da Apresentando Gêmeos

O Gemini Ultra possui desempenho de última geração, superando o desempenho do GPT-4 em diversas métricas. É o primeiro modelo a superar os especialistas humanos no benchmark Massive Multitask Language Understanding, que testa o conhecimento mundial e a resolução de problemas em 57 assuntos diversos. Isso mostra sua compreensão avançada e capacidades de resolução de problemas.

Para usar a API, precisamos primeiro obter uma chave de API que você pode encontrar aqui: https://ai.google.dev/tutorials/setup

Como acessar e usar a API Gemini gratuitamente

Depois disso clique no botão “Obter uma chave de API” e a seguir clique em “Criar chave de API em novo projeto”.

Como acessar e usar a API Gemini gratuitamente

Copie a chave de API e defina-a como uma variável de ambiente. Estamos usando o Deepnote e é muito fácil definir a chave com o nome “GEMINI_API_KEY”. Basta ir até a integração, rolar para baixo e selecionar variáveis de ambiente.

Como acessar e usar a API Gemini gratuitamente

Na próxima etapa, instalaremos a API Python usando PIP:

pip install -q -U google-generativeai

Depois disso, definiremos a chave API para GenAI do Google e iniciaremos a instância.

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

Depois de configurar a chave API, usar o modelo Gemini Pro para gerar conteúdo é simples. Forneça um prompt para a função `generate_content` e exiba a saída como Markdown.

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

Isso é incrível, mas não concordo com a lista. No entanto, entendo que é tudo uma questão de preferência pessoal.

Como acessar e usar a API Gemini gratuitamente

O Gemini pode gerar múltiplas respostas, chamadas de candidatas, para um único prompt. Você pode selecionar o mais adequado. No nosso caso, tivemos apenas uma resposta.

response.candidates

Como acessar e usar a API Gemini gratuitamente

Vamos pedir para escrever um jogo simples em Python.

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

O resultado é simples e direto ao ponto. A maioria dos LLMs começa a explicar o código Python em vez de escrevê-lo.

Como acessar e usar a API Gemini gratuitamente

Você pode personalizar sua resposta usando o argumento `generation_config`. Estamos limitando a contagem de candidatos a 1, adicionando a palavra de parada “espaço” e definindo o máximo de tokens e temperatura.

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

Como você pode ver, a resposta parou antes da palavra “espaço”. Incrível.

Como acessar e usar a API Gemini gratuitamente

Você também pode usar o argumento `stream` para transmitir a resposta. É semelhante às APIs Anthropic e OpenAI, mas mais rápida.

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

Como acessar e usar a API Gemini gratuitamente

Nesta seção, carregaremos Masood Aslami foto e use-a para testar a multimodalidade do Gemini Pro Vision.

Carregue as imagens no `PIL` e exiba-as.

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

Temos uma foto em alta qualidade do Arco da Rua Augusta.

Como acessar e usar a API Gemini gratuitamente

Vamos carregar o modelo Gemini Pro Vision e fornecer a imagem.

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

A maquete identificou com precisão o palácio e forneceu informações adicionais sobre sua história e arquitetura.

Como acessar e usar a API Gemini gratuitamente

Vamos fornecer a mesma imagem ao GPT-4 e perguntar sobre a imagem. Ambos os modelos forneceram respostas quase semelhantes. Mas gosto mais da resposta do GPT-4.

Como acessar e usar a API Gemini gratuitamente

Agora forneceremos o texto e a imagem para a API. Pedimos ao modelo de visão que escrevesse um blog de viagens usando a imagem como referência.

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

Ele me forneceu um pequeno blog. Eu esperava um formato mais longo.

Como acessar e usar a API Gemini gratuitamente

Comparado ao GPT-4, o modelo Gemini Pro Vision tem lutado para gerar um blog de formato longo.

Como acessar e usar a API Gemini gratuitamente

Podemos configurar o modelo para ter uma sessão de bate-papo de ida e volta. Dessa forma, o modelo lembra o contexto e a resposta das conversas anteriores.

No nosso caso, iniciamos a sessão de chat e pedimos à modelo que me ajudasse a começar a jogar Dota 2.

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

Como você pode ver, o objeto `chat` está salvando o histórico do usuário e do modo chat.

Como acessar e usar a API Gemini gratuitamente

Como acessar e usar a API Gemini gratuitamente

Também podemos exibi-los em estilo Markdown.

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Como acessar e usar a API Gemini gratuitamente

Vamos fazer a pergunta de acompanhamento.

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Podemos rolar para baixo e ver toda a sessão com o modelo.

Como acessar e usar a API Gemini gratuitamente

Os modelos de incorporação estão se tornando cada vez mais populares para aplicações sensíveis ao contexto. O modelo Gemini embedding-001 permite que palavras, frases ou documentos inteiros sejam representados como vetores densos que codificam o significado semântico. Esta representação vetorial torna possível comparar facilmente a semelhança entre diferentes trechos de texto, comparando seus vetores de incorporação correspondentes.

Podemos fornecer o conteúdo para `embed_content` e converter o texto em embeddings. É tão simples.

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

Podemos converter vários pedaços de texto em embeddings passando uma lista de strings para o argumento ‘content’.

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

Se você estiver tendo problemas para reproduzir o mesmo resultado, confira meu Espaço de trabalho Deepnote.

Existem tantas funções avançadas que não abordamos neste tutorial introdutório. Você pode aprender mais sobre a API Gemini acessando o API Gemini: início rápido com Python.

Neste tutorial, aprendemos sobre o Gemini e como acessar a API Python para gerar respostas. Em particular, aprendemos sobre geração de texto, compreensão visual, streaming, histórico de conversas, saída personalizada e incorporações. No entanto, isso apenas arranha a superfície do que Gêmeos pode fazer.

Sinta-se à vontade para compartilhar comigo o que você construiu usando a API gratuita do Gemini. As possibilidades são ilimitadas.

Abid Ali Awan (@ 1abidaliawan) é um profissional de cientista de dados certificado que adora criar modelos de aprendizado de máquina. Atualmente, ele está se concentrando na criação de conteúdo e escrevendo blogs técnicos sobre tecnologias de aprendizado de máquina e ciência de dados. Abid é mestre em Gestão de Tecnologia e bacharel em Engenharia de Telecomunicações. Sua visão é construir um produto de IA usando uma rede neural gráfica para estudantes que lutam contra doenças mentais.