Cómo acceder y utilizar la API Gemini de forma gratuita - KDnuggets

Reeditado por Platón

seguidores: 0

Cómo acceder y utilizar la API de Gemini de forma gratuita
Imagen del autor

Gemini es un nuevo modelo desarrollado por Google y Bard vuelve a ser utilizable. Con Gemini, ahora es posible obtener respuestas casi perfectas a sus consultas proporcionándoles imágenes, audio y texto.

En este tutorial, aprenderemos sobre la API de Gemini y cómo configurarla en su máquina. También exploraremos varias funciones de la API de Python, incluida la generación de texto y la comprensión de imágenes.

Gemini es un nuevo modelo de IA desarrollado mediante la colaboración entre equipos de Google, incluidos Google Research y Google DeepMind. Fue creado específicamente para ser multimodal, lo que significa que puede comprender y trabajar con diferentes tipos de datos como texto, código, audio, imágenes y video.

Gemini es el modelo de IA más grande y avanzado desarrollado por Google hasta la fecha. Ha sido diseñado para ser altamente flexible y poder operar de manera eficiente en una amplia gama de sistemas, desde centros de datos hasta dispositivos móviles. Esto significa que tiene el potencial de revolucionar la forma en que las empresas y los desarrolladores pueden crear y escalar aplicaciones de IA.

Aquí hay tres versiones del modelo Gemini diseñadas para diferentes casos de uso:

Géminis Ultra: La IA más grande y avanzada capaz de realizar tareas complejas.
Géminis profesional: Un modelo equilibrado que tiene buen rendimiento y escalabilidad.
Géminis Nano: Más eficiente para dispositivos móviles.

Cómo acceder y utilizar la API de Gemini de forma gratuita
Imagen de Presentando a Géminis

Gemini Ultra tiene un rendimiento de última generación, superando el rendimiento de GPT-4 en varias métricas. Es el primer modelo que supera a los expertos humanos en el punto de referencia Massive Multitask Language Understanding, que evalúa el conocimiento mundial y la resolución de problemas en 57 temas diversos. Esto muestra su comprensión avanzada y capacidades de resolución de problemas.

Para utilizar la API, primero debemos obtener una clave API que puede obtener desde aquí: https://ai.google.dev/tutorials/setup

Cómo acceder y utilizar la API de Gemini de forma gratuita

Después de eso, haga clic en el botón "Obtener una clave API" y luego haga clic en "Crear clave API en un nuevo proyecto".

Cómo acceder y utilizar la API de Gemini de forma gratuita

Copie la clave API y configúrela como una variable de entorno. Estamos usando Deepnote y nos resulta bastante fácil configurar la clave con el nombre "GEMINI_API_KEY". Simplemente vaya a la integración, desplácese hacia abajo y seleccione las variables de entorno.

Cómo acceder y utilizar la API de Gemini de forma gratuita

En el siguiente paso, instalaremos la API de Python usando PIP:

pip install -q -U google-generativeai

Después de eso, configuraremos la clave API en GenAI de Google e iniciaremos la instancia.

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

Después de configurar la clave API, usar el modelo Gemini Pro para generar contenido es simple. Proporcione un mensaje a la función `generate_content` y muestre el resultado como Markdown.

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

Esto es asombroso, pero no estoy de acuerdo con la lista. Sin embargo, entiendo que se trata de preferencias personales.

Cómo acceder y utilizar la API de Gemini de forma gratuita

Gemini puede generar múltiples respuestas, llamadas candidatas, para un solo mensaje. Puedes seleccionar el más adecuado. En nuestro caso, solo tuvimos una respuesta.

response.candidates

Cómo acceder y utilizar la API de Gemini de forma gratuita

Pidámosle que escriba un juego sencillo en Python.

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

El resultado es simple y va al grano. La mayoría de los LLM comienzan a explicar el código Python en lugar de escribirlo.

Cómo acceder y utilizar la API de Gemini de forma gratuita

Puedes personalizar tu respuesta usando el argumento `generación_config`. Estamos limitando el recuento de candidatos a 1, agregando la palabra vacía "espacio" y estableciendo tokens y temperatura máximos.

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

Como puede ver, la respuesta se detuvo antes de la palabra "espacio". Asombroso.

Cómo acceder y utilizar la API de Gemini de forma gratuita

También puede utilizar el argumento `stream` para transmitir la respuesta. Es similar a las API Anthropic y OpenAI pero más rápida.

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

Cómo acceder y utilizar la API de Gemini de forma gratuita

En esta sección cargaremos Masood Aslami foto y úsala para probar la multimodalidad de Gemini Pro Vision.

Cargue las imágenes en el `PIL` y muéstrelas.

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

Tenemos una foto de alta calidad del Arco de Rua Augusta.

Cómo acceder y utilizar la API de Gemini de forma gratuita

Carguemos el modelo Gemini Pro Vision y proporcionemos la imagen.

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

El modelo identificó con precisión el palacio y proporcionó información adicional sobre su historia y arquitectura.

Cómo acceder y utilizar la API de Gemini de forma gratuita

Proporcionemos la misma imagen al GPT-4 y pregúntele sobre la imagen. Ambos modelos han proporcionado respuestas casi similares. Pero me gusta más la respuesta del GPT-4.

Cómo acceder y utilizar la API de Gemini de forma gratuita

Ahora proporcionaremos el texto y la imagen a la API. Le hemos pedido al modelo de visión que escriba un blog de viajes utilizando la imagen como referencia.

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

Me ha proporcionado un breve blog. Esperaba un formato más largo.

Cómo acceder y utilizar la API de Gemini de forma gratuita

En comparación con GPT-4, el modelo Gemini Pro Vision ha tenido dificultades para generar un blog de formato largo.

Cómo acceder y utilizar la API de Gemini de forma gratuita

Podemos configurar el modelo para que tenga una sesión de chat de ida y vuelta. De esta forma, el modelo recuerda el contexto y la respuesta utilizando las conversaciones anteriores.

En nuestro caso, iniciamos la sesión de chat y le pedimos al modelo que me ayudara a comenzar con el juego Dota 2.

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

Como puede ver, el objeto `chat` guarda el historial del usuario y el modo chat.

Cómo acceder y utilizar la API de Gemini de forma gratuita

Cómo acceder y utilizar la API de Gemini de forma gratuita

También podemos mostrarlos en estilo Markdown.

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Cómo acceder y utilizar la API de Gemini de forma gratuita

Hagamos la pregunta de seguimiento.

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Podemos desplazarnos hacia abajo y ver la sesión completa con el modelo.

Cómo acceder y utilizar la API de Gemini de forma gratuita

Los modelos de incrustación se están volviendo cada vez más populares para aplicaciones sensibles al contexto. El modelo Gemini embedding-001 permite representar palabras, oraciones o documentos completos como vectores densos que codifican significado semántico. Esta representación vectorial hace posible comparar fácilmente la similitud entre diferentes fragmentos de texto comparando sus correspondientes vectores de incrustación.

Podemos proporcionar el contenido a `embed_content` y convertir el texto en incrustaciones. Es así de simple.

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

Podemos convertir varios fragmentos de texto en incrustaciones pasando una lista de cadenas al argumento "contenido".

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

Si tienes problemas para reproducir el mismo resultado, consulta mi Espacio de trabajo de notas profundas.

Hay tantas funciones avanzadas que no cubrimos en este tutorial introductorio. Puede obtener más información sobre la API de Gemini yendo a API de Gemini: inicio rápido con Python.

En este tutorial, aprendimos sobre Gemini y cómo acceder a la API de Python para generar respuestas. En particular, hemos aprendido sobre generación de texto, comprensión visual, transmisión, historial de conversaciones, salida personalizada e incrustaciones. Sin embargo, esto sólo roza la superficie de lo que Géminis puede hacer.

No dudes en compartir conmigo lo que has creado utilizando la API gratuita de Gemini. Las posibilidades son ilimitadas.

Abid Ali Awan (@ 1abidaliawan) es un profesional científico de datos certificado al que le encanta crear modelos de aprendizaje automático. Actualmente, se está enfocando en la creación de contenido y escribiendo blogs técnicos sobre aprendizaje automático y tecnologías de ciencia de datos. Abid tiene una Maestría en Gestión de Tecnología y una licenciatura en Ingeniería de Telecomunicaciones. Su visión es construir un producto de IA utilizando una red neuronal gráfica para estudiantes que luchan contra enfermedades mentales.