Comment accéder et utiliser l'API Gemini gratuitement - KDnuggets

Republié par Platon

Suiveurs: 0

Comment accéder et utiliser l'API Gemini gratuitement
Image par auteur

Gemini est un nouveau modèle développé par Google, et Bard redevient utilisable. Avec Gemini, il est désormais possible d'obtenir des réponses presque parfaites à vos requêtes en leur fournissant des images, de l'audio et du texte.

Dans ce tutoriel, nous découvrirons l'API Gemini et comment la configurer sur votre machine. Nous explorerons également diverses fonctions de l'API Python, notamment la génération de texte et la compréhension d'images.

GEMINI est un nouveau modèle d'IA développé grâce à la collaboration entre les équipes de Google, notamment Google Research et Google DeepMind. Il a été spécialement conçu pour être multimodal, ce qui signifie qu'il peut comprendre et travailler avec différents types de données comme le texte, le code, l'audio, les images et la vidéo.

Gemini est le modèle d'IA le plus avancé et le plus vaste développé par Google à ce jour. Il a été conçu pour être très flexible afin de pouvoir fonctionner efficacement sur une large gamme de systèmes, des centres de données aux appareils mobiles. Cela signifie qu’il a le potentiel de révolutionner la manière dont les entreprises et les développeurs peuvent créer et faire évoluer des applications d’IA.

Voici trois versions du modèle Gemini conçues pour différents cas d'utilisation :

Gémeaux Ultra : L'IA la plus grande et la plus avancée, capable d'effectuer des tâches complexes.
Gémeaux Pro : Un modèle équilibré qui offre de bonnes performances et évolutivité.
Gémeaux Nano : Le plus efficace pour les appareils mobiles.

Comment accéder et utiliser l'API Gemini gratuitement
Image de Présentation des Gémeaux

Gemini Ultra offre des performances de pointe, dépassant les performances de GPT-4 sur plusieurs paramètres. Il s’agit du premier modèle à surpasser les experts humains sur le benchmark Massive Multitask Language Understanding, qui teste les connaissances du monde et la résolution de problèmes dans 57 sujets divers. Cela met en valeur ses capacités avancées de compréhension et de résolution de problèmes.

Pour utiliser l'API, nous devons d'abord obtenir une clé API que vous pouvez accéder à partir d'ici : https://ai.google.dev/tutorials/setup.

Comment accéder et utiliser l'API Gemini gratuitement

Après cela, cliquez sur le bouton « Obtenir une clé API », puis cliquez sur « Créer une clé API dans un nouveau projet ».

Comment accéder et utiliser l'API Gemini gratuitement

Copiez la clé API et définissez-la comme variable d'environnement. Nous utilisons Deepnote et il nous est assez simple de définir la clé avec le nom « GEMINI_API_KEY ». Accédez simplement à l'intégration, faites défiler vers le bas et sélectionnez les variables d'environnement.

Comment accéder et utiliser l'API Gemini gratuitement

Dans la prochaine étape, nous installerons l'API Python à l'aide de PIP :

pip install -q -U google-generativeai

Après cela, nous définirons la clé API sur GenAI de Google et lancerons l’instance.

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

Après avoir configuré la clé API, utiliser le modèle Gemini Pro pour générer du contenu est simple. Fournissez une invite à la fonction `generate_content` et affichez le résultat sous forme de Markdown.

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

C'est incroyable, mais je ne suis pas d'accord avec la liste. Cependant, je comprends que tout est une question de préférence personnelle.

Comment accéder et utiliser l'API Gemini gratuitement

Gemini peut générer plusieurs réponses, appelées candidats, pour une seule invite. Vous pouvez sélectionner celui qui convient le mieux. Dans notre cas, nous n’avons eu qu’une seule réponse.

response.candidates

Comment accéder et utiliser l'API Gemini gratuitement

Demandons-lui d'écrire un jeu simple en Python.

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

Le résultat est simple et pertinent. La plupart des LLM commencent par expliquer le code Python au lieu de l'écrire.

Comment accéder et utiliser l'API Gemini gratuitement

Vous pouvez personnaliser votre réponse en utilisant l'argument `Generation_config`. Nous limitons le nombre de candidats à 1, ajoutons le mot vide « espace » et définissons le nombre maximum de jetons et la température.

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

Comme vous pouvez le constater, la réponse s'est arrêtée avant le mot « espace ». Incroyable.

Comment accéder et utiliser l'API Gemini gratuitement

Vous pouvez également utiliser l'argument `stream` pour diffuser la réponse. Elle est similaire aux API Anthropic et OpenAI mais plus rapide.

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

Comment accéder et utiliser l'API Gemini gratuitement

Dans cette section, nous chargerons Masood Aslami photo et utilisez-la pour tester la multimodalité de Gemini Pro Vision.

Chargez les images dans le `PIL` et affichez-le.

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

Nous avons une photo de haute qualité de l’arche de la Rua Augusta.

Comment accéder et utiliser l'API Gemini gratuitement

Chargeons le modèle Gemini Pro Vision et fournissons-lui l'image.

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

Le modèle identifiait avec précision le palais et fournissait des informations supplémentaires sur son histoire et son architecture.

Comment accéder et utiliser l'API Gemini gratuitement

Fournissons la même image au GPT-4 et lui posons des questions sur l'image. Les deux modèles ont fourni des réponses presque similaires. Mais j'aime davantage la réponse GPT-4.

Comment accéder et utiliser l'API Gemini gratuitement

Nous allons maintenant fournir le texte et l'image à l'API. Nous avons demandé au modèle de vision d'écrire un blog de voyage en utilisant l'image comme référence.

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

Cela m'a fourni un court blog. Je m'attendais à un format plus long.

Comment accéder et utiliser l'API Gemini gratuitement

Comparé à GPT-4, le modèle Gemini Pro Vision a eu du mal à générer un blog au format long.

Comment accéder et utiliser l'API Gemini gratuitement

Nous pouvons configurer le modèle pour avoir une session de discussion aller-retour. De cette façon, le modèle se souvient du contexte et de la réponse en utilisant les conversations précédentes.

Dans notre cas, nous avons démarré la session de chat et demandé au modèle de m'aider à démarrer avec le jeu Dota 2.

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

Comme vous pouvez le voir, l'objet `chat` enregistre l'historique de l'utilisateur et du mode chat.

Comment accéder et utiliser l'API Gemini gratuitement

Comment accéder et utiliser l'API Gemini gratuitement

Nous pouvons également les afficher dans un style Markdown.

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Comment accéder et utiliser l'API Gemini gratuitement

Posons la question complémentaire.

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Nous pouvons faire défiler vers le bas et voir toute la session avec le modèle.

Comment accéder et utiliser l'API Gemini gratuitement

Les modèles d'intégration sont de plus en plus populaires pour les applications contextuelles. Le modèle Gemini embedding-001 permet de représenter des mots, des phrases ou des documents entiers sous forme de vecteurs denses codant pour une signification sémantique. Cette représentation vectorielle permet de comparer facilement la similarité entre différents morceaux de texte en comparant leurs vecteurs d'incorporation correspondants.

Nous pouvons fournir le contenu à `embed_content` et convertir le texte en intégrations. C'est aussi simple que ça.

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

Nous pouvons convertir plusieurs morceaux de texte en intégrations en passant une liste de chaînes à l'argument « contenu ».

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

Si vous rencontrez des difficultés pour reproduire le même résultat, consultez mon Espace de travail Deepnote.

Il existe de nombreuses fonctions avancées que nous n’avons pas abordées dans ce didacticiel d’introduction. Vous pouvez en savoir plus sur l'API Gemini en accédant à la page API Gemini : démarrage rapide avec Python.

Dans ce didacticiel, nous avons découvert Gemini et comment accéder à l'API Python pour générer des réponses. En particulier, nous avons appris la génération de texte, la compréhension visuelle, le streaming, l'historique des conversations, la sortie personnalisée et l'intégration. Cependant, cela ne fait qu’effleurer la surface de ce que les Gémeaux peuvent faire.

N'hésitez pas à partager avec moi ce que vous avez construit à l'aide de l'API gratuite Gemini. Les possibilités sont illimitées.

Abid Ali Awan (@1abidaliawan) est un spécialiste des données certifié qui aime créer des modèles d'apprentissage automatique. Actuellement, il se concentre sur la création de contenu et la rédaction de blogs techniques sur les technologies d'apprentissage automatique et de science des données. Abid est titulaire d'une maîtrise en gestion de la technologie et d'un baccalauréat en génie des télécommunications. Sa vision est de créer un produit d'IA utilisant un réseau de neurones graphiques pour les étudiants aux prises avec une maladie mentale.