Как получить доступ к Gemini API и использовать его бесплатно - KDnuggets

Переиздано Платоном

Читают: 0

Как получить доступ и использовать Gemini API бесплатно
Изображение по автору

Gemini — это новая модель, разработанная Google, и Bard снова становится доступной для использования. С Gemini теперь можно получить практически точные ответы на ваши вопросы, предоставив им изображения, аудио и текст.

В этом уроке мы узнаем об API Gemini и о том, как его настроить на вашем компьютере. Мы также рассмотрим различные функции API Python, включая генерацию текста и понимание изображений.

Gemini — это новая модель искусственного интеллекта, разработанная в результате сотрудничества команд Google, включая Google Research и Google DeepMind. Он был создан специально как мультимодальный, то есть может понимать и работать с различными типами данных, такими как текст, код, аудио, изображения и видео.

Gemini — самая продвинутая и крупнейшая модель искусственного интеллекта, разработанная Google на сегодняшний день. Он был разработан как очень гибкий и может эффективно работать в широком спектре систем, от центров обработки данных до мобильных устройств. Это означает, что у него есть потенциал революционизировать способы, с помощью которых предприятия и разработчики могут создавать и масштабировать приложения искусственного интеллекта.

Вот три версии модели Gemini, предназначенные для разных случаев использования:

Близнецы Ультра: Самый крупный и продвинутый ИИ, способный выполнять сложные задачи.
Близнецы Про: Сбалансированная модель, обладающая хорошей производительностью и масштабируемостью.
Близнецы Нано: Наиболее эффективен для мобильных устройств.

Как получить доступ и использовать Gemini API бесплатно
Изображение из Представляем Близнецов

Gemini Ultra обладает высочайшей производительностью, превосходя производительность GPT-4 по нескольким показателям. Это первая модель, которая превзошла экспертов-людей в тесте «Многозадачное понимание языка», который проверяет мировые знания и умение решать проблемы по 57 различным предметам. Это демонстрирует его передовые возможности понимания и решения проблем.

Чтобы использовать API, нам необходимо сначала получить ключ API, который вы можете получить здесь: https://ai.google.dev/tutorials/setup.

Как получить доступ и использовать Gemini API бесплатно

После этого нажмите кнопку «Получить ключ API», а затем нажмите «Создать ключ API в новом проекте».

Как получить доступ и использовать Gemini API бесплатно

Скопируйте ключ API и установите его как переменную среды. Мы используем Deepnote, и нам довольно легко установить ключ с именем «GEMINI_API_KEY». Просто зайдите в интеграцию, прокрутите вниз и выберите переменные среды.

Как получить доступ и использовать Gemini API бесплатно

На следующем шаге мы установим API Python с помощью PIP:

pip install -q -U google-generativeai

После этого мы установим ключ API для Google GenAI и запустим экземпляр.

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

После настройки ключа API использование модели Gemini Pro для создания контента становится простым. Предоставьте запрос функции «generate_content» и отобразите результат в формате Markdown.

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

Это потрясающе, но я не согласен со списком. Однако я понимаю, что все зависит от личных предпочтений.

Как получить доступ и использовать Gemini API бесплатно

Gemini может генерировать несколько ответов, называемых кандидатами, на один запрос. Вы можете выбрать наиболее подходящий. В нашем случае у нас был только один ответ.

response.candidates

Как получить доступ и использовать Gemini API бесплатно

Попросим его написать простую игру на Python.

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

Результат прост и точен. Большинство студентов LLM начинают объяснять код Python, а не писать его.

Как получить доступ и использовать Gemini API бесплатно

Вы можете настроить свой ответ, используя аргумент «generation_config». Мы ограничиваем количество кандидатов до 1, добавляем стоп-слово «пространство» и устанавливаем максимальное количество жетонов и температуру.

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

Как видите, ответ остановился перед словом «пробел». Удивительный.

Как получить доступ и использовать Gemini API бесплатно

Вы также можете использовать аргумент `stream` для потоковой передачи ответа. Он похож на API Anthropic и OpenAI, но быстрее.

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

Как получить доступ и использовать Gemini API бесплатно

В этом разделе мы будем загружать Масуд Аслами фото и используйте его для проверки мультимодальности Gemini Pro Vision.

Загрузите изображения в PIL и отобразите их.

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

У нас есть высококачественная фотография арки Руа Аугуста.

Как получить доступ и использовать Gemini API бесплатно

Давайте загрузим модель Gemini Pro Vision и предоставим ей изображение.

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

Модель точно идентифицировала дворец и предоставила дополнительную информацию о его истории и архитектуре.

Как получить доступ и использовать Gemini API бесплатно

Давайте предоставим то же изображение GPT-4 и спросим его об изображении. Обе модели дали почти одинаковые ответы. Но мне больше нравится ответ GPT-4.

Как получить доступ и использовать Gemini API бесплатно

Теперь мы предоставим текст и изображение в API. Мы попросили модель видения написать блог о путешествиях, используя это изображение в качестве образца.

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

Он предоставил мне короткий блог. Я ожидал более длинного формата.

Как получить доступ и использовать Gemini API бесплатно

По сравнению с GPT-4, модель Gemini Pro Vision с трудом создает блог длинного формата.

Как получить доступ и использовать Gemini API бесплатно

Мы можем настроить модель на двусторонний чат. Таким образом, модель запоминает контекст и реакцию предыдущих разговоров.

В нашем случае мы начали чат и попросили модель помочь мне начать игру в Dota 2.

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

Как видите, объект «чат» сохраняет историю пользователя и режим чата.

Как получить доступ и использовать Gemini API бесплатно

Как получить доступ и использовать Gemini API бесплатно

Мы также можем отобразить их в стиле Markdown.

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Как получить доступ и использовать Gemini API бесплатно

Давайте зададим уточняющий вопрос.

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Мы можем прокрутить вниз и увидеть весь сеанс с моделью.

Как получить доступ и использовать Gemini API бесплатно

Модели внедрения становятся все более популярными для контекстно-зависимых приложений. Модель Gemini embedding-001 позволяет представлять слова, предложения или целые документы в виде плотных векторов, кодирующих семантическое значение. Это векторное представление позволяет легко сравнивать сходство между различными фрагментами текста путем сравнения их соответствующих векторов внедрения.

Мы можем предоставить контент для embed_content и преобразовать текст во встраивания. Это так просто.

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

Мы можем преобразовать несколько фрагментов текста во встраивания, передав список строк в аргумент «контент».

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

Если у вас возникли проблемы с воспроизведением того же результата, ознакомьтесь с моим Рабочая область Deepnote.

Существует так много дополнительных функций, которые мы не рассмотрели в этом вводном руководстве. Вы можете узнать больше об API Gemini, перейдя на Gemini API: быстрый старт с Python.

В этом уроке мы узнали о Gemini и о том, как получить доступ к API Python для генерации ответов. В частности, мы узнали о генерации текста, визуальном понимании, потоковой передаче, истории разговоров, настраиваемом выводе и встраивании. Однако это лишь малая часть того, на что способны Близнецы.

Не стесняйтесь поделиться со мной тем, что вы создали с помощью бесплатного API Gemini. Возможности безграничны.

Абид Али Аван (@ 1abidaliawan) — сертифицированный специалист по анализу данных, который любит создавать модели машинного обучения. В настоящее время он занимается созданием контента и ведением технических блогов по технологиям машинного обучения и обработки данных. Абид имеет степень магистра в области управления технологиями и степень бакалавра в области телекоммуникаций. Его видение состоит в том, чтобы создать продукт искусственного интеллекта с использованием графовой нейронной сети для студентов, борющихся с психическими заболеваниями.