Як безкоштовно отримати доступ і використовувати Gemini API - KDnuggets

Перевидано Платоном

читають: 0

Як безкоштовно отримати доступ і використовувати Gemini API
Зображення автора

Gemini — це нова модель, розроблена Google, і Bard знову стає доступною для використання. З Gemini тепер можна отримати майже ідеальні відповіді на ваші запити, надаючи їм зображення, аудіо та текст.

У цьому підручнику ми дізнаємося про Gemini API і як налаштувати його на вашій машині. Ми також вивчимо різні функції Python API, включаючи генерацію тексту та розуміння зображень.

Близнюки це нова модель штучного інтелекту, розроблена завдяки співпраці між командами Google, зокрема Google Research і Google DeepMind. Його було створено спеціально для мультимодального режиму, тобто він може розуміти та працювати з різними типами даних, такими як текст, код, аудіо, зображення та відео.

Gemini — це найдосконаліша та найбільша модель ШІ, розроблена Google на сьогодні. Він був розроблений як дуже гнучкий, щоб він міг ефективно працювати в широкому діапазоні систем, від центрів обробки даних до мобільних пристроїв. Це означає, що він має потенціал революціонізувати спосіб, за допомогою якого компанії та розробники можуть створювати та масштабувати програми ШІ.

Ось три версії моделі Gemini, розроблені для різних випадків використання:

Gemini Ultra: Найбільший і найдосконаліший ШІ, здатний виконувати складні завдання.
GeminiPro: Збалансована модель, яка має хорошу продуктивність і масштабованість.
Gemini Nano: Найбільш ефективний для мобільних пристроїв.

Як безкоштовно отримати доступ і використовувати Gemini API
Зображення з Знайомство з Близнюками

Gemini Ultra має сучасну продуктивність, що перевищує продуктивність GPT-4 за кількома показниками. Це перша модель, яка перевершує експертів-людей у тесті Massive Multitask Language Understanding, який перевіряє знання світу та вирішення проблем у 57 різних предметах. Це демонструє його передові можливості розуміння та вирішення проблем.

Щоб використовувати API, ми маємо спочатку отримати ключ API, який ви можете звідси: https://ai.google.dev/tutorials/setup

Як безкоштовно отримати доступ і використовувати Gemini API

Після цього натисніть кнопку «Отримати ключ API», а потім натисніть «Створити ключ API в новому проекті».

Як безкоштовно отримати доступ і використовувати Gemini API

Скопіюйте ключ API та встановіть його як змінну середовища. Ми використовуємо Deepnote, і нам досить легко встановити ключ із назвою «GEMINI_API_KEY». Просто перейдіть до інтеграції, прокрутіть вниз і виберіть змінні середовища.

Як безкоштовно отримати доступ і використовувати Gemini API

На наступному кроці ми встановимо API Python за допомогою PIP:

pip install -q -U google-generativeai

Після цього ми встановимо ключ API для GenAI Google і запустимо екземпляр.

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

Після налаштування ключа API використання моделі Gemini Pro для створення вмісту стає простим. Надайте підказку функції `generate_content` і відобразіть результат як Markdown.

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

Це дивно, але я не погоджуюся зі списком. Однак я розумію, що все залежить від особистих переваг.

Як безкоштовно отримати доступ і використовувати Gemini API

Gemini може генерувати кілька відповідей, які називаються кандидатами, на одну підказку. Ви можете вибрати найбільш підходящий. У нашому випадку у нас була лише одна відповідь.

response.candidates

Як безкоштовно отримати доступ і використовувати Gemini API

Давайте попросимо його написати просту гру на Python.

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

Результат простий і по суті. Більшість LLM починають пояснювати код Python замість того, щоб писати його.

Як безкоштовно отримати доступ і використовувати Gemini API

Ви можете налаштувати свою відповідь за допомогою аргументу `generation_config`. Ми обмежуємо кількість кандидатів до 1, додаємо стоп-слово «пробіл» і встановлюємо максимальну кількість маркерів і температуру.

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

Як бачимо, відповідь зупинилася перед словом «пробіл». Дивовижний.

Як безкоштовно отримати доступ і використовувати Gemini API

Ви також можете використовувати аргумент `потік` для потокової передачі відповіді. Він схожий на API Anthropic і OpenAI, але швидший.

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

Як безкоштовно отримати доступ і використовувати Gemini API

У цьому розділі ми будемо завантажувати Масуда Асламі фотографію та використовуйте її, щоб перевірити мультимодальність Gemini Pro Vision.

Завантажте зображення в `PIL` і відобразіть його.

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

У нас є високоякісна фотографія Rua Augusta Arch.

Як безкоштовно отримати доступ і використовувати Gemini API

Давайте завантажимо модель Gemini Pro Vision і надамо їй зображення.

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

Макет точно ідентифікував палац і надав додаткову інформацію про його історію та архітектуру.

Як безкоштовно отримати доступ і використовувати Gemini API

Давайте надамо те саме зображення GPT-4 і запитаємо його про зображення. Обидві моделі дали майже однакові відповіді. Але мені більше подобається відповідь GPT-4.

Як безкоштовно отримати доступ і використовувати Gemini API

Тепер ми надамо текст і зображення API. Ми попросили модель бачення написати блог про подорожі, використовуючи зображення як посилання.

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

Він надав мені короткий блог. Я очікував довшого формату.

Як безкоштовно отримати доступ і використовувати Gemini API

У порівнянні з GPT-4 моделі Gemini Pro Vision було складно створити довгоформатний блог.

Як безкоштовно отримати доступ і використовувати Gemini API

Ми можемо налаштувати модель для сеансу зворотнього чату. Таким чином, модель запам’ятовує контекст і відповідь, використовуючи попередні розмови.

У нашому випадку ми розпочали сеанс чату та попросили модель допомогти мені почати роботу з грою Dota 2.

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

Як бачите, об’єкт `chat` зберігає історію користувача та режиму чату.

Як безкоштовно отримати доступ і використовувати Gemini API

Як безкоштовно отримати доступ і використовувати Gemini API

Ми також можемо відобразити їх у стилі Markdown.

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Як безкоштовно отримати доступ і використовувати Gemini API

Давайте поставимо наступне запитання.

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Ми можемо прокрутити вниз і переглянути весь сеанс із моделлю.

Як безкоштовно отримати доступ і використовувати Gemini API

Моделі вбудовування стають все більш популярними для контекстно-орієнтованих програм. Модель Gemini embedding-001 дозволяє представляти слова, речення або цілі документи у вигляді щільних векторів, які кодують семантичне значення. Це векторне представлення дає змогу легко порівнювати подібність між різними фрагментами тексту шляхом порівняння їхніх відповідних векторів вбудовування.

Ми можемо надати вміст у `embed_content` і перетворити текст на вбудовування. Це так просто.

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

Ми можемо перетворити кілька фрагментів тексту на вбудовування, передавши список рядків аргументу «content».

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

Якщо у вас виникли проблеми з відтворенням того самого результату, перегляньте мій Робоча область Deepnote.

Існує так багато розширених функцій, які ми не розглянули в цьому вступному посібнику. Ви можете дізнатися більше про Gemini API, перейшовши на API Gemini: швидкий початок роботи з Python.

У цьому посібнику ми дізналися про Gemini та про те, як отримати доступ до API Python для створення відповідей. Зокрема, ми дізналися про генерацію тексту, візуальне розуміння, потокове передавання, історію розмов, користувацький вихід і вбудовування. Однак це лише поверхня того, що можуть зробити Близнюки.

Не соромтеся поділитися зі мною тим, що ви створили за допомогою безкоштовного Gemini API. Можливості безмежні.

Абід Алі Аван (@1abidaliawan) є сертифікованим фахівцем із дослідження даних, який любить створювати моделі машинного навчання. Зараз він зосереджується на створенні контенту та написанні технічних блогів про технології машинного навчання та науки про дані. Абід має ступінь магістра з управління технологіями та ступінь бакалавра в галузі телекомунікаційної інженерії. Його бачення полягає в тому, щоб створити продукт AI з використанням нейронної мережі графа для студентів, які борються з психічними захворюваннями.