無料で Gemini API にアクセスして使用する方法 - KDnuggets

プラトン再発行

フォロワー： 0

Gemini API に無料でアクセスして使用する方法
著者による画像

Gemini は Google が開発した新しいモデルで、Bard も再び使えるようになりました。 Gemini を使用すると、画像、音声、テキストを提供することで、クエリに対してほぼ完璧な回答を得ることができるようになりました。

このチュートリアルでは、Gemini API とそれをマシン上で設定する方法について学びます。また、テキスト生成や画像理解など、さまざまな Python API 関数についても学習します。

双子座は、Google Research や Google DeepMind を含む Google のチーム間のコラボレーションを通じて開発された新しい AI モデルです。これは、特にマルチモーダルになるように構築されており、テキスト、コード、オーディオ、画像、ビデオなどのさまざまな種類のデータを理解し、操作できることを意味します。

Gemini は、Google がこれまでに開発した最も先進的かつ最大の AI モデルです。データセンターからモバイルデバイスに至るまで、幅広いシステムで効率的に動作できるよう、柔軟性が高いように設計されています。これは、企業や開発者が AI アプリケーションを構築および拡張する方法に革命をもたらす可能性があることを意味します。

さまざまなユースケース向けに設計された Gemini モデルの XNUMX つのバージョンを次に示します。

ジェミニウルトラ： 複雑なタスクを実行できる最大かつ最先端の AI。
ジェミニプロ: パフォーマンスと拡張性を兼ね備えたバランスのとれたモデル。
ジェミニナノ: モバイルデバイスにとって最も効率的です。

Gemini API に無料でアクセスして使用する方法
Image from ジェミニのご紹介

Gemini Ultra は最先端のパフォーマンスを備えており、いくつかの指標で GPT-4 のパフォーマンスを上回っています。これは、57 の多様な主題にわたって世界の知識と問題解決をテストする大規模マルチタスク言語理解ベンチマークで人間の専門家を上回るパフォーマンスを示した最初のモデルです。これは、その高度な理解力と問題解決能力を示しています。

API を使用するには、まず API キーを取得する必要があります。このキーは https://ai.google.dev/tutorials/setup から取得できます。

Gemini API に無料でアクセスして使用する方法

その後、「API キーを取得」ボタンをクリックし、「新しいプロジェクトで API キーを作成」をクリックします。

Gemini API に無料でアクセスして使用する方法

API キーをコピーし、環境変数として設定します。ここでは Deepnote を使用しており、「GEMINI_API_KEY」という名前のキーを設定するのは非常に簡単です。統合に移動し、下にスクロールして環境変数を選択するだけです。

Gemini API に無料でアクセスして使用する方法

次のステップでは、PIP を使用して Python API をインストールします。

pip install -q -U google-generativeai

その後、GoogleのGenAIにAPIキーを設定してインスタンスを起動します。

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

API キーを設定した後、Gemini Pro モデルを使用してコンテンツを生成するのは簡単です。 `generate_content` 関数にプロンプトを提供し、出力を Markdown として表示します。

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

これは驚くべきことですが、私はこのリストには同意しません。ただし、それはすべて個人の好みによるものであることは理解しています。

Gemini API に無料でアクセスして使用する方法

Gemini は、XNUMX つのプロンプトに対して候補と呼ばれる複数の応答を生成できます。最適なものをお選びいただけます。私たちの場合、応答は XNUMX つだけでした。

response.candidates

Gemini API に無料でアクセスして使用する方法

Python で簡単なゲームを作成するように依頼してみましょう。

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

結果はシンプルかつ要点を絞ったものです。ほとんどの LLM は、Python コードを記述するのではなく、そのコードについて説明し始めます。

Gemini API に無料でアクセスして使用する方法

`generation_config` 引数を使用して応答をカスタマイズできます。候補数を 1 に制限し、ストップワード「スペース」を追加し、最大トークンと温度を設定します。

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

ご覧のとおり、「スペース」という単語の手前で応答が停止しました。すばらしい。

Gemini API に無料でアクセスして使用する方法

`stream` 引数を使用して応答をストリーミングすることもできます。 Anthropic API や OpenAI API に似ていますが、より高速です。

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

Gemini API に無料でアクセスして使用する方法

このセクションでは、マスード・アスラミさん写真を作成し、それを使用して Gemini Pro Vision のマルチモダリティをテストします。

画像を「PIL」にロードして表示します。

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

アウグスタ通りのアーチの高品質の写真があります。

Gemini API に無料でアクセスして使用する方法

Gemini Pro Vision モデルをロードし、画像を提供しましょう。

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

モデルは宮殿を正確に特定し、その歴史と建築に関する追加情報を提供しました。

Gemini API に無料でアクセスして使用する方法

同じ画像を GPT-4 に提供して、その画像について尋ねてみましょう。どちらのモデルでもほぼ同様の答えが得られました。しかし、私は GPT-4 のレスポンスの方が好きです。

Gemini API に無料でアクセスして使用する方法

次に、テキストと画像を API に提供します。ビジョンモデルさんに画像を参考に旅行ブログを書いてもらいました。

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

短いブログを提供していただきました。もっと長い形式を期待していました。

Gemini API に無料でアクセスして使用する方法

GPT-4 と比較すると、Gemini Pro Vision モデルは長い形式のブログを生成するのに苦労しています。

Gemini API に無料でアクセスして使用する方法

往復のチャットセッションを行うようにモデルをセットアップできます。このようにして、モデルは以前の会話を使用してコンテキストと応答を記憶します。

私たちの場合、チャットセッションを開始し、モデルに Dota 2 ゲームを始めるのを手伝ってくれるよう依頼しました。

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

ご覧のとおり、`chat` オブジェクトはユーザーとモードのチャットの履歴を保存しています。

Gemini API に無料でアクセスして使用する方法

Gemini API に無料でアクセスして使用する方法

Markdown スタイルで表示することもできます。

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Gemini API に無料でアクセスして使用する方法

追加の質問をしてみましょう。

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

下にスクロールすると、モデルとのセッション全体が表示されます。

Gemini API に無料でアクセスして使用する方法

埋め込みモデルは、コンテキスト認識アプリケーションでますます人気が高まっています。 Gemini embedding-001 モデルを使用すると、単語、文、またはドキュメント全体を、意味論的な意味をエンコードする密なベクトルとして表現できます。このベクトル表現により、対応する埋め込みベクトルを比較することで、異なるテキスト間の類似性を簡単に比較することができます。

コンテンツを「embed_content」に提供し、テキストを埋め込みに変換できます。それはとても簡単です。

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

文字列のリストを「content」引数に渡すことで、テキストの複数のチャンクを埋め込みに変換できます。

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

同じ結果を再現するのに問題がある場合は、私の記事をチェックしてください。ディープノートワークスペース.

この入門チュートリアルでは説明しなかった高度な機能がたくさんあります。 Gemini API について詳しくは、次のリンクを参照してください。 Gemini API: Python のクイックスタート.

このチュートリアルでは、Gemini についてと、Python API にアクセスして応答を生成する方法を学びました。特に、テキストの生成、視覚的な理解、ストリーミング、会話履歴、カスタム出力、埋め込みについて学びました。ただし、これは双子座ができることのほんの表面をなぞっただけです。

無料の Gemini API を使用して構築したものを私と自由に共有してください。可能性は無限大です。

アビッド・アリ・アワン (@ 1abidaliawan）は、機械学習モデルの構築を愛する認定データサイエンティストの専門家です。現在、彼はコンテンツの作成と、機械学習とデータサイエンステクノロジーに関する技術ブログの執筆に注力しています。 Abidは、技術管理の修士号と電気通信工学の学士号を取得しています。彼のビジョンは、精神疾患に苦しんでいる学生のためにグラフニューラルネットワークを使用してAI製品を構築することです。