Cách truy cập và sử dụng API Gemini miễn phí - KDnuggets

Được xuất bản lại bởi Plato

Người theo dõi: 0

Cách truy cập và sử dụng API Gemini miễn phí
Hình ảnh của Tác giả

Gemini là một mô hình mới được phát triển bởi Google và Bard đang có thể sử dụng được trở lại. Với Gemini, giờ đây bạn có thể nhận được câu trả lời gần như hoàn hảo cho các truy vấn của mình bằng cách cung cấp cho chúng hình ảnh, âm thanh và văn bản.

Trong hướng dẫn này, chúng ta sẽ tìm hiểu về API Gemini và cách thiết lập nó trên máy của bạn. Chúng ta cũng sẽ khám phá các hàm API Python khác nhau, bao gồm tạo văn bản và hiểu hình ảnh.

Gemini là một mô hình AI mới được phát triển thông qua sự hợp tác giữa các nhóm tại Google, bao gồm Google Research và Google DeepMind. Nó được xây dựng đặc biệt để có tính đa phương thức, nghĩa là nó có thể hiểu và hoạt động với các loại dữ liệu khác nhau như văn bản, mã, âm thanh, hình ảnh và video.

Gemini là mô hình AI tiên tiến nhất và lớn nhất được Google phát triển tính đến thời điểm hiện tại. Nó được thiết kế có tính linh hoạt cao để có thể hoạt động hiệu quả trên nhiều hệ thống, từ trung tâm dữ liệu đến thiết bị di động. Điều này có nghĩa là nó có tiềm năng cách mạng hóa cách thức mà các doanh nghiệp và nhà phát triển có thể xây dựng và mở rộng quy mô ứng dụng AI.

Dưới đây là ba phiên bản của mô hình Gemini được thiết kế cho các trường hợp sử dụng khác nhau:

Song Tử Siêu: AI lớn nhất và tiên tiến nhất có khả năng thực hiện các nhiệm vụ phức tạp.
Song Tử chuyên nghiệp: Một mô hình cân bằng có hiệu suất tốt và khả năng mở rộng.
Nano Song Tử: Hiệu quả nhất cho thiết bị di động.

Cách truy cập và sử dụng API Gemini miễn phí
Hình ảnh từ Giới thiệu Song Tử

Gemini Ultra có hiệu suất vượt trội, vượt trội so với hiệu suất của GPT-4 trên một số chỉ số. Đây là mô hình đầu tiên vượt trội hơn các chuyên gia con người về tiêu chuẩn Hiểu ngôn ngữ đa nhiệm quy mô lớn, kiểm tra kiến thức thế giới và khả năng giải quyết vấn đề trên 57 chủ đề khác nhau. Điều này thể hiện khả năng hiểu biết và giải quyết vấn đề nâng cao của nó.

Để sử dụng API, trước tiên chúng tôi phải lấy khóa API mà bạn có thể lấy từ đây: https://ai.google.dev/tutorials/setup

Cách truy cập và sử dụng API Gemini miễn phí

Sau đó, nhấp vào nút “Nhận khóa API” và sau đó nhấp vào “Tạo khóa API trong dự án mới”.

Cách truy cập và sử dụng API Gemini miễn phí

Sao chép khóa API và đặt nó làm biến môi trường. Chúng tôi đang sử dụng Deepnote và khá dễ dàng để chúng tôi đặt khóa có tên “GEMINI_API_KEY”. Chỉ cần vào phần tích hợp, cuộn xuống và chọn các biến môi trường.

Cách truy cập và sử dụng API Gemini miễn phí

Trong bước tiếp theo, chúng tôi sẽ cài đặt API Python bằng PIP:

pip install -q -U google-generativeai

Sau đó, chúng tôi sẽ đặt khóa API thành GenAI của Google và khởi tạo phiên bản.

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

Sau khi thiết lập khóa API, việc sử dụng mô hình Gemini Pro để tạo nội dung rất đơn giản. Đưa ra lời nhắc cho hàm `generate_content` và hiển thị kết quả đầu ra dưới dạng Markdown.

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

Điều này thật tuyệt vời, nhưng tôi không đồng ý với danh sách này. Tuy nhiên, tôi hiểu rằng tất cả chỉ là sở thích cá nhân.

Cách truy cập và sử dụng API Gemini miễn phí

Song Tử có thể tạo ra nhiều câu trả lời, được gọi là ứng viên, cho một lời nhắc duy nhất. Bạn có thể chọn một trong những phù hợp nhất. Trong trường hợp của chúng tôi, chúng tôi chỉ có một câu trả lời.

response.candidates

Cách truy cập và sử dụng API Gemini miễn phí

Hãy yêu cầu nó viết một trò chơi đơn giản bằng Python.

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

Kết quả là đơn giản và chính xác. Hầu hết các LLM bắt đầu giải thích mã Python thay vì viết nó.

Cách truy cập và sử dụng API Gemini miễn phí

Bạn có thể tùy chỉnh phản hồi của mình bằng cách sử dụng đối số `Gen_config`. Chúng tôi đang giới hạn số lượng ứng cử viên ở mức 1, thêm từ dừng “khoảng trắng” và đặt mã thông báo cũng như nhiệt độ tối đa.

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

Như bạn có thể thấy, phản hồi đã dừng trước từ “space”. Tuyệt vời.

Cách truy cập và sử dụng API Gemini miễn phí

Bạn cũng có thể sử dụng đối số `stream` để truyền phát phản hồi. Nó tương tự như API Anthropic và OpenAI nhưng nhanh hơn.

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

Cách truy cập và sử dụng API Gemini miễn phí

Trong phần này chúng ta sẽ tải Masood Aslami's ảnh và sử dụng nó để kiểm tra tính đa phương thức của Gemini Pro Vision.

Tải hình ảnh vào `PIL` và hiển thị nó.

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

Chúng tôi có một bức ảnh chất lượng cao về Rua Augusta Arch.

Cách truy cập và sử dụng API Gemini miễn phí

Hãy tải mô hình Gemini Pro Vision và cung cấp hình ảnh cho nó.

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

Mô hình đã xác định chính xác cung điện và cung cấp thêm thông tin về lịch sử cũng như kiến trúc của nó.

Cách truy cập và sử dụng API Gemini miễn phí

Hãy cung cấp hình ảnh tương tự cho GPT-4 và hỏi nó về hình ảnh. Cả hai mô hình đều đưa ra những câu trả lời gần như giống nhau. Nhưng tôi thích phản hồi của GPT-4 hơn.

Cách truy cập và sử dụng API Gemini miễn phí

Bây giờ chúng tôi sẽ cung cấp văn bản và hình ảnh cho API. Chúng tôi đã yêu cầu người mẫu tầm nhìn viết một blog du lịch bằng cách sử dụng hình ảnh làm tài liệu tham khảo.

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

Nó đã cung cấp cho tôi một blog ngắn. Tôi đã mong đợi định dạng dài hơn.

Cách truy cập và sử dụng API Gemini miễn phí

So với GPT-4, mô hình Gemini Pro Vision đã gặp khó khăn trong việc tạo ra một blog có định dạng dài.

Cách truy cập và sử dụng API Gemini miễn phí

Chúng ta có thể thiết lập mô hình để có phiên trò chuyện qua lại. Bằng cách này, mô hình ghi nhớ bối cảnh và phản hồi bằng cách sử dụng các cuộc hội thoại trước đó.

Trong trường hợp của chúng tôi, chúng tôi đã bắt đầu phiên trò chuyện và yêu cầu người mẫu giúp tôi bắt đầu với trò chơi Dota 2.

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

Như bạn có thể thấy, đối tượng `chat` đang lưu lịch sử của người dùng và chế độ trò chuyện.

Cách truy cập và sử dụng API Gemini miễn phí

Cách truy cập và sử dụng API Gemini miễn phí

Chúng tôi cũng có thể hiển thị chúng theo kiểu Markdown.

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Cách truy cập và sử dụng API Gemini miễn phí

Hãy đặt câu hỏi tiếp theo.

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Chúng ta có thể cuộn xuống và xem toàn bộ phiên làm việc với mô hình.

Cách truy cập và sử dụng API Gemini miễn phí

Các mô hình nhúng đang ngày càng trở nên phổ biến đối với các ứng dụng nhận biết ngữ cảnh. Mô hình Gemini embedding-001 cho phép các từ, câu hoặc toàn bộ tài liệu được biểu diễn dưới dạng các vectơ dày đặc mã hóa ý nghĩa ngữ nghĩa. Biểu diễn vectơ này giúp bạn có thể dễ dàng so sánh sự giống nhau giữa các đoạn văn bản khác nhau bằng cách so sánh các vectơ nhúng tương ứng của chúng.

Chúng tôi có thể cung cấp nội dung cho `embed_content` và chuyển văn bản thành nội dung nhúng. Nó đơn giản thế thôi.

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

Chúng ta có thể chuyển đổi nhiều đoạn văn bản thành phần nhúng bằng cách chuyển danh sách các chuỗi tới đối số 'nội dung'.

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

Nếu bạn gặp khó khăn khi tạo lại kết quả tương tự, hãy xem Không gian làm việc ghi chú sâu.

Có rất nhiều chức năng nâng cao mà chúng tôi chưa đề cập đến trong hướng dẫn giới thiệu này. Bạn có thể tìm hiểu thêm về API Gemini bằng cách truy cập API Gemini: Bắt đầu nhanh với Python.

Trong hướng dẫn này, chúng ta đã tìm hiểu về Gemini và cách truy cập API Python để tạo phản hồi. Đặc biệt, chúng tôi đã tìm hiểu về cách tạo văn bản, hiểu hình ảnh, phát trực tuyến, lịch sử hội thoại, đầu ra tùy chỉnh và nội dung nhúng. Tuy nhiên, điều này chỉ là bề nổi của những gì Song Tử có thể làm.

Vui lòng chia sẻ với tôi những gì bạn đã xây dựng bằng API Gemini miễn phí. Khả năng là vô hạn.

Abid Ali Awan (@ 1abidaliawan) là một nhà khoa học dữ liệu chuyên nghiệp được chứng nhận, người yêu thích việc xây dựng các mô hình học máy. Hiện tại, anh đang tập trung sáng tạo nội dung và viết blog kỹ thuật về công nghệ máy học và khoa học dữ liệu. Abid có bằng Thạc sĩ về Quản lý Công nghệ và bằng cử nhân về Kỹ thuật Viễn thông. Tầm nhìn của ông là xây dựng một sản phẩm AI bằng cách sử dụng mạng nơ-ron đồ thị cho những sinh viên đang chống chọi với bệnh tâm thần.