วิธีเข้าถึงและใช้ Gemini API ฟรี - KDnuggets

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

วิธีเข้าถึงและใช้ Gemini API ฟรี
ภาพโดยผู้เขียน

Gemini เป็นโมเดลใหม่ที่พัฒนาโดย Google และ Bard ก็กลับมาใช้งานได้อีกครั้ง ด้วย Gemini คุณสามารถได้รับคำตอบที่เกือบจะสมบูรณ์แบบสำหรับคำถามของคุณโดยการระบุรูปภาพ เสียง และข้อความ

ในบทช่วยสอนนี้ เราจะเรียนรู้เกี่ยวกับ Gemini API และวิธีการตั้งค่าบนเครื่องของคุณ นอกจากนี้เรายังจะสำรวจฟังก์ชัน Python API ต่างๆ รวมถึงการสร้างข้อความและการทำความเข้าใจรูปภาพ

เมถุน เป็นโมเดล AI ใหม่ที่พัฒนาผ่านการทำงานร่วมกันระหว่างทีมงานของ Google รวมถึง Google Research และ Google DeepMind สร้างขึ้นเป็นพิเศษเพื่อให้เป็นแบบหลายรูปแบบ ซึ่งหมายความว่าสามารถเข้าใจและทำงานกับข้อมูลประเภทต่างๆ ได้ เช่น ข้อความ โค้ด เสียง รูปภาพ และวิดีโอ

Gemini เป็นโมเดล AI ที่ทันสมัยและใหญ่ที่สุดที่พัฒนาโดย Google จนถึงปัจจุบัน ได้รับการออกแบบให้มีความยืดหยุ่นสูงเพื่อให้สามารถทำงานได้อย่างมีประสิทธิภาพบนระบบที่หลากหลาย ตั้งแต่ศูนย์ข้อมูลไปจนถึงอุปกรณ์เคลื่อนที่ ซึ่งหมายความว่ามีศักยภาพที่จะปฏิวัติวิธีที่ธุรกิจและนักพัฒนาสามารถสร้างและปรับขนาดแอปพลิเคชัน AI ได้

นี่คือรุ่น Gemini สามเวอร์ชันที่ออกแบบมาสำหรับกรณีการใช้งานที่แตกต่างกัน:

ราศีเมถุนอัลตร้า: AI ที่ใหญ่ที่สุดและทันสมัยที่สุดที่สามารถทำงานที่ซับซ้อนได้
ราศีเมถุนโปร: โมเดลที่สมดุลซึ่งมีประสิทธิภาพที่ดีและสามารถปรับขนาดได้
ราศีเมถุนนาโน: มีประสิทธิภาพสูงสุดสำหรับอุปกรณ์พกพา

วิธีเข้าถึงและใช้ Gemini API ฟรี
ภาพจาก แนะนำราศีเมถุน

Gemini Ultra มีประสิทธิภาพที่ล้ำสมัย ซึ่งเหนือกว่าประสิทธิภาพของ GPT-4 ในหลายตัวชี้วัด เป็นโมเดลแรกที่มีประสิทธิภาพเหนือกว่าผู้เชี่ยวชาญที่เป็นมนุษย์ในเกณฑ์มาตรฐานการทำความเข้าใจภาษาแบบมัลติทาสก์ขนาดใหญ่ ซึ่งทดสอบความรู้ระดับโลกและการแก้ปัญหาใน 57 วิชาที่หลากหลาย สิ่งนี้แสดงให้เห็นถึงความเข้าใจขั้นสูงและความสามารถในการแก้ไขปัญหา

หากต้องการใช้ API เราต้องได้รับคีย์ API ที่คุณสามารถทำได้จากที่นี่ก่อน: https://ai.google.dev/tutorials/setup

วิธีเข้าถึงและใช้ Gemini API ฟรี

หลังจากนั้นคลิกที่ปุ่ม "รับคีย์ API" จากนั้นคลิกที่ "สร้างคีย์ API ในโครงการใหม่"

วิธีเข้าถึงและใช้ Gemini API ฟรี

คัดลอกคีย์ API และตั้งค่าเป็นตัวแปรสภาพแวดล้อม เรากำลังใช้ Deepnote และการตั้งค่าคีย์ด้วยชื่อ "GEMINI_API_KEY" ค่อนข้างง่าย เพียงไปที่การบูรณาการ เลื่อนลงและเลือกตัวแปรสภาพแวดล้อม

วิธีเข้าถึงและใช้ Gemini API ฟรี

ในขั้นตอนถัดไป เราจะติดตั้ง Python API โดยใช้ PIP:

pip install -q -U google-generativeai

หลังจากนั้น เราจะตั้งค่าคีย์ API เป็น GenAI ของ Google และเริ่มต้นอินสแตนซ์

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

หลังจากตั้งค่าคีย์ API แล้ว การใช้โมเดล Gemini Pro เพื่อสร้างเนื้อหาก็เป็นเรื่องง่าย ระบุข้อความแจ้งไปยังฟังก์ชัน `generate_content` และแสดงเอาต์พุตเป็น Markdown

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

น่าทึ่งมาก แต่ฉันไม่เห็นด้วยกับรายการ อย่างไรก็ตาม ฉันเข้าใจว่ามันเป็นเรื่องของความชอบส่วนบุคคล

วิธีเข้าถึงและใช้ Gemini API ฟรี

ราศีเมถุนสามารถสร้างคำตอบได้หลายรายการ เรียกว่าผู้สมัครรับข้อความในข้อความเดียว คุณสามารถเลือกสิ่งที่เหมาะสมที่สุดได้ ในกรณีของเรา เรามีคำตอบเดียวเท่านั้น

response.candidates

วิธีเข้าถึงและใช้ Gemini API ฟรี

เรามาขอให้มันเขียนเกมง่ายๆ ใน Python กันดีกว่า

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

ผลลัพธ์นั้นง่ายและตรงประเด็น LLM ส่วนใหญ่เริ่มอธิบายโค้ด Python แทนที่จะเขียนมัน

วิธีเข้าถึงและใช้ Gemini API ฟรี

คุณสามารถปรับแต่งการตอบสนองของคุณได้โดยใช้อาร์กิวเมนต์ `generic_config` เรากำลังจำกัดการนับผู้สมัครไว้ที่ 1 โดยเพิ่มคำว่า "ช่องว่าง" และตั้งค่าโทเค็นและอุณหภูมิสูงสุด

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

อย่างที่คุณเห็น การตอบสนองหยุดลงก่อนคำว่า "ช่องว่าง" อัศจรรย์.

วิธีเข้าถึงและใช้ Gemini API ฟรี

คุณยังสามารถใช้อาร์กิวเมนต์ "สตรีม" เพื่อสตรีมการตอบกลับได้ คล้ายกับ Anthropic และ OpenAI API แต่เร็วกว่า

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

วิธีเข้าถึงและใช้ Gemini API ฟรี

ในส่วนนี้เราจะโหลด ของมาซูด อัสลามี ถ่ายภาพและใช้เพื่อทดสอบความหลากหลายของ Gemini Pro Vision

โหลดภาพไปที่ `PIL` และแสดง

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

เรามีภาพถ่ายคุณภาพสูงของ Rua Augusta Arch

วิธีเข้าถึงและใช้ Gemini API ฟรี

มาโหลดโมเดล Gemini Pro Vision แล้วแนบไปกับรูปภาพกัน

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

แบบจำลองระบุพระราชวังได้อย่างแม่นยำและให้ข้อมูลเพิ่มเติมเกี่ยวกับประวัติศาสตร์และสถาปัตยกรรม

วิธีเข้าถึงและใช้ Gemini API ฟรี

เรามาจัดเตรียมรูปภาพเดียวกันให้กับ GPT-4 และถามเกี่ยวกับรูปภาพนั้นกัน ทั้งสองรุ่นให้คำตอบที่เกือบจะคล้ายกัน แต่ฉันชอบการตอบสนองของ GPT-4 มากกว่า

วิธีเข้าถึงและใช้ Gemini API ฟรี

ตอนนี้เราจะจัดเตรียมข้อความและรูปภาพให้กับ API เราได้ขอให้ Vision Model เขียนบล็อกท่องเที่ยวโดยใช้รูปภาพเป็นข้อมูลอ้างอิง

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

มันทำให้ฉันมีบล็อกสั้น ๆ ฉันคาดหวังรูปแบบที่ยาวกว่านี้

วิธีเข้าถึงและใช้ Gemini API ฟรี

เมื่อเปรียบเทียบกับ GPT-4 โมเดล Gemini Pro Vision ประสบปัญหาในการสร้างบล็อกที่มีรูปแบบยาว

วิธีเข้าถึงและใช้ Gemini API ฟรี

เราสามารถตั้งค่าโมเดลให้มีการสนทนาไปมาได้ ด้วยวิธีนี้ โมเดลจะจดจำบริบทและการตอบกลับโดยใช้การสนทนาก่อนหน้านี้

ในกรณีของเรา เราได้เริ่มเซสชันการแชทแล้วและขอให้โมเดลช่วยฉันในการเริ่มต้นเล่นเกม Dota 2

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

อย่างที่คุณเห็น ออบเจ็กต์ "แชท" กำลังบันทึกประวัติของผู้ใช้และโหมดแชท

วิธีเข้าถึงและใช้ Gemini API ฟรี

วิธีเข้าถึงและใช้ Gemini API ฟรี

นอกจากนี้เรายังสามารถแสดงในรูปแบบ Markdown ได้อีกด้วย

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

วิธีเข้าถึงและใช้ Gemini API ฟรี

ลองถามคำถามติดตามผล

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

เราสามารถเลื่อนลงไปดูเซสชันทั้งหมดพร้อมกับโมเดลได้

วิธีเข้าถึงและใช้ Gemini API ฟรี

โมเดลการฝังกำลังได้รับความนิยมมากขึ้นสำหรับแอปพลิเคชันแบบ Context-Aware โมเดล Gemini embedding-001 ช่วยให้คำ ประโยค หรือเอกสารทั้งหมดสามารถแสดงเป็นเวกเตอร์หนาแน่นที่เข้ารหัสความหมายเชิงความหมายได้ การแสดงเวกเตอร์นี้ทำให้สามารถเปรียบเทียบความคล้ายคลึงกันระหว่างส่วนต่างๆ ของข้อความได้อย่างง่ายดาย โดยการเปรียบเทียบเวกเตอร์ที่ฝังไว้ที่สอดคล้องกัน

เราสามารถจัดเตรียมเนื้อหาเป็น `embed_content` และแปลงข้อความเป็นการฝังได้ มันง่ายมาก

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

เราสามารถแปลงข้อความหลายชิ้นเป็นการฝังโดยส่งรายการสตริงไปยังอาร์กิวเมนต์ 'เนื้อหา'

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

หากคุณมีปัญหาในการสร้างผลลัพธ์เดียวกัน ลองดูของฉัน พื้นที่ทำงาน Deepnote.

มีฟังก์ชันขั้นสูงมากมายที่เราไม่ได้กล่าวถึงในบทช่วยสอนเบื้องต้นนี้ คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ Gemini API ได้โดยไปที่ Gemini API: เริ่มต้นอย่างรวดเร็วด้วย Python.

ในบทช่วยสอนนี้ เราได้เรียนรู้เกี่ยวกับ Gemini และวิธีเข้าถึง Python API เพื่อสร้างการตอบกลับ โดยเฉพาะอย่างยิ่ง เราได้เรียนรู้เกี่ยวกับการสร้างข้อความ การทำความเข้าใจด้วยภาพ การสตรีม ประวัติการสนทนา เอาต์พุตแบบกำหนดเอง และการฝัง อย่างไรก็ตาม นี่เป็นเพียงการขีดข่วนสิ่งที่ชาวราศีเมถุนสามารถทำได้เท่านั้น

โปรดแบ่งปันกับฉันถึงสิ่งที่คุณสร้างขึ้นโดยใช้ Gemini API ฟรี ความเป็นไปได้นั้นไร้ขีดจำกัด

อาบิด อาลี อาวัน (@1อบีดาลิวัน) เป็นนักวิทยาศาสตร์ข้อมูลที่ได้รับการรับรองมืออาชีพที่รักการสร้างแบบจำลองการเรียนรู้ของเครื่อง ปัจจุบันเขามุ่งเน้นไปที่การสร้างเนื้อหาและการเขียนบล็อกทางเทคนิคเกี่ยวกับการเรียนรู้ของเครื่องและเทคโนโลยีวิทยาศาสตร์ข้อมูล อาบิดสำเร็จการศึกษาระดับปริญญาโทด้านการจัดการเทคโนโลยีและปริญญาตรีสาขาวิศวกรรมโทรคมนาคม วิสัยทัศน์ของเขาคือการสร้างผลิตภัณฑ์ AI โดยใช้โครงข่ายประสาทเทียมแบบกราฟสำหรับนักเรียนที่ป่วยเป็นโรคทางจิต