نحوه دسترسی و استفاده رایگان Gemini API - KDnuggets

بازنشر افلاطون

دنبال: 0

نحوه دسترسی و استفاده رایگان Gemini API
تصویر توسط نویسنده

Gemini مدل جدیدی است که توسط گوگل توسعه یافته است و Bard دوباره قابل استفاده است. با Gemini، اکنون می توانید با ارائه تصاویر، صدا و متن به سوالات خود پاسخ های تقریباً کاملی دریافت کنید.

در این آموزش با Gemini API و نحوه راه اندازی آن بر روی دستگاه خود آشنا خواهیم شد. ما همچنین توابع مختلف Python API از جمله تولید متن و درک تصویر را بررسی خواهیم کرد.

برج جوزا یک مدل هوش مصنوعی جدید است که از طریق همکاری بین تیم‌هایی در گوگل، از جمله Google Research و Google DeepMind ایجاد شده است. این به طور خاص برای چندوجهی بودن ساخته شده است، به این معنی که می تواند انواع مختلف داده مانند متن، کد، صدا، تصاویر و ویدئو را درک کند و با آن کار کند.

جمینی پیشرفته ترین و بزرگترین مدل هوش مصنوعی است که تا به امروز توسط گوگل توسعه یافته است. به گونه ای طراحی شده است که بسیار انعطاف پذیر باشد به طوری که بتواند به طور موثر در طیف گسترده ای از سیستم ها، از مراکز داده گرفته تا دستگاه های تلفن همراه، کار کند. این به این معنی است که این پتانسیل را دارد که روشی را که کسب‌وکارها و توسعه‌دهندگان می‌توانند برنامه‌های هوش مصنوعی بسازند و مقیاس‌بندی کنند، متحول کند.

در اینجا سه نسخه از مدل Gemini برای موارد استفاده مختلف طراحی شده است:

جمینی اولترا: بزرگترین و پیشرفته ترین هوش مصنوعی که قادر به انجام وظایف پیچیده است.
جمینی پرو: یک مدل متعادل که عملکرد و مقیاس پذیری خوبی دارد.
Gemini Nano: کارآمدترین برای دستگاه های تلفن همراه.

نحوه دسترسی و استفاده رایگان Gemini API
تصویر از معرفی جمینی

Gemini Ultra دارای عملکردی پیشرفته است که در چندین معیار از عملکرد GPT-4 فراتر می رود. این اولین مدلی است که در معیار درک زبان چندوظیفه عظیم، که دانش جهانی و حل مسئله را در 57 موضوع مختلف آزمایش می‌کند، از متخصصان انسانی پیشی گرفته است. این قابلیت درک و حل مسئله پیشرفته آن را نشان می دهد.

برای استفاده از API، ابتدا باید یک کلید API دریافت کنیم که می‌توانید از اینجا بتوانید: https://ai.google.dev/tutorials/setup

نحوه دسترسی و استفاده رایگان Gemini API

پس از آن روی دکمه «دریافت یک کلید API» کلیک کنید و سپس روی «ایجاد کلید API در پروژه جدید» کلیک کنید.

نحوه دسترسی و استفاده رایگان Gemini API

کلید API را کپی کرده و آن را به عنوان متغیر محیطی تنظیم کنید. ما از Deepnote استفاده می کنیم و تنظیم کلید با نام "GEMINI_API_KEY" برای ما بسیار آسان است. فقط به ادغام بروید، به پایین بروید و متغیرهای محیط را انتخاب کنید.

نحوه دسترسی و استفاده رایگان Gemini API

در مرحله بعد، API پایتون را با استفاده از PIP نصب می کنیم:

pip install -q -U google-generativeai

پس از آن، کلید API را روی GenAI Google تنظیم می کنیم و نمونه را شروع می کنیم.

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

پس از تنظیم کلید API، استفاده از مدل Gemini Pro برای تولید محتوا ساده است. یک فرمان برای تابع «تولید_محتوا» ارائه دهید و خروجی را به صورت Markdown نمایش دهید.

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

این شگفت انگیز است، اما من با لیست موافق نیستم. با این حال، من درک می کنم که همه چیز به ترجیحات شخصی مربوط می شود.

نحوه دسترسی و استفاده رایگان Gemini API

Gemini می‌تواند چندین پاسخ به نام کاندید برای یک درخواست ایجاد کند. شما می توانید مناسب ترین را انتخاب کنید. در مورد ما فقط یک پاسخ داشتیم.

response.candidates

نحوه دسترسی و استفاده رایگان Gemini API

بیایید از آن بخواهیم که یک بازی ساده در پایتون بنویسد.

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

نتیجه ساده و دقیق است. اکثر LLM ها به جای نوشتن کد پایتون شروع به توضیح آن می کنند.

نحوه دسترسی و استفاده رایگان Gemini API

می توانید پاسخ خود را با استفاده از آرگومان 'generation_config' سفارشی کنید. ما تعداد نامزدها را به 1 محدود می کنیم، کلمه توقف "فضا" را اضافه می کنیم، و حداکثر نشانه ها و دما را تنظیم می کنیم.

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

همانطور که می بینید، پاسخ قبل از کلمه "فضا" متوقف شد. حیرت آور.

نحوه دسترسی و استفاده رایگان Gemini API

همچنین می‌توانید از آرگومان «stream» برای پخش جریانی پاسخ استفاده کنید. این شبیه به Anthropic و OpenAI API است اما سریعتر است.

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

نحوه دسترسی و استفاده رایگان Gemini API

در این قسمت بارگذاری می کنیم مسعود اسلمی عکس بگیرید و از آن برای آزمایش چندوجهی بودن Gemini Pro Vision استفاده کنید.

تصاویر را در "PIL" بارگیری کرده و آن را نمایش دهید.

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

ما یک عکس با کیفیت از طاق روآ آگوستا داریم.

نحوه دسترسی و استفاده رایگان Gemini API

بیایید مدل Gemini Pro Vision را بارگذاری کنیم و تصویر را در اختیار آن قرار دهیم.

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

این مدل به طور دقیق کاخ را شناسایی کرد و اطلاعات بیشتری در مورد تاریخچه و معماری آن ارائه کرد.

نحوه دسترسی و استفاده رایگان Gemini API

بیایید همان تصویر را به GPT-4 ارائه دهیم و از آن در مورد تصویر بپرسیم. هر دو مدل پاسخ های تقریبا مشابهی ارائه کرده اند. اما من پاسخ GPT-4 را بیشتر دوست دارم.

نحوه دسترسی و استفاده رایگان Gemini API

اکنون متن و تصویر را به API ارائه می دهیم. ما از مدل بینایی خواسته ایم تا با استفاده از تصویر به عنوان مرجع، یک وبلاگ سفر بنویسد.

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

وبلاگ کوتاهی برای من فراهم کرده است. انتظار فرمت طولانی تری را داشتم.

نحوه دسترسی و استفاده رایگان Gemini API

در مقایسه با GPT-4، مدل Gemini Pro Vision برای ایجاد یک وبلاگ با فرمت طولانی تلاش کرده است.

نحوه دسترسی و استفاده رایگان Gemini API

می‌توانیم مدل را طوری تنظیم کنیم که یک جلسه گفتگوی رفت و برگشت داشته باشیم. به این ترتیب، مدل با استفاده از مکالمات قبلی، زمینه و پاسخ را به خاطر می آورد.

در مورد ما، ما جلسه چت را شروع کرده ایم و از مدل درخواست کرده ایم که به من کمک کند تا با بازی Dota 2 شروع کنم.

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

همانطور که می بینید، شی «chat» تاریخچه کاربر و حالت چت را ذخیره می کند.

نحوه دسترسی و استفاده رایگان Gemini API

نحوه دسترسی و استفاده رایگان Gemini API

ما همچنین می توانیم آنها را به سبک Markdown نمایش دهیم.

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

نحوه دسترسی و استفاده رایگان Gemini API

بیایید سوال بعدی را بپرسیم.

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

می توانیم به پایین اسکرول کنیم و کل جلسه را با مدل ببینیم.

نحوه دسترسی و استفاده رایگان Gemini API

مدل های جاسازی به طور فزاینده ای برای برنامه های کاربردی آگاه از زمینه محبوب می شوند. مدل Gemini embedding-001 به کلمات، جملات یا کل اسناد اجازه می دهد تا به عنوان بردارهای متراکمی که معنای معنایی را رمزگذاری می کنند، نمایش داده شوند. این نمایش برداری امکان مقایسه شباهت بین قطعات مختلف متن را با مقایسه بردارهای جاسازی متناظر آنها فراهم می کند.

ما می‌توانیم محتوا را به «embed_content» ارائه کنیم و متن را به جاسازی تبدیل کنیم. به همین سادگی است.

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

ما می توانیم چندین تکه متن را با ارسال لیستی از رشته ها به آرگومان «محتوا» به جاسازی تبدیل کنیم.

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

اگر در بازتولید نتیجه مشابه مشکل دارید، من را بررسی کنید Deepnote فضای کاری.

بسیاری از توابع پیشرفته وجود دارد که ما در این آموزش مقدماتی به آنها اشاره نکردیم. شما می توانید با مراجعه به قسمت API Gemini اطلاعات بیشتری کسب کنید Gemini API: شروع سریع با پایتون.

در این آموزش با Gemini و نحوه دسترسی به API پایتون برای تولید پاسخ آشنا شدیم. به طور خاص، ما در مورد تولید متن، درک بصری، جریان، تاریخچه مکالمه، خروجی سفارشی و جاسازی‌ها یاد گرفته‌ایم. با این حال، این فقط سطح کاری را که Gemini می تواند انجام دهد خراش می دهد.

با خیال راحت آنچه را که با استفاده از API رایگان Gemini ساخته اید با من به اشتراک بگذارید. امکانات بی حد و حصر است.

عابد علی اعوان (@1abidaliawan) یک متخصص دانشمند داده معتبر است که عاشق ساخت مدل های یادگیری ماشینی است. در حال حاضر، او بر تولید محتوا و نوشتن وبلاگ های فنی در زمینه یادگیری ماشین و فناوری های علم داده تمرکز دارد. عابد دارای مدرک کارشناسی ارشد در رشته مدیریت فناوری و مدرک کارشناسی در رشته مهندسی مخابرات است. چشم انداز او ساخت یک محصول هوش مصنوعی با استفاده از یک شبکه عصبی نمودار برای دانش آموزانی است که با بیماری های روانی دست و پنجه نرم می کنند.