تصویر توسط نویسنده
Gemini مدل جدیدی است که توسط گوگل توسعه یافته است و Bard دوباره قابل استفاده است. با Gemini، اکنون می توانید با ارائه تصاویر، صدا و متن به سوالات خود پاسخ های تقریباً کاملی دریافت کنید.
در این آموزش با Gemini API و نحوه راه اندازی آن بر روی دستگاه خود آشنا خواهیم شد. ما همچنین توابع مختلف Python API از جمله تولید متن و درک تصویر را بررسی خواهیم کرد.
برج جوزا یک مدل هوش مصنوعی جدید است که از طریق همکاری بین تیمهایی در گوگل، از جمله Google Research و Google DeepMind ایجاد شده است. این به طور خاص برای چندوجهی بودن ساخته شده است، به این معنی که می تواند انواع مختلف داده مانند متن، کد، صدا، تصاویر و ویدئو را درک کند و با آن کار کند.
جمینی پیشرفته ترین و بزرگترین مدل هوش مصنوعی است که تا به امروز توسط گوگل توسعه یافته است. به گونه ای طراحی شده است که بسیار انعطاف پذیر باشد به طوری که بتواند به طور موثر در طیف گسترده ای از سیستم ها، از مراکز داده گرفته تا دستگاه های تلفن همراه، کار کند. این به این معنی است که این پتانسیل را دارد که روشی را که کسبوکارها و توسعهدهندگان میتوانند برنامههای هوش مصنوعی بسازند و مقیاسبندی کنند، متحول کند.
در اینجا سه نسخه از مدل Gemini برای موارد استفاده مختلف طراحی شده است:
- جمینی اولترا: بزرگترین و پیشرفته ترین هوش مصنوعی که قادر به انجام وظایف پیچیده است.
- جمینی پرو: یک مدل متعادل که عملکرد و مقیاس پذیری خوبی دارد.
- Gemini Nano: کارآمدترین برای دستگاه های تلفن همراه.
تصویر از معرفی جمینی
Gemini Ultra دارای عملکردی پیشرفته است که در چندین معیار از عملکرد GPT-4 فراتر می رود. این اولین مدلی است که در معیار درک زبان چندوظیفه عظیم، که دانش جهانی و حل مسئله را در 57 موضوع مختلف آزمایش میکند، از متخصصان انسانی پیشی گرفته است. این قابلیت درک و حل مسئله پیشرفته آن را نشان می دهد.
برای استفاده از API، ابتدا باید یک کلید API دریافت کنیم که میتوانید از اینجا بتوانید: https://ai.google.dev/tutorials/setup
پس از آن روی دکمه «دریافت یک کلید API» کلیک کنید و سپس روی «ایجاد کلید API در پروژه جدید» کلیک کنید.
کلید API را کپی کرده و آن را به عنوان متغیر محیطی تنظیم کنید. ما از Deepnote استفاده می کنیم و تنظیم کلید با نام "GEMINI_API_KEY" برای ما بسیار آسان است. فقط به ادغام بروید، به پایین بروید و متغیرهای محیط را انتخاب کنید.
در مرحله بعد، API پایتون را با استفاده از PIP نصب می کنیم:
pip install -q -U google-generativeai
پس از آن، کلید API را روی GenAI Google تنظیم می کنیم و نمونه را شروع می کنیم.
import google.generativeai as genai
import os
gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)
پس از تنظیم کلید API، استفاده از مدل Gemini Pro برای تولید محتوا ساده است. یک فرمان برای تابع «تولید_محتوا» ارائه دهید و خروجی را به صورت Markdown نمایش دهید.
from IPython.display import Markdown
model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")
Markdown(response.text)
این شگفت انگیز است، اما من با لیست موافق نیستم. با این حال، من درک می کنم که همه چیز به ترجیحات شخصی مربوط می شود.
Gemini میتواند چندین پاسخ به نام کاندید برای یک درخواست ایجاد کند. شما می توانید مناسب ترین را انتخاب کنید. در مورد ما فقط یک پاسخ داشتیم.
response.candidates
بیایید از آن بخواهیم که یک بازی ساده در پایتون بنویسد.
response = model.generate_content("Build a simple game in Python")
Markdown(response.text)
نتیجه ساده و دقیق است. اکثر LLM ها به جای نوشتن کد پایتون شروع به توضیح آن می کنند.
می توانید پاسخ خود را با استفاده از آرگومان 'generation_config' سفارشی کنید. ما تعداد نامزدها را به 1 محدود می کنیم، کلمه توقف "فضا" را اضافه می کنیم، و حداکثر نشانه ها و دما را تنظیم می کنیم.
response = model.generate_content(
'Write a short story about aliens.',
generation_config=genai.types.GenerationConfig(
candidate_count=1,
stop_sequences=['space'],
max_output_tokens=200,
temperature=0.7)
)
Markdown(response.text)
همانطور که می بینید، پاسخ قبل از کلمه "فضا" متوقف شد. حیرت آور.
همچنین میتوانید از آرگومان «stream» برای پخش جریانی پاسخ استفاده کنید. این شبیه به Anthropic و OpenAI API است اما سریعتر است.
model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)
for chunk in response:
print(chunk.text)
در این قسمت بارگذاری می کنیم مسعود اسلمی عکس بگیرید و از آن برای آزمایش چندوجهی بودن Gemini Pro Vision استفاده کنید.
تصاویر را در "PIL" بارگیری کرده و آن را نمایش دهید.
import PIL.Image
img = PIL.Image.open('images/photo-1.jpg')
img
ما یک عکس با کیفیت از طاق روآ آگوستا داریم.
بیایید مدل Gemini Pro Vision را بارگذاری کنیم و تصویر را در اختیار آن قرار دهیم.
model = genai.GenerativeModel('gemini-pro-vision')
response = model.generate_content(img)
Markdown(response.text)
این مدل به طور دقیق کاخ را شناسایی کرد و اطلاعات بیشتری در مورد تاریخچه و معماری آن ارائه کرد.
بیایید همان تصویر را به GPT-4 ارائه دهیم و از آن در مورد تصویر بپرسیم. هر دو مدل پاسخ های تقریبا مشابهی ارائه کرده اند. اما من پاسخ GPT-4 را بیشتر دوست دارم.
اکنون متن و تصویر را به API ارائه می دهیم. ما از مدل بینایی خواسته ایم تا با استفاده از تصویر به عنوان مرجع، یک وبلاگ سفر بنویسد.
response = model.generate_content(["Write a travel blog post using the image as reference.", img])
Markdown(response.text)
وبلاگ کوتاهی برای من فراهم کرده است. انتظار فرمت طولانی تری را داشتم.
در مقایسه با GPT-4، مدل Gemini Pro Vision برای ایجاد یک وبلاگ با فرمت طولانی تلاش کرده است.
میتوانیم مدل را طوری تنظیم کنیم که یک جلسه گفتگوی رفت و برگشت داشته باشیم. به این ترتیب، مدل با استفاده از مکالمات قبلی، زمینه و پاسخ را به خاطر می آورد.
در مورد ما، ما جلسه چت را شروع کرده ایم و از مدل درخواست کرده ایم که به من کمک کند تا با بازی Dota 2 شروع کنم.
model = genai.GenerativeModel('gemini-pro')
chat = model.start_chat(history=[])
chat.send_message("Can you please guide me on how to start playing Dota 2?")
chat.history
همانطور که می بینید، شی «chat» تاریخچه کاربر و حالت چت را ذخیره می کند.
ما همچنین می توانیم آنها را به سبک Markdown نمایش دهیم.
for message in chat.history:
display(Markdown(f'**{message.role}**: {message.parts[0].text}'))
بیایید سوال بعدی را بپرسیم.
chat.send_message("Which Dota 2 heroes should I start with?")
for message in chat.history:
display(Markdown(f'**{message.role}**: {message.parts[0].text}'))
می توانیم به پایین اسکرول کنیم و کل جلسه را با مدل ببینیم.
مدل های جاسازی به طور فزاینده ای برای برنامه های کاربردی آگاه از زمینه محبوب می شوند. مدل Gemini embedding-001 به کلمات، جملات یا کل اسناد اجازه می دهد تا به عنوان بردارهای متراکمی که معنای معنایی را رمزگذاری می کنند، نمایش داده شوند. این نمایش برداری امکان مقایسه شباهت بین قطعات مختلف متن را با مقایسه بردارهای جاسازی متناظر آنها فراهم می کند.
ما میتوانیم محتوا را به «embed_content» ارائه کنیم و متن را به جاسازی تبدیل کنیم. به همین سادگی است.
output = genai.embed_content(
model="models/embedding-001",
content="Can you please guide me on how to start playing Dota 2?",
task_type="retrieval_document",
title="Embedding of Dota 2 question")
print(output['embedding'][0:10])
[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]
ما می توانیم چندین تکه متن را با ارسال لیستی از رشته ها به آرگومان «محتوا» به جاسازی تبدیل کنیم.
output = genai.embed_content(
model="models/embedding-001",
content=[
"Can you please guide me on how to start playing Dota 2?",
"Which Dota 2 heroes should I start with?",
],
task_type="retrieval_document",
title="Embedding of Dota 2 question")
for emb in output['embedding']:
print(emb[:10])
[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]
[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]
اگر در بازتولید نتیجه مشابه مشکل دارید، من را بررسی کنید Deepnote فضای کاری.
بسیاری از توابع پیشرفته وجود دارد که ما در این آموزش مقدماتی به آنها اشاره نکردیم. شما می توانید با مراجعه به قسمت API Gemini اطلاعات بیشتری کسب کنید Gemini API: شروع سریع با پایتون.
در این آموزش با Gemini و نحوه دسترسی به API پایتون برای تولید پاسخ آشنا شدیم. به طور خاص، ما در مورد تولید متن، درک بصری، جریان، تاریخچه مکالمه، خروجی سفارشی و جاسازیها یاد گرفتهایم. با این حال، این فقط سطح کاری را که Gemini می تواند انجام دهد خراش می دهد.
با خیال راحت آنچه را که با استفاده از API رایگان Gemini ساخته اید با من به اشتراک بگذارید. امکانات بی حد و حصر است.
عابد علی اعوان (@1abidaliawan) یک متخصص دانشمند داده معتبر است که عاشق ساخت مدل های یادگیری ماشینی است. در حال حاضر، او بر تولید محتوا و نوشتن وبلاگ های فنی در زمینه یادگیری ماشین و فناوری های علم داده تمرکز دارد. عابد دارای مدرک کارشناسی ارشد در رشته مدیریت فناوری و مدرک کارشناسی در رشته مهندسی مخابرات است. چشم انداز او ساخت یک محصول هوش مصنوعی با استفاده از یک شبکه عصبی نمودار برای دانش آموزانی است که با بیماری های روانی دست و پنجه نرم می کنند.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://www.kdnuggets.com/how-to-access-and-use-gemini-api-for-free?utm_source=rss&utm_medium=rss&utm_campaign=how-to-access-and-use-gemini-api-for-free
- : دارد
- :است
- $UP
- 1
- 10
- 12
- 13
- 14
- 17
- 27
- 7
- 8
- 9
- a
- درباره ما
- دسترسی
- به درستی
- در میان
- اضافه کردن
- اضافی
- اطلاعات اضافی
- پیشرفته
- از نو
- AI
- بیگانگان
- معرفی
- اجازه می دهد تا
- تقریبا
- همچنین
- شگفت انگیز
- an
- و
- پاسخ
- آنتروپیک
- API
- رابط های برنامه کاربردی
- برنامه های کاربردی
- معماری
- هستند
- استدلال
- AS
- پرسیدن
- At
- سمعی
- متعادل
- BE
- تبدیل شدن به
- بوده
- قبل از
- محک
- میان
- بلاگ
- وبلاگ ها
- هر دو
- ساختن
- بنا
- ساخته
- کسب و کار
- اما
- دکمه
- by
- نام
- CAN
- نامزد
- نامزد
- قابلیت های
- توانا
- مورد
- موارد
- مراکز
- مهندسان
- گپ
- بررسی
- تمیز کاری
- کلیک
- رمز
- همکاری
- مقايسه كردن
- مقایسه
- پیچیده
- محتوا
- تولید محتوا
- زمینه
- گفتگو
- گفتگو
- تبدیل
- متناظر
- پوشش
- ایجاد
- در حال حاضر
- سفارشی
- سفارشی
- داده ها
- مرکز دادهها
- علم اطلاعات
- دانشمند داده
- تاریخ
- Deepmind
- درجه
- متراکم
- طراحی
- توسعه
- توسعه دهندگان
- دستگاه ها
- نشد
- مختلف
- نمایش دادن
- مختلف
- do
- اسناد و مدارک
- دان
- دوتا
- دوتا 2
- پایین
- به آسانی
- ساده
- موثر
- موثر
- تعبیه کردن
- مهندسی
- تمام
- محیط
- اتر (ETH)
- منتظر
- کارشناسان
- توضیح دهید
- اکتشاف
- سریعتر
- نام خانوادگی
- قابل انعطاف
- تمرکز
- به دنبال
- برای
- قالب
- رایگان
- از جانب
- تابع
- توابع
- بازی
- برج جوزا
- تولید می کنند
- نسل
- دریافت کنید
- GIF
- Go
- رفتن
- خوب
- گوگل
- گوگل
- گراف
- شبکه عصبی گراف
- راهنمایی
- بود
- آیا
- داشتن
- he
- کمک
- اینجا کلیک نمایید
- قهرمانان
- زیاد
- خیلی
- خود را
- تاریخ
- دارای
- چگونه
- چگونه
- اما
- HTTPS
- انسان
- i
- شناسایی
- بیماری
- تصویر
- تصاویر
- واردات
- in
- از جمله
- به طور فزاینده
- اطلاعات
- وارد کردن
- نصب
- نمونه
- در عوض
- ادغام
- به
- مقدماتی
- IT
- ITS
- JPG
- جولیا
- تنها
- kdnuggets
- کلید
- دانش
- زبان
- بزرگترین
- یاد گرفتن
- آموخته
- یادگیری
- پسندیدن
- بی حد و حصر
- لینک
- فهرست
- بار
- دیگر
- دوست دارد
- دستگاه
- فراگیری ماشین
- باعث می شود
- مدیریت
- بسیاری
- عظیم
- استاد
- حداکثر
- me
- معنی
- به معنی
- روانی
- بیماری روانی
- متریک
- موبایل
- دستگاه های تلفن همراه
- حالت
- مدل
- مدل
- بیش
- اکثر
- چندگانه
- نام
- نانو
- NBA
- شبکه
- عصبی
- شبکه های عصبی
- جدید
- بعد
- اکنون
- هدف
- of
- on
- ONE
- فقط
- OpenAI
- کار
- or
- OS
- ما
- خارج
- بهتر از
- تولید
- قصر
- ویژه
- عبور
- کامل
- کارایی
- انجام
- شخصی
- عکس
- قطعات
- افلاطون
- هوش داده افلاطون
- PlatoData
- بازی
- لطفا
- نقطه
- محبوب
- فرصت
- ممکن
- پست
- پتانسیل
- قبلی
- در هر
- مشکل
- حل مسئله
- محصول
- حرفه ای
- ارائه
- ارائه
- ارائه
- پــایتــون
- کیفیت
- نمایش ها
- سوال
- کاملا
- محدوده
- RE
- مرجع
- نمایندگی
- نمایندگی
- تحقیق
- پاسخ
- پاسخ
- نتیجه
- انقلابی کردن
- s
- همان
- صرفه جویی کردن
- مقیاس پذیری
- مقیاس
- مقیاس Ai
- علم
- دانشمند
- حرکت
- بخش
- دیدن
- را انتخاب کنید
- جلسه
- تنظیم
- محیط
- چند
- اشتراک گذاری
- کوتاه
- باید
- مشابه
- ساده
- تنها
- So
- حل کردن
- فضا
- به طور خاص
- شروع
- آغاز شده
- وضعیت هنر
- گام
- توقف
- متوقف شد
- داستان
- جریان
- جریان
- تلاش
- دانشجویان
- سبک
- مناسب
- سطح
- سیستم های
- T
- وظایف
- تیم ها
- فنی
- فن آوری
- پیشرفته
- ارتباط از راه دور
- آزمون
- تست
- متن
- تولید متن
- که
- La
- شان
- آنها
- سپس
- این
- سه
- از طریق
- به
- نشانه
- سفر
- زحمت
- آموزش
- انواع
- افراطی
- فهمیدن
- درک
- us
- قابل استفاده
- استفاده کنید
- کاربر
- با استفاده از
- متغیر
- مختلف
- تصویری
- دید
- بصری
- بود
- مسیر..
- we
- چی
- که
- WHO
- وسیع
- دامنه گسترده
- اراده
- با
- کلمه
- کلمات
- مهاجرت کاری
- جهان
- نوشتن
- نوشته
- شما
- شما
- زفیرنت