Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν - KDnuggets

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν
Εικόνα από συγγραφέα

Το Gemini είναι ένα νέο μοντέλο που αναπτύχθηκε από την Google και ο Bard γίνεται ξανά χρήσιμος. Με το Gemini, είναι πλέον δυνατό να λαμβάνετε σχεδόν τέλειες απαντήσεις στα ερωτήματά σας παρέχοντάς τους εικόνες, ήχο και κείμενο.

Σε αυτό το σεμινάριο, θα μάθουμε για το Gemini API και πώς να το ρυθμίσετε στον υπολογιστή σας. Θα εξερευνήσουμε επίσης διάφορες λειτουργίες του Python API, συμπεριλαμβανομένης της δημιουργίας κειμένου και της κατανόησης εικόνων.

Gemini είναι ένα νέο μοντέλο τεχνητής νοημοσύνης που αναπτύχθηκε μέσω της συνεργασίας μεταξύ ομάδων της Google, συμπεριλαμβανομένης της Google Research και της Google DeepMind. Κατασκευάστηκε ειδικά για να είναι πολυτροπικό, που σημαίνει ότι μπορεί να κατανοεί και να λειτουργεί με διαφορετικούς τύπους δεδομένων όπως κείμενο, κώδικας, ήχος, εικόνες και βίντεο.

Το Gemini είναι το πιο προηγμένο και μεγαλύτερο μοντέλο AI που έχει αναπτύξει η Google μέχρι σήμερα. Έχει σχεδιαστεί για να είναι εξαιρετικά ευέλικτο, ώστε να μπορεί να λειτουργεί αποτελεσματικά σε ένα ευρύ φάσμα συστημάτων, από κέντρα δεδομένων έως κινητές συσκευές. Αυτό σημαίνει ότι έχει τη δυνατότητα να φέρει επανάσταση στον τρόπο με τον οποίο οι επιχειρήσεις και οι προγραμματιστές μπορούν να δημιουργήσουν και να κλιμακώσουν εφαρμογές τεχνητής νοημοσύνης.

Ακολουθούν τρεις εκδόσεις του μοντέλου Gemini που έχουν σχεδιαστεί για διαφορετικές περιπτώσεις χρήσης:

Gemini Ultra: Το μεγαλύτερο και πιο προηγμένο AI ικανό να εκτελεί σύνθετες εργασίες.
GeminiPro: Ένα ισορροπημένο μοντέλο που έχει καλή απόδοση και επεκτασιμότητα.
Δίδυμοι Nano: Το πιο αποτελεσματικό για κινητές συσκευές.

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν
Εικόνα από Παρουσίαση των Διδύμων

Το Gemini Ultra έχει επιδόσεις αιχμής, υπερβαίνοντας την απόδοση του GPT-4 σε πολλές μετρήσεις. Είναι το πρώτο μοντέλο που ξεπερνά τους ανθρώπινους ειδικούς στο σημείο αναφοράς Massive Multitask Language Understanding, το οποίο δοκιμάζει την παγκόσμια γνώση και την επίλυση προβλημάτων σε 57 διαφορετικά θέματα. Αυτό δείχνει τις προηγμένες ικανότητες κατανόησης και επίλυσης προβλημάτων.

Για να χρησιμοποιήσουμε το API, πρέπει πρώτα να λάβουμε ένα κλειδί API που μπορείτε να από εδώ: https://ai.google.dev/tutorials/setup

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Στη συνέχεια, κάντε κλικ στο κουμπί "Λήψη κλειδιού API" και, στη συνέχεια, κάντε κλικ στο "Δημιουργία κλειδιού API σε νέο έργο".

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Αντιγράψτε το κλειδί API και ορίστε το ως μεταβλητή περιβάλλοντος. Χρησιμοποιούμε το Deepnote και είναι πολύ εύκολο για εμάς να ορίσουμε το κλειδί με το όνομα "GEMINI_API_KEY". Απλώς μεταβείτε στην ενσωμάτωση, κάντε κύλιση προς τα κάτω και επιλέξτε μεταβλητές περιβάλλοντος.

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Στο επόμενο βήμα, θα εγκαταστήσουμε το Python API χρησιμοποιώντας το PIP:

pip install -q -U google-generativeai

Μετά από αυτό, θα ορίσουμε το κλειδί API στο GenAI της Google και θα ξεκινήσουμε την παρουσία.

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

Μετά τη ρύθμιση του κλειδιού API, η χρήση του μοντέλου Gemini Pro για τη δημιουργία περιεχομένου είναι απλή. Δώστε μια προτροπή στη συνάρτηση «generate_content» και εμφανίστε την έξοδο ως Markdown.

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

Αυτό είναι εκπληκτικό, αλλά δεν συμφωνώ με τη λίστα. Ωστόσο, καταλαβαίνω ότι όλα είναι θέμα προσωπικής προτίμησης.

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Οι Δίδυμοι μπορούν να δημιουργήσουν πολλαπλές απαντήσεις, που ονομάζονται υποψήφιοι, για ένα μόνο μήνυμα. Μπορείτε να επιλέξετε το καταλληλότερο. Στην περίπτωσή μας, είχαμε μόνο μία απάντηση.

response.candidates

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Ας του ζητήσουμε να γράψει ένα απλό παιχνίδι στην Python.

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

Το αποτέλεσμα είναι απλό και ουσιαστικό. Τα περισσότερα LLM αρχίζουν να εξηγούν τον κώδικα Python αντί να τον γράφουν.

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Μπορείτε να προσαρμόσετε την απάντησή σας χρησιμοποιώντας το όρισμα «generation_config». Περιορίζουμε τον αριθμό των υποψηφίων στο 1, προσθέτουμε τη λέξη διακοπής "κενό" και ορίζουμε μέγιστα διακριτικά και θερμοκρασία.

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

Όπως μπορείτε να δείτε, η απόκριση σταμάτησε πριν από τη λέξη "κενό". Φοβερο.

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Μπορείτε επίσης να χρησιμοποιήσετε το όρισμα «ροή» για να μεταδώσετε την απάντηση. Είναι παρόμοιο με τα API Anthropic και OpenAI αλλά πιο γρήγορο.

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Σε αυτήν την ενότητα, θα φορτώσουμε του Masood Aslami φωτογραφία και χρησιμοποιήστε το για να δοκιμάσετε την πολυτροπικότητα του Gemini Pro Vision.

Φορτώστε τις εικόνες στο `PIL` και εμφανίστε το.

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

Έχουμε μια φωτογραφία υψηλής ποιότητας του Rua Augusta Arch.

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Ας φορτώσουμε το μοντέλο Gemini Pro Vision και ας του παρέχουμε την εικόνα.

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

Το μοντέλο προσδιόριζε με ακρίβεια το παλάτι και παρείχε πρόσθετες πληροφορίες για την ιστορία και την αρχιτεκτονική του.

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Ας δώσουμε την ίδια εικόνα στο GPT-4 και ας το ρωτήσουμε για την εικόνα. Και τα δύο μοντέλα έχουν δώσει σχεδόν παρόμοιες απαντήσεις. Αλλά μου αρέσει περισσότερο η απόκριση GPT-4.

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Τώρα θα παρέχουμε κείμενο και την εικόνα στο API. Ζητήσαμε από το μοντέλο όρασης να γράψει ένα ταξιδιωτικό ιστολόγιο χρησιμοποιώντας την εικόνα ως αναφορά.

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

Μου έδωσε ένα σύντομο blog. Περίμενα μεγαλύτερης διάρκειας μορφή.

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Σε σύγκριση με το GPT-4, το μοντέλο Gemini Pro Vision δυσκολεύτηκε να δημιουργήσει ένα ιστολόγιο μεγάλης μορφής.

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Μπορούμε να ρυθμίσουμε το μοντέλο ώστε να έχει μια συνεχόμενη συνομιλία. Με αυτόν τον τρόπο, το μοντέλο θυμάται το πλαίσιο και την απάντηση χρησιμοποιώντας τις προηγούμενες συνομιλίες.

Στην περίπτωσή μας, ξεκινήσαμε τη συνεδρία συνομιλίας και ζητήσαμε από το μοντέλο να με βοηθήσει να ξεκινήσω με το παιχνίδι Dota 2.

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

Όπως μπορείτε να δείτε, το αντικείμενο «chat» αποθηκεύει το ιστορικό του χρήστη και τη λειτουργία συνομιλίας.

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Μπορούμε επίσης να τα εμφανίσουμε σε στυλ Markdown.

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Ας κάνουμε την επόμενη ερώτηση.

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

Μπορούμε να κάνουμε κύλιση προς τα κάτω και να δούμε ολόκληρη τη συνεδρία με το μοντέλο.

Πώς να αποκτήσετε πρόσβαση και να χρησιμοποιήσετε το Gemini API δωρεάν

Τα μοντέλα ενσωμάτωσης γίνονται όλο και πιο δημοφιλή για εφαρμογές με επίγνωση του περιβάλλοντος. Το μοντέλο Gemini embedding-001 επιτρέπει λέξεις, προτάσεις ή ολόκληρα έγγραφα να αναπαρασταθούν ως πυκνά διανύσματα που κωδικοποιούν σημασιολογικό νόημα. Αυτή η διανυσματική αναπαράσταση καθιστά δυνατή την εύκολη σύγκριση της ομοιότητας μεταξύ διαφορετικών κομματιών κειμένου συγκρίνοντας τα αντίστοιχα διανύσματα ενσωμάτωσης.

Μπορούμε να παρέχουμε το περιεχόμενο στο "embed_content" και να μετατρέψουμε το κείμενο σε ενσωματώσεις. Είναι τόσο απλό.

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

Μπορούμε να μετατρέψουμε πολλά κομμάτια κειμένου σε ενσωματώσεις περνώντας μια λίστα συμβολοσειρών στο όρισμα «περιεχόμενο».

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

Εάν αντιμετωπίζετε πρόβλημα με την αναπαραγωγή του ίδιου αποτελέσματος, ρίξτε μια ματιά στο δικό μου Deepnote χώρο εργασίας.

Υπάρχουν τόσες πολλές προηγμένες λειτουργίες που δεν καλύψαμε σε αυτό το εισαγωγικό σεμινάριο. Μπορείτε να μάθετε περισσότερα για το Gemini API μεταβαίνοντας στο Gemini API: Γρήγορη εκκίνηση με Python.

Σε αυτό το σεμινάριο, μάθαμε για το Gemini και τον τρόπο πρόσβασης στο Python API για τη δημιουργία απαντήσεων. Συγκεκριμένα, μάθαμε για τη δημιουργία κειμένου, την οπτική κατανόηση, τη ροή, το ιστορικό συνομιλιών, την προσαρμοσμένη έξοδο και τις ενσωματώσεις. Ωστόσο, αυτό απλώς ξύνει την επιφάνεια του τι μπορούν να κάνουν οι Δίδυμοι.

Μη διστάσετε να μοιραστείτε μαζί μου τι έχετε δημιουργήσει χρησιμοποιώντας το δωρεάν Gemini API. Οι δυνατότητες είναι απεριόριστες.

Αμπίντ Αλί Αουάν (@1abidaliawan) είναι πιστοποιημένος επαγγελματίας επιστήμονας δεδομένων που λατρεύει την κατασκευή μοντέλων μηχανικής μάθησης. Επί του παρόντος, εστιάζει στη δημιουργία περιεχομένου και στη σύνταξη τεχνικών ιστολογίων για τη μηχανική μάθηση και τις τεχνολογίες επιστήμης δεδομένων. Ο Abid είναι κάτοχος μεταπτυχιακού τίτλου στη Διοίκηση Τεχνολογίας και πτυχίου στη Μηχανική Τηλεπικοινωνιών. Το όραμά του είναι να δημιουργήσει ένα προϊόν τεχνητής νοημοσύνης χρησιμοποιώντας ένα νευρωνικό δίκτυο γραφημάτων για μαθητές που παλεύουν με ψυχικές ασθένειες.