Τα πιο ισχυρά μοντέλα 7 γλωσσών (LLM) και Vision Language Models (VLM) που μεταμορφώνουν την AI το 2023

Τα πιο ισχυρά μοντέλα 7 γλωσσών (LLM) και Vision Language Models (VLM) που μεταμορφώνουν την AI το 2023

Κόμβος πηγής: 2757531

BLIP-2, μοντέλα γλώσσας όρασης

Στον ταχέως εξελισσόμενο τομέα της τεχνητής νοημοσύνης, η επεξεργασία της φυσικής γλώσσας έχει γίνει το επίκεντρο τόσο για τους ερευνητές όσο και για τους προγραμματιστές. Χτίζοντας στα θεμέλια του Αρχιτεκτονική μετασχηματιστή και Η αμφίδρομη αναβάθμιση του BERT, αρκετά πρωτοποριακά γλωσσικά μοντέλα έχουν εμφανιστεί τα τελευταία χρόνια, υπερβαίνοντας τα όρια του τι μπορούν να κατανοήσουν και να δημιουργήσουν οι μηχανές.

Σε αυτό το άρθρο, θα εμβαθύνουμε στις πιο πρόσφατες εξελίξεις στον κόσμο των μοντέλων γλώσσας μεγάλης κλίμακας, διερευνώντας τις βελτιώσεις που εισάγονται από κάθε μοντέλο, τις δυνατότητές τους και τις πιθανές εφαρμογές. Θα εξετάσουμε επίσης τα Visual Langauge Models (VLM) που είναι εκπαιδευμένα να επεξεργάζονται όχι μόνο κειμενικά αλλά και οπτικά δεδομένα.

Αν θέλετε να παρακάμψετε, εδώ είναι τα μοντέλα γλώσσας που παρουσιάσαμε:

  1. GPT-3 από το OpenAI
  2. LaMDA από την Google
  3. PalM από την Google
  4. Flamingo από την DeepMind
  5. BLIP-2 από την Salesforce
  6. LLaMA από το Meta AI
  7. GPT-4 από το OpenAI

Εάν αυτό το σε βάθος εκπαιδευτικό περιεχόμενο είναι χρήσιμο για εσάς, μπορείτε εγγραφείτε στη λίστα αλληλογραφίας της AI μας να ειδοποιούμε όταν κυκλοφορούμε νέο υλικό. 

Τα πιο σημαντικά μεγάλα μοντέλα γλώσσας (LLM) και οπτικά μοντέλα γλώσσας (VLM) το 2023

1. GPT-3 από το OpenAI

Χαρακτηριστικά 

Η ομάδα OpenAI εισήγαγε το GPT-3 ως εναλλακτική λύση αντί της ύπαρξης ενός επισημασμένου δεδομένων για κάθε νέα γλωσσική εργασία. Πρότειναν ότι η κλιμάκωση των μοντέλων γλώσσας μπορεί να βελτιώσει την απόδοση μερικών βολών με αγνωστικές εργασίες. Για να δοκιμάσουν αυτήν την πρόταση, εκπαίδευσαν ένα μοντέλο αυτοπαλίνδρομης γλώσσας 175Β παραμέτρων, που ονομάζεται GPT-3, και αξιολόγησε την απόδοσή του σε πάνω από δύο δωδεκάδες εργασίες NLP. Η αξιολόγηση στο πλαίσιο της εκμάθησης με λίγες λήψεις, της μάθησης με μία λήψη και της εκμάθησης μηδενικής βολής έδειξε ότι το GPT-3 πέτυχε πολλά υποσχόμενα αποτελέσματα και ακόμη και περιστασιακά ξεπέρασε τα τελευταίας τεχνολογίας αποτελέσματα που επιτυγχάνονταν από τα τελειοποιημένα μοντέλα. 

Ποιος είναι ο στόχος; 

  • Για να προτείνουμε μια εναλλακτική λύση στο υπάρχον πρόβλημα, όταν απαιτείται ένα σύνολο δεδομένων με ετικέτα για κάθε νέα γλωσσική εργασία.

Πώς προσεγγίζεται το πρόβλημα;

  • Οι ερευνητές πρότειναν την κλιμάκωση των μοντέλων γλώσσας για τη βελτίωση της απόδοσης μερικών βολών με αγνωστικές εργασίες. 
  • Η GPT-3 Το μοντέλο χρησιμοποιεί το ίδιο μοντέλο και αρχιτεκτονική με το GPT-2, συμπεριλαμβανομένης της τροποποιημένης αρχικοποίησης, της προ-κανονικοποίησης και της αναστρέψιμης κωδικοποίησης.
  • Ωστόσο, σε αντίθεση με το GPT-2, χρησιμοποιεί εναλλασσόμενα πυκνά και τοπικά λωμένα αραιά σχέδια προσοχής στα στρώματα του μετασχηματιστή, όπως στο Αραιός μετασχηματιστής.
GPT-3

Ποια είναι τα αποτελέσματα;

  • Το μοντέλο GPT-3 χωρίς βελτιστοποίηση επιτυγχάνει πολλά υποσχόμενα αποτελέσματα σε μια σειρά εργασιών NLP και μάλιστα περιστασιακά ξεπερνά τα υπερσύγχρονα μοντέλα που έχουν ρυθμιστεί για τη συγκεκριμένη εργασία:
    • Στις CoQA σημείο αναφοράς, 81.5 F1 στη ρύθμιση μηδενικών βολών, 84.0 F1 στη ρύθμιση ενός πυροβολισμού, και 85.0 F1 στη ρύθμιση λίγων βολών, σε σύγκριση με τη βαθμολογία 90.7 F1 που επιτεύχθηκε από τη βελτιστοποιημένη SOTA.
    • Στις TriviaQA σημείο αναφοράς, ακρίβεια 64.3% στη ρύθμιση μηδενικής λήψης, 68.0% στη ρύθμιση μιας λήψης και 71.2% στη ρύθμιση ελάχιστων βολών, ξεπερνώντας την κατάσταση της τεχνολογίας (68%) κατά 3.2%.
    • Στις ΛΑΜΠΑΔΑ σύνολο δεδομένων, ακρίβεια 76.2% στη ρύθμιση μηδενικής λήψης, 72.5% στη ρύθμιση μιας λήψης και 86.4% στη ρύθμιση ελάχιστων λήψεων, ξεπερνώντας την κατάσταση αιχμής (68%) κατά 18%.
  • Τα άρθρα ειδήσεων που δημιουργούνται από το μοντέλο GPT-175 με παράμετρο 3B είναι δύσκολο να διακριθούν από τα πραγματικά, σύμφωνα με ανθρώπινες αξιολογήσεις (με ακρίβεια μόλις πάνω από το επίπεδο πιθανότητας στο ~ 52%). 
  • Παρά την αξιοσημείωτη απόδοση του GPT-3, έλαβε μικτές κριτικές από την κοινότητα AI:
    • «Η διαφημιστική εκστρατεία GPT-3 είναι υπερβολική. Είναι εντυπωσιακό (ευχαριστώ για τα ωραία κομπλιμέντα!) Αλλά εξακολουθεί να έχει σοβαρές αδυναμίες και μερικές φορές κάνει πολύ ανόητα λάθη. Το AI θα αλλάξει τον κόσμο, αλλά το GPT-3 είναι μια πολύ γρήγορη ματιά. Έχουμε πολλά ακόμη να καταλάβουμε. " - Sam Altman, CEO και συνιδρυτής του OpenAI.
    • «Είμαι σοκαρισμένος πόσο δύσκολο είναι να δημιουργήσω κείμενο για μουσουλμάνους από το GPT-3 που δεν έχει καμία σχέση με τη βία… ή να σκοτωθεί…» - Abubakar Abid, Διευθύνων Σύμβουλος και ιδρυτής του Gradio.
    • "Οχι. Το GPT-3 ουσιαστικά δεν καταλαβαίνει τον κόσμο για τον οποίο μιλά. Η περαιτέρω αύξηση του σώματος θα του επιτρέψει να δημιουργήσει μια πιο αξιόπιστη πάστα αλλά όχι να διορθώσει τη θεμελιώδη έλλειψη κατανόησης του κόσμου. Οι επιδείξεις του GPT-4 θα εξακολουθούν να απαιτούν ανθρώπινη συλλογή κερασιών. " - Gary Marcus, Διευθύνων Σύμβουλος και ιδρυτής του Robust.ai.
    • «Η παρέκταση της θεαματικής απόδοσης του GPT3 στο μέλλον υποδηλώνει ότι η απάντηση στη ζωή, το σύμπαν και τα πάντα είναι μόνο 4.398 τρισεκατομμύρια παράμετροι.» - Geoffrey Hinton, νικητής του βραβείου Turing.

Πού μπορείτε να μάθετε περισσότερα για αυτήν την έρευνα;

Πού μπορείτε να λάβετε τον κώδικα εφαρμογής;

  • Ο ίδιος ο κώδικας δεν είναι διαθέσιμος, αλλά ορισμένα στατιστικά του συνόλου δεδομένων μαζί με άνευ όρων, μη φιλτραρισμένα δείγματα 2048-token από το GPT-3 κυκλοφορούν στις GitHub.

2. LaMDA από την Google

Χαρακτηριστικά 

Laγλώσσα Models για Dδιάλογος Aεφαρμογές (Λάμδα) δημιουργήθηκαν μέσω της διαδικασίας λεπτομέρειας μιας ομάδας μοντέλων νευρωνικών γλωσσών που βασίζονται σε μετασχηματιστές που έχουν σχεδιαστεί ειδικά για διαλόγους. Αυτά τα μοντέλα έχουν το πολύ 137Β παραμέτρους και έχουν εκπαιδευτεί να χρησιμοποιούν εξωτερικές πηγές γνώσης. Οι προγραμματιστές LaMDA είχαν τρεις βασικούς στόχους κατά νου – την ποιότητα, την ασφάλεια και τη γείωση. Τα αποτελέσματα έδειξαν ότι η τελειοποίηση επιτρέπει τη μείωση του χάσματος ποιότητας σε ανθρώπινα επίπεδα, αλλά η απόδοση του μοντέλου παρέμεινε κάτω από τα ανθρώπινα επίπεδα όσον αφορά την ασφάλεια και τη γείωση. 

Ο Βάρδος της Google, κυκλοφόρησε πρόσφατα ως εναλλακτική λύση στο ChatGPT, τροφοδοτείται από το LaMDA. Παρά το γεγονός ότι ο Μπαρντ χαρακτηρίζεται συχνά ως βαρετή, θα μπορούσε να θεωρηθεί ως απόδειξη της δέσμευσης της Google να δώσει προτεραιότητα στην ασφάλεια, ακόμη και εν μέσω του έντονου ανταγωνισμού μεταξύ της Google και της Microsoft για την καθιέρωση κυριαρχίας στον τομέα της γενετικής τεχνητής νοημοσύνης.

Ποιος είναι ο στόχος; 

  • Για τη δημιουργία ενός μοντέλου για εφαρμογές διαλόγου ανοιχτού τομέα, όπου ένας παράγοντας διαλόγου είναι σε θέση να συνομιλεί για οποιοδήποτε θέμα με τις απαντήσεις να είναι λογικές, συγκεκριμένες για το πλαίσιο, βασισμένες σε αξιόπιστες πηγές και ηθικές.

Πώς προσεγγίζεται το πρόβλημα;

  • Το LaMDA είναι χτισμένο πάνω Μετασχηματιστής, μια αρχιτεκτονική νευρωνικών δικτύων που εφηύρε η Google Research και δημιούργησε ανοιχτό κώδικα το 2017.
    • Όπως και άλλα μοντέλα μεγάλων γλωσσών, συμπεριλαμβανομένων των BERT και GPT-3, το LaMDA εκπαιδεύεται σε terabyte δεδομένων κειμένου για να μάθει πώς σχετίζονται οι λέξεις μεταξύ τους και στη συνέχεια να προβλέψει ποιες λέξεις είναι πιθανό να ακολουθήσουν. 
    • Ωστόσο, σε αντίθεση με τα περισσότερα γλωσσικά μοντέλα, το LaMDA εκπαιδεύτηκε στο διάλογο για να κατανοήσει τις αποχρώσεις που διακρίνουν τη συνομιλία ανοιχτού τύπου από άλλες μορφές γλώσσας.
  • Το μοντέλο είναι επίσης βελτιωμένο για να βελτιώσει την ευαισθησία, την ασφάλεια και την ιδιαιτερότητα των αποκρίσεών του. Ενώ φράσεις όπως "αυτό είναι ωραίο" και "δεν ξέρω" μπορεί να έχουν νόημα σε πολλά σενάρια διαλόγου, δεν είναι πιθανό να οδηγήσουν σε ενδιαφέρουσες και ελκυστικές συνομιλίες.
    • Η γεννήτρια LaMDA δημιουργεί αρχικά πολλές υποψήφιες απαντήσεις, οι οποίες βαθμολογούνται όλες με βάση το πόσο ασφαλείς, λογικές, συγκεκριμένες και ενδιαφέρουσες είναι. Οι απαντήσεις με χαμηλές βαθμολογίες ασφάλειας φιλτράρονται και, στη συνέχεια, επιλέγεται ως απάντηση το αποτέλεσμα που βρίσκεται στην κορυφή.
Παράδειγμα διαλόγου LaMDA

Ποια είναι τα αποτελέσματα;

  • Πολυάριθμα πειράματα δείχνουν ότι το LaMDA μπορεί να συμμετέχει σε συζητήσεις ανοιχτού τύπου για διάφορα θέματα.
  • Μια σειρά ποιοτικών αξιολογήσεων επιβεβαίωσε ότι οι απαντήσεις του μοντέλου τείνουν να είναι λογικές, συγκεκριμένες, ενδιαφέρουσες και βασισμένες σε αξιόπιστες εξωτερικές πηγές, αλλά υπάρχει ακόμα περιθώριο βελτίωσης.
  • Παρά την πρόοδο που έχει σημειωθεί μέχρι στιγμής, οι συγγραφείς αναγνωρίζουν ότι το μοντέλο εξακολουθεί να έχει πολλούς περιορισμούς που μπορεί να οδηγήσουν σε ακατάλληλες ή ακόμη και επιβλαβείς αποκρίσεις.

Πού μπορείτε να μάθετε περισσότερα για αυτήν την έρευνα;

Πού μπορείτε να λάβετε τον κώδικα εφαρμογής;

  • Μια εφαρμογή PyTorch ανοιχτού κώδικα για την αρχιτεκτονική προεκπαίδευσης του LaMDA είναι διαθέσιμη στο GitHub.

3. Palm από την Google

Χαρακτηριστικά 

Paέτσι Lαγωνία Model (Παλάμη) είναι μια παράμετρος 540 δισεκατομμυρίων, που βασίζεται σε μετασχηματιστή. Το PaLM εκπαιδεύτηκε σε τσιπ 6144 TPU v4 χρησιμοποιώντας το Pathways, ένα νέο σύστημα ML για αποτελεσματική εκπαίδευση σε πολλαπλά TPU Pods. Το μοντέλο δείχνει τα πλεονεκτήματα της κλιμάκωσης στη μάθηση με λίγες λήψεις, επιτυγχάνοντας αποτελέσματα τελευταίας τεχνολογίας σε εκατοντάδες γλωσσικά κριτήρια κατανόησης και συγκριτικής αξιολόγησης παραγωγής. Το PaLM υπερτερεί των τελειοποιημένων μοντέλων αιχμής σε εργασίες συλλογιστικής πολλαπλών βημάτων και υπερβαίνει τη μέση ανθρώπινη απόδοση στο σημείο αναφοράς BIG-bench.

Ποιος είναι ο στόχος; 

  • Για να βελτιωθεί η κατανόηση του τρόπου με τον οποίο η κλιμάκωση των μεγάλων γλωσσικών μοντέλων επηρεάζει τη μάθηση σε λίγες λήψεις.

Πώς προσεγγίζεται το πρόβλημα;

  • Η βασική ιδέα είναι να κλιμακωθεί η εκπαίδευση ενός μοντέλου γλώσσας 540 δισεκατομμυρίων παραμέτρων με το σύστημα Pathways:
    • Η ομάδα χρησιμοποιούσε παραλληλισμό δεδομένων σε επίπεδο Pod σε δύο Pod Cloud TPU v4 ενώ χρησιμοποιούσε τυπικά δεδομένα και παραλληλισμό μοντέλων σε κάθε Pod.
    • Κατάφεραν να κλιμακώσουν την εκπαίδευση σε τσιπ 6144 TPU v4, τη μεγαλύτερη διαμόρφωση συστήματος που βασίζεται σε TPU που χρησιμοποιείται για εκπαίδευση μέχρι σήμερα.
    • Το μοντέλο πέτυχε απόδοση εκπαίδευσης 57.8% χρήσης FLOP υλικού, η οποία, όπως ισχυρίζονται οι συγγραφείς, είναι η υψηλότερη απόδοση εκπαίδευσης που έχει επιτευχθεί ακόμη για μεγάλα γλωσσικά μοντέλα σε αυτήν την κλίμακα. 
  • Τα δεδομένα εκπαίδευσης για το μοντέλο PaLM περιελάμβαναν έναν συνδυασμό αγγλικών και πολύγλωσσων συνόλων δεδομένων που περιείχαν έγγραφα web υψηλής ποιότητας, βιβλία, Wikipedia, συνομιλίες και κώδικα GitHub.
Μοντέλο PaLM από την Google

Ποια είναι τα αποτελέσματα;

  • Πολυάριθμα πειράματα δείχνουν ότι η απόδοση του μοντέλου αυξήθηκε απότομα καθώς η ομάδα κλιμακώθηκε στο μεγαλύτερο μοντέλο της.
  • Το PaLM 540B πέτυχε πρωτοποριακή απόδοση σε πολλές πολύ δύσκολες εργασίες:
    • Γλωσσική κατανόηση και δημιουργία. Το μοντέλο που εισήχθη ξεπέρασε την απόδοση λίγων λήψεων προηγούμενων μεγάλων μοντέλων σε 28 από τις 29 εργασίες που περιλαμβάνουν εργασίες απάντησης ερωτήσεων, εργασίες κλεισίματος και συμπλήρωσης προτάσεων, εργασίες κατανόησης ανάγνωσης εντός του πλαισίου, εργασίες συλλογιστικής κοινής λογικής, εργασίες SuperGLUE και περισσότερο. Η απόδοση του PaLM σε εργασίες BIG-bench έδειξε ότι μπορούσε να διακρίνει την αιτία και το αποτέλεσμα, καθώς και να κατανοήσει εννοιολογικούς συνδυασμούς σε κατάλληλα πλαίσια.
    • Αιτιολογία. Με την προτροπή 8 βολών, το PaLM λύνει το 58% των προβλημάτων στο GSM8K, ένα σημείο αναφοράς χιλιάδων απαιτητικών ερωτήσεων μαθηματικών σε επίπεδο δημοτικού, ξεπερνώντας την προηγούμενη κορυφαία βαθμολογία του 55% που επιτεύχθηκε με τη βελτίωση του μοντέλου GPT-3 175B. Το PaLM επιδεικνύει επίσης την ικανότητα να δημιουργεί σαφείς εξηγήσεις σε καταστάσεις που απαιτούν έναν περίπλοκο συνδυασμό λογικών συμπερασμάτων πολλαπλών βημάτων, γνώσης του κόσμου και βαθιάς κατανόησης της γλώσσας.
    • Δημιουργία κώδικα. Το PaLM αποδίδει ισάξια με το καλά συντονισμένο Codex 12B, ενώ χρησιμοποιεί 50 φορές λιγότερο κώδικα Python για εκπαίδευση, επιβεβαιώνοντας ότι τα μεγάλα γλωσσικά μοντέλα μεταφέρουν τη μάθηση τόσο από άλλες γλώσσες προγραμματισμού όσο και από δεδομένα φυσικής γλώσσας πιο αποτελεσματικά.

Πού μπορείτε να μάθετε περισσότερα για αυτήν την έρευνα;

Πού μπορείτε να λάβετε τον κώδικα εφαρμογής;

  • Μια ανεπίσημη εφαρμογή PyTorch της συγκεκριμένης αρχιτεκτονικής Transformer από την ερευνητική εργασία PaLM είναι διαθέσιμη στο GitHub. Δεν θα κλιμακωθεί και δημοσιεύεται μόνο για εκπαιδευτικούς σκοπούς. 

4. Flamingo της DeepMind

Χαρακτηριστικά 

Το Flamingo είναι μια πρωτοποριακή οικογένεια οπτικών γλωσσικών μοντέλων (VLM), εκπαιδευμένα σε πολυτροπικά σώματα ιστού μεγάλης κλίμακας με μεικτό κείμενο και εικόνες. Με αυτήν την εκπαίδευση, τα μοντέλα μπορούν να προσαρμοστούν σε νέες εργασίες χρησιμοποιώντας ελάχιστα σχολιασμένα παραδείγματα, που παρέχονται ως προτροπή. Το Flamingo ενσωματώνει βασικές αρχιτεκτονικές εξελίξεις που έχουν σχεδιαστεί για να συγχωνεύουν τα δυνατά σημεία προεκπαιδευμένων μοντέλων μόνο όρασης και γλώσσας, να επεξεργάζονται αλληλουχίες μεταβλητής παρεμβολής οπτικών και κειμενικών δεδομένων και να φιλοξενούν εικόνες ή βίντεο ως εισόδους χωρίς προβλήματα. Τα μοντέλα επιδεικνύουν εντυπωσιακή προσαρμοστικότητα σε μια σειρά εργασιών εικόνας και βίντεο, όπως οπτική απάντηση ερωτήσεων, εργασίες υποτίτλων και οπτική απάντηση ερωτήσεων πολλαπλών επιλογών, θέτοντας νέα πρότυπα απόδοσης χρησιμοποιώντας εντολές για συγκεκριμένες εργασίες στην εκμάθηση λίγων λήψεων.

Ποιος είναι ο στόχος; 

  • Για να σημειώσετε πρόοδο προς τη δυνατότητα στα πολυτροπικά μοντέλα να μαθαίνουν γρήγορα και να εκτελούν νέες εργασίες με βάση σύντομες οδηγίες:
    • Το ευρέως χρησιμοποιούμενο παράδειγμα της προεκπαίδευσης ενός μοντέλου σε μεγάλο όγκο εποπτευόμενων δεδομένων, και στη συνέχεια λεπτομέρειας για τη συγκεκριμένη εργασία, απαιτεί πόρους και απαιτεί χιλιάδες σχολιασμένα σημεία δεδομένων μαζί με προσεκτικό συντονισμό υπερπαραμέτρων ανά εργασία. 
    • Τα τρέχοντα μοντέλα που χρησιμοποιούν αντικειμενικό στόχο επιτρέπουν την προσαρμογή μηδενικής λήψης σε νέες εργασίες, αλλά υστερούν σε πιο ανοιχτές εργασίες, όπως η δημιουργία λεζάντας ή η οπτική απάντηση ερωτήσεων, επειδή δεν διαθέτουν δυνατότητες δημιουργίας γλώσσας. 
    • Αυτή η έρευνα στοχεύει να εισαγάγει ένα νέο μοντέλο που αντιμετωπίζει αποτελεσματικά αυτά τα ζητήματα και επιδεικνύει ανώτερη απόδοση σε καθεστώτα χαμηλών δεδομένων.

Πώς προσεγγίζεται το πρόβλημα;

  • Το DeepMind εισήγαγε το Flamingo, VLM σχεδιασμένα για μάθηση λίγων βολών σε διάφορες ανοιχτές εργασίες όρασης και γλώσσας, χρησιμοποιώντας μόνο μερικά παραδείγματα εισόδου/εξόδου.
  • Τα μοντέλα φλαμίνγκο είναι μοντέλα δημιουργίας αυτοπαλινδρομικού κειμένου με οπτική ρύθμιση που μπορούν να επεξεργάζονται διακριτικά κειμένου που αναμιγνύονται με εικόνες ή/και βίντεο και να δημιουργούν κείμενο ως έξοδο.
  • Η αρχιτεκτονική του Flamingo ενσωματώνει δύο συμπληρωματικά προεκπαιδευμένα και παγωμένα μοντέλα:
    • Ένα μοντέλο όρασης ικανό να «αντιλαμβάνεται» οπτικές σκηνές.
    • Ένα μεγάλο γλωσσικό μοντέλο επιφορτισμένο με την εκτέλεση βασικών συλλογισμών.
  • Τα νέα στοιχεία αρχιτεκτονικής ενσωματώνουν αυτά τα μοντέλα με τρόπο που διατηρεί τη γνώση που αποκτήθηκε κατά τη διάρκεια της εντατικής υπολογιστικής προεκπαίδευσής τους.
  • Επιπλέον, τα μοντέλα Flamingo διαθέτουν αρχιτεκτονική που βασίζεται σε Perceiver, που τους επιτρέπει να απορροφούν εικόνες ή βίντεο υψηλής ανάλυσης. Αυτή η αρχιτεκτονική μπορεί να δημιουργήσει έναν σταθερό αριθμό οπτικών διακριτικών ανά εικόνα/βίντεο από μια ευρεία και μεταβλητή σειρά χαρακτηριστικών οπτικής εισαγωγής.

Ποια είναι τα αποτελέσματα;

  • Η έρευνα δείχνει ότι παρόμοια με τα LLM, τα οποία είναι καλοί μαθητές με λίγες φωτογραφίες, τα VLM μπορούν να μάθουν από μερικά παραδείγματα εισόδου/εξόδου για εργασίες κατανόησης εικόνας και βίντεο, όπως ταξινόμηση, υπότιτλους ή απάντηση ερωτήσεων.
  • Το Flamingo καθιερώνει ένα νέο σημείο αναφοράς στην εκμάθηση λίγων λήψεων, επιδεικνύοντας ανώτερη απόδοση σε ένα ευρύ φάσμα 16 εργασιών κατανόησης γλώσσας και εικόνας/βίντεο πολλαπλών τρόπων.
  • Για 6 από αυτές τις 16 εργασίες, το Flamingo ξεπερνά την απόδοση της τελειοποιημένης τεχνολογίας, παρόλο που χρησιμοποιεί μόνο 32 παραδείγματα για συγκεκριμένες εργασίες – περίπου 1000 φορές λιγότερα δεδομένα εκπαίδευσης για συγκεκριμένες εργασίες από τα τρέχοντα μοντέλα κορυφαίας απόδοσης.
Μοντέλο γλώσσας όρασης Flamingo

Πού μπορείτε να μάθετε περισσότερα για αυτήν την έρευνα;

Πού μπορείτε να λάβετε τον κώδικα εφαρμογής;

  • Η DeepMind δεν κυκλοφόρησε την επίσημη υλοποίηση του Flamingo. 
  • Μπορείτε να βρείτε την εφαρμογή ανοιχτού κώδικα της εισαγόμενης προσέγγισης στο OpenFlamingo Github Repo.
  • Η εναλλακτική υλοποίηση PyTorch είναι διαθέσιμη εδώ.

5. BLIP-2 της Salesforce

Χαρακτηριστικά 

Το BLIP-2 είναι ένα αποτελεσματικό και γενικό πλαίσιο προεκπαίδευσης για μοντέλα όρασης και γλώσσας, σχεδιασμένο να παρακάμπτει το ολοένα και πιο απαγορευτικό κόστος της προεκπαίδευσης μοντέλων μεγάλης κλίμακας. Το BLIP-2 αξιοποιεί τους κατεψυγμένους προ-εκπαιδευμένους κωδικοποιητές εικόνας και τα μοντέλα παγωμένης μεγάλης γλώσσας για την εκκίνηση της προεκπαίδευσης στη γλώσσα όρασης, ενσωματώνοντας έναν ελαφρύ μετασχηματιστή Querying προεκπαιδευμένο σε δύο στάδια. Το πρώτο στάδιο εκκινεί την εκμάθηση αναπαράστασης γλώσσας οράματος από έναν παγωμένο κωδικοποιητή εικόνας και το δεύτερο στάδιο προωθεί τη γενετική εκμάθηση όρασης σε γλώσσα από ένα μοντέλο παγωμένης γλώσσας. Παρά το γεγονός ότι έχει σημαντικά λιγότερες εκπαιδεύσιμες παραμέτρους, το BLIP-2 υπερέχει των μεθόδων αιχμής, ξεπερνώντας το Flamingo80B της DeepMind κατά 8.7% στο μηδενικό VQAv2 με 54 φορές λιγότερες εκπαιδεύσιμες παραμέτρους. Το μοντέλο παρουσιάζει επίσης πολλά υποσχόμενες δυνατότητες δημιουργίας εικόνας σε κείμενο μηδενικής λήψης ακολουθώντας οδηγίες φυσικής γλώσσας.

Πλαίσιο BLIP-2
Επισκόπηση του πλαισίου του BLIP-2

Ποιος είναι ο στόχος; 

  • Για να έχετε επιδόσεις αιχμής σε εργασίες γλώσσας όρασης, μειώνοντας ταυτόχρονα το κόστος υπολογισμού.

Πώς προσεγγίζεται το πρόβλημα;

  • Η ομάδα Salesforce παρουσίασε ένα νέο πλαίσιο προ-εκπαίδευσης γλώσσας οράματος που ονομάζεται BLIP-2, Bootstrapping Lγλώσσα-IMage Pεπανεκπαίδευση με παγωμένα μονοτροπικά μοντέλα:
    • Τα προεκπαιδευμένα μονοτροπικά μοντέλα παραμένουν παγωμένα κατά τη διάρκεια της προεκπαίδευσης για να μειωθεί το κόστος υπολογισμού και να αποφευχθεί το ζήτημα της καταστροφικής λήθης.
    • Για να διευκολυνθεί η διατροπική ευθυγράμμιση και να γεφυρωθεί το χάσμα μεταξύ των προεκπαιδευμένων μοντέλων όρασης και των προεκπαιδευμένων μοντέλων γλώσσας, η ομάδα προτείνει έναν ελαφρύ μετασχηματιστή ερωτήματος (Q-Former) που λειτουργεί ως συμφόρηση πληροφοριών μεταξύ του παγωμένου κωδικοποιητή εικόνας και του παγωμένου κωδικοποιητή LLM.
    • Το Q-former είναι προεκπαιδευμένο με μια νέα στρατηγική δύο σταδίων:
      • Το πρώτο στάδιο προεκπαίδευσης εκτελεί εκμάθηση αναπαράστασης γλώσσας όρασης. Αυτό αναγκάζει το Q-Former να μάθει την οπτική αναπαράσταση πιο σχετική με το κείμενο.
      • Το δεύτερο στάδιο προεκπαίδευσης εκτελεί τη γενετική εκμάθηση όρασης σε γλώσσα συνδέοντας την έξοδο του Q-Former σε ένα παγωμένο LLM. Το Q-Former εκπαιδεύεται έτσι ώστε η οπτική αναπαράσταση εξόδου του να μπορεί να ερμηνευτεί από το LLM.

Ποια είναι τα αποτελέσματα;

  • Το BLIP-2 προσφέρει εξαιρετικά, τελευταίας τεχνολογίας αποτελέσματα σε μια ποικιλία εργασιών γλώσσας όρασης, που περιλαμβάνει οπτική απάντηση σε ερωτήσεις, υποτίτλους εικόνων και ανάκτηση κειμένου εικόνας.
    • Για παράδειγμα, ξεπερνά το Flamingo κατά 8.7% στο μηδενικό VQAv2.
  • Επιπλέον, αυτή η εξαιρετική απόδοση επιτυγχάνεται με σημαντικά υψηλότερη απόδοση υπολογιστή:
    • Το BLIP-2 έχει καλύτερη απόδοση από το Flamingo-80B ενώ χρησιμοποιεί 54× λιγότερες παραμέτρους που μπορούν να εκπαιδεύσουν. 
  • Το BLIP-2 έχει την ικανότητα να αναλαμβάνει τη δημιουργία μηδενικής λήψης εικόνας σε κείμενο ως απόκριση σε οδηγίες φυσικής γλώσσας, ανοίγοντας έτσι τον δρόμο για την ανάπτυξη δεξιοτήτων όπως ο συλλογισμός οπτικής γνώσης και η οπτική συνομιλία μεταξύ άλλων.
  • Τέλος, είναι σημαντικό να σημειωθεί ότι το BLIP-2 είναι μια ευέλικτη προσέγγιση που μπορεί να αξιοποιήσει πιο εξελιγμένα μονοτροπικά μοντέλα για να βελτιώσει περαιτέρω την απόδοση της προ-προπόνησης γλώσσας όρασης.
Αποτελέσματα BLIP-2
Αποτελέσματα BLIP-2

Πού μπορείτε να μάθετε περισσότερα για αυτήν την έρευνα;

Πού μπορείτε να λάβετε τον κώδικα εφαρμογής;

Η επίσημη εφαρμογή BLIP-2 είναι διαθέσιμη στις GitHub.

6. LLaMA της Meta AI

Χαρακτηριστικά 

Η ομάδα Meta AI ισχυρίζεται ότι τα μικρότερα μοντέλα που έχουν εκπαιδευτεί σε περισσότερα διακριτικά είναι πιο εύκολο να επανεκπαιδευτούν και να βελτιωθούν για συγκεκριμένες εφαρμογές προϊόντων. Ως εκ τούτου, εισάγουν Είδος μικρής καμήλας (Large Laγλώσσα Model Meta AI), μια συλλογή βασικών γλωσσικών μοντέλων με παραμέτρους 7Β έως 65Β. Τα LLaMA 33B και 65B εκπαιδεύτηκαν σε 1.4 τρισεκατομμύρια μάρκες, ενώ το μικρότερο μοντέλο, το LLaMA 7B, εκπαιδεύτηκε σε ένα τρισεκατομμύριο μάρκες. Χρησιμοποιούσαν αποκλειστικά δημόσια διαθέσιμα σύνολα δεδομένων, χωρίς να εξαρτώνται από ιδιόκτητα ή περιορισμένα δεδομένα. Η ομάδα εφάρμοσε επίσης βασικές αρχιτεκτονικές βελτιώσεις και τεχνικές βελτιστοποίησης της ταχύτητας εκπαίδευσης. Κατά συνέπεια, το LLaMA-13B ξεπέρασε το GPT-3, όντας πάνω από 10 φορές μικρότερο, και το LLaMA-65B παρουσίασε ανταγωνιστική απόδοση με το PaLM-540B.

Ποιος είναι ο στόχος; 

  • Να αποδείξει τη σκοπιμότητα της εκπαίδευσης μοντέλων με κορυφαίες επιδόσεις αποκλειστικά σε δημόσια προσβάσιμα σύνολα δεδομένων, χωρίς να βασίζεται σε ιδιόκτητες ή περιορισμένες πηγές δεδομένων.
  • Να παρέχουμε στην ερευνητική κοινότητα μικρότερα και πιο αποτελεσματικά μοντέλα και έτσι να επιτρέψουμε σε όσους δεν έχουν πρόσβαση σε μεγάλες ποσότητες υποδομής, να μελετήσουν μεγάλα γλωσσικά μοντέλα.

Πώς προσεγγίζεται το πρόβλημα;

  • Για να εκπαιδεύσουν το μοντέλο LLaMA, οι ερευνητές χρησιμοποίησαν μόνο δεδομένα που είναι δημόσια διαθέσιμα και συμβατά με την ανοικτή πηγή.
  • Έχουν επίσης εισαγάγει μερικές βελτιώσεις στην τυπική αρχιτεκτονική του Transformer:
    • Υιοθετώντας τη μεθοδολογία GPT-3, η σταθερότητα της εκπαίδευσης βελτιώθηκε με την κανονικοποίηση της εισόδου για κάθε υπο-στρώμα μετασχηματιστή, αντί της κανονικοποίησης της εξόδου.
    • Εμπνευσμένοι από τα μοντέλα PaLM, οι ερευνητές αντικατέστησαν τη μη γραμμικότητα ReLU με τη συνάρτηση ενεργοποίησης SwiGLU, για να βελτιώσουν την απόδοση.
    • Εμπνευσμένο από Su et al (2021), εξάλειψαν τις απόλυτες ενσωματώσεις θέσης και αντί αυτού, ενσωμάτωσαν περιστροφικές ενσωματώσεις θέσης (RoPE) σε κάθε στρώμα του δικτύου.
  • Τέλος, η ομάδα Meta AI βελτίωσε την ταχύτητα εκπαίδευσης του μοντέλου της με:
    • Χρησιμοποιώντας αποτελεσματική εφαρμογή αιτιολογικής προσοχής πολλαπλών κεφαλών, χωρίς αποθήκευση βαρών προσοχής ή υπολογισμό βαθμολογιών κρυφού κλειδιού/ερωτήματος.
    • Χρήση σημείων ελέγχου για την ελαχιστοποίηση των επανυπολογιζόμενων ενεργοποιήσεων κατά τη διάρκεια της επιστροφής προς τα πίσω.
    • Επικάλυψη του υπολογισμού των ενεργοποιήσεων και της επικοινωνίας μεταξύ των GPU μέσω του δικτύου (λόγω λειτουργιών all_reduce).

Ποια είναι τα αποτελέσματα;

  • Το LLaMA-13B ξεπερνά το GPT-3 παρόλο που είναι πάνω από 10 φορές μικρότερο, ενώ το LLaMA-65B διατηρεί τη δική του θέση έναντι του PaLM-540B.

Πού μπορείτε να μάθετε περισσότερα για αυτήν την έρευνα;

Πού μπορείτε να λάβετε τον κώδικα εφαρμογής;

  • Το Meta AI παρέχει πρόσβαση στο LLaMA σε ακαδημαϊκούς ερευνητές, άτομα που σχετίζονται με την κυβέρνηση, την κοινωνία των πολιτών, τα ακαδημαϊκά ιδρύματα και τα παγκόσμια ερευνητικά εργαστήρια της βιομηχανίας σε βάση αξιολόγησης μεμονωμένων περιπτώσεων. Για να κάνετε αίτηση, μεταβείτε στα παρακάτω Αποθετήριο GitHub.

7. GPT-4 από το OpenAI

Χαρακτηριστικά 

GPT-4 είναι ένα μεγάλης κλίμακας, πολυτροπικό μοντέλο που δέχεται εισαγωγές εικόνας και κειμένου και δημιουργεί εξόδους κειμένου. Λόγω ανησυχιών για τον ανταγωνισμό και την ασφάλεια, δεν υπάρχουν συγκεκριμένες λεπτομέρειες σχετικά με την αρχιτεκτονική και την εκπαίδευση του μοντέλου. Όσον αφορά την απόδοση, το GPT-4 ξεπερνά τα προηγούμενα μοντέλα γλώσσας σε παραδοσιακά σημεία αναφοράς και παρουσιάζει σημαντικές βελτιώσεις στην κατανόηση της πρόθεσης του χρήστη και στις ιδιότητες ασφάλειας. Το μοντέλο επιτυγχάνει επίσης απόδοση σε ανθρώπινο επίπεδο σε διάφορες εξετάσεις, συμπεριλαμβανομένης της κορυφαίας βαθμολογίας 10% σε μια προσομοίωση Uniform Bar Examination.

Ποιος είναι ο στόχος; 

  • Να αναπτύξει ένα μεγάλης κλίμακας, πολυτροπικό μοντέλο που μπορεί να δέχεται εισαγωγές εικόνας και κειμένου και να παράγει εξόδους κειμένου. 
  • Να αναπτύξει υποδομές και μεθόδους βελτιστοποίησης που συμπεριφέρονται προβλέψιμα σε ένα ευρύ φάσμα κλίμακων.

Πώς προσεγγίζεται το πρόβλημα;

  • Λόγω των επιπτώσεων του ανταγωνιστικού τοπίου και της ασφάλειας, το OpenAI αποφάσισε να αποκρύψει λεπτομέρειες σχετικά με την αρχιτεκτονική, το μέγεθος του μοντέλου, το υλικό, τον υπολογισμό της εκπαίδευσης, την κατασκευή δεδομένων και τις μεθόδους εκπαίδευσης.
  • Αποκαλύπτουν ότι:
    • Το GPT-4 είναι ένα μοντέλο που βασίζεται σε Transformer, προεκπαιδευμένο για να προβλέπει το επόμενο διακριτικό σε ένα έγγραφο.
    • Χρησιμοποιεί δημόσια διαθέσιμα δεδομένα και δεδομένα με άδεια τρίτων.
    • Το μοντέλο βελτιστοποιήθηκε χρησιμοποιώντας το Reinforcement Learning from Human Feedback (RLHF).
  • Ανεπιβεβαίωτες πληροφορίες υποδηλώνουν ότι το GPT-4 δεν είναι ένα μοναδικό και πυκνό μοντέλο όπως οι προκάτοχοί του, αλλά ένας ισχυρός συνασπισμός οκτώ ξεχωριστών μοντέλων, το καθένα με 220 δισεκατομμύρια παραμέτρους.
Απόδοση GPT-4

Ποια είναι τα αποτελέσματα;

  • Το GPT-4 επιτυγχάνει επιδόσεις σε ανθρώπινο επίπεδο στις περισσότερες επαγγελματικές και ακαδημαϊκές εξετάσεις, σημειώνοντας κυρίως βαθμολογία στο κορυφαίο 10% σε μια προσομοίωση Uniform Bar Examination.
  • Το προεκπαιδευμένο βασικό μοντέλο GPT-4 ξεπερνά τα υπάρχοντα μοντέλα γλώσσας και τα προηγούμενα συστήματα τελευταίας τεχνολογίας σε παραδοσιακά σημεία αναφοράς NLP, χωρίς χειροτεχνία ή πρόσθετα πρωτόκολλα εκπαίδευσης για συγκεκριμένα σημεία αναφοράς.
  • Το GPT-4 επιδεικνύει ουσιαστική βελτίωση στην πρόθεση χρήστη που ακολουθεί, με τις απαντήσεις του να προτιμώνται έναντι των απαντήσεων του GPT-3.5 στο 70.2% των 5,214 προτροπών από το ChatGPT και το OpenAI API.
  • Οι ιδιότητες ασφάλειας του GPT-4 έχουν βελτιωθεί σημαντικά σε σύγκριση με το GPT-3.5, με μείωση 82% στην απόκριση σε μη επιτρεπόμενα αιτήματα περιεχομένου και 29% αύξηση στη συμμόρφωση με τις πολιτικές για ευαίσθητα αιτήματα (π.χ. ιατρικές συμβουλές και αυτοτραυματισμό).

Πού μπορείτε να μάθετε περισσότερα για αυτήν την έρευνα;

Πού μπορείτε να λάβετε τον κώδικα εφαρμογής;

  • Η εφαρμογή κώδικα του GPT-4 δεν είναι διαθέσιμη.

Πραγματικές εφαρμογές μοντέλων γλώσσας μεγάλων (Vision).

Οι πιο σημαντικές ανακαλύψεις στον τομέα της τεχνητής νοημοσύνης των τελευταίων ετών προέρχονται από μεγάλα μοντέλα τεχνητής νοημοσύνης που έχουν εκπαιδευτεί σε τεράστια σύνολα δεδομένων. Αυτά τα μοντέλα επιδεικνύουν εντυπωσιακές επιδόσεις και είναι συναρπαστικό να σκεφτόμαστε πώς η τεχνητή νοημοσύνη μπορεί να φέρει επανάσταση ολόκληρες βιομηχανίες, όπως η εξυπηρέτηση πελατών, το μάρκετινγκ, το ηλεκτρονικό εμπόριο, η υγειονομική περίθαλψη, η ανάπτυξη λογισμικού, η δημοσιογραφία και πολλοί άλλοι.

Τα μοντέλα μεγάλων γλωσσών έχουν πολυάριθμες εφαρμογές στον πραγματικό κόσμο. Το GPT-4 παραθέτει τα ακόλουθα:

  • Κατανόηση φυσικής γλώσσας και δημιουργία για chatbot και εικονικούς βοηθούς.
  • Μηχανική μετάφραση μεταξύ γλωσσών.
  • Σύνοψη άρθρων, εκθέσεων ή άλλων εγγράφων κειμένου.
  • Ανάλυση συναισθήματος για έρευνα αγοράς ή παρακολούθηση μέσων κοινωνικής δικτύωσης.
  • Παραγωγή περιεχομένου για μάρκετινγκ, μέσα κοινωνικής δικτύωσης ή δημιουργική γραφή.
  • Συστήματα απάντησης ερωτήσεων για υποστήριξη πελατών ή βάσεις γνώσεων.
  • Ταξινόμηση κειμένου για φιλτράρισμα ανεπιθύμητων μηνυμάτων, κατηγοριοποίηση θεμάτων ή οργάνωση εγγράφων.
  • Εξατομικευμένα εργαλεία εκμάθησης και διδασκαλίας γλωσσών.
  • Παραγωγή κώδικα και βοήθεια ανάπτυξης λογισμικού.
  • Ιατρική, νομική και τεχνική ανάλυση και βοήθεια εγγράφων.
  • Εργαλεία προσβασιμότητας για άτομα με αναπηρίες, όπως η μετατροπή κειμένου σε ομιλία και ομιλία σε κείμενο.
  • Υπηρεσίες αναγνώρισης και μεταγραφής ομιλίας.

Εάν προσθέσουμε ένα οπτικό μέρος, οι περιοχές των πιθανών εφαρμογών επεκτείνονται περαιτέρω:

Είναι πολύ συναρπαστικό να παρακολουθείς τις πρόσφατες ανακαλύψεις της τεχνητής νοημοσύνης και να σκέφτεσαι τις πιθανές εφαρμογές τους στον πραγματικό κόσμο. Ωστόσο, πριν από την ανάπτυξη αυτών των μοντέλων στην πραγματική ζωή, πρέπει να αντιμετωπίσουμε τους αντίστοιχους κινδύνους και περιορισμούς, οι οποίοι δυστυχώς είναι αρκετά σημαντικοί.

Κίνδυνοι και Περιορισμοί

Εάν ρωτήσετε το GPT-4 για τους κινδύνους και τους περιορισμούς του, πιθανότατα θα σας παράσχει μια μακρά λίστα σχετικών ανησυχιών. Μετά από φιλτράρισμα αυτής της λίστας και προσθήκης ορισμένων πρόσθετων στοιχείων, κατέληξα με το ακόλουθο σύνολο βασικών κινδύνων και περιορισμών που διακατέχονται από τα σύγχρονα μεγάλα γλωσσικά μοντέλα:

  1. Μεροληψία και διακρίσεις: Αυτά τα μοντέλα μαθαίνουν από τεράστιες ποσότητες δεδομένων κειμένου, τα οποία συχνά περιέχουν προκαταλήψεις και μεροληπτικό περιεχόμενο. Ως αποτέλεσμα, τα παραγόμενα αποτελέσματα μπορούν ακούσια να διαιωνίσουν στερεότυπα, προσβλητική γλώσσα και διακρίσεις που βασίζονται σε παράγοντες όπως το φύλο, η φυλή ή η θρησκεία.
  2. Κακή πληροφορία: Τα μεγάλα γλωσσικά μοντέλα ενδέχεται να δημιουργήσουν περιεχόμενο που είναι πραγματικά εσφαλμένο, παραπλανητικό ή ξεπερασμένο. Ενώ τα μοντέλα εκπαιδεύονται σε ποικίλες πηγές, ενδέχεται να μην παρέχουν πάντα τις πιο ακριβείς ή ενημερωμένες πληροφορίες. Συχνά αυτό συμβαίνει επειδή το μοντέλο δίνει προτεραιότητα στη δημιουργία αποτελεσμάτων που είναι γραμματικά σωστά ή φαίνονται συνεκτικά, ακόμα κι αν είναι παραπλανητικά.
  3. Ελλειψη κατανόησης: Αν και αυτά τα μοντέλα φαίνεται να κατανοούν την ανθρώπινη γλώσσα, λειτουργούν κυρίως με τον εντοπισμό προτύπων και στατιστικών συσχετίσεων στα δεδομένα εκπαίδευσης. Δεν έχουν βαθιά κατανόηση του περιεχομένου που παράγουν, κάτι που μερικές φορές μπορεί να οδηγήσει σε παράλογα ή άσχετα αποτελέσματα.
  4. Ακατάλληλο περιεχόμενο: Τα μοντέλα γλώσσας μερικές φορές μπορούν να δημιουργήσουν περιεχόμενο που είναι προσβλητικό, επιβλαβές ή ακατάλληλο. Ενώ γίνονται προσπάθειες για την ελαχιστοποίηση αυτού του περιεχομένου, μπορεί να συμβεί λόγω της φύσης των δεδομένων εκπαίδευσης και της αδυναμίας των μοντέλων να διακρίνουν το πλαίσιο ή την πρόθεση του χρήστη.

Συμπέρασμα

Τα μεγάλα γλωσσικά μοντέλα έχουν αναμφίβολα φέρει επανάσταση στον τομέα της επεξεργασίας φυσικής γλώσσας και έχουν επιδείξει τεράστιες δυνατότητες στην ενίσχυση της παραγωγικότητας σε διάφορους ρόλους και κλάδους. Η ικανότητά τους να δημιουργούν κείμενο παρόμοιο με τον άνθρωπο, να αυτοματοποιούν τις εγκόσμιες εργασίες και να παρέχουν βοήθεια σε δημιουργικές και αναλυτικές διαδικασίες τους έχει καταστήσει απαραίτητα εργαλεία στον σημερινό κόσμο με γρήγορους ρυθμούς, με γνώμονα την τεχνολογία.

Ωστόσο, είναι σημαντικό να αναγνωρίσουμε και να κατανοήσουμε τους περιορισμούς και τους κινδύνους που σχετίζονται με αυτά τα ισχυρά μοντέλα. Ζητήματα όπως η προκατάληψη, η παραπληροφόρηση και η πιθανότητα κακόβουλης χρήσης δεν μπορούν να αγνοηθούν. Καθώς συνεχίζουμε να ενσωματώνουμε αυτές τις τεχνολογίες που βασίζονται στην τεχνητή νοημοσύνη στην καθημερινή μας ζωή, είναι σημαντικό να βρούμε μια ισορροπία μεταξύ της αξιοποίησης των δυνατοτήτων τους και της διασφάλισης της ανθρώπινης επίβλεψης, ιδιαίτερα σε ευαίσθητες καταστάσεις και καταστάσεις υψηλού κινδύνου.

Εάν καταφέρουμε να υιοθετήσουμε υπεύθυνα τεχνολογίες παραγωγής τεχνητής νοημοσύνης, θα ανοίξουμε το δρόμο για ένα μέλλον όπου η τεχνητή νοημοσύνη και η ανθρώπινη τεχνογνωσία θα συνεργάζονται για να προωθήσουν την καινοτομία και να δημιουργήσουν έναν καλύτερο κόσμο για όλους.

Σας αρέσει αυτό το άρθρο; Εγγραφείτε για περισσότερες ενημερώσεις έρευνας για την τεχνητή νοημοσύνη.

Θα σας ενημερώσουμε όταν κυκλοφορούμε περισσότερα συνοπτικά άρθρα όπως αυτό.

Σφραγίδα ώρας:

Περισσότερα από ΚΟΡΥΦΑΙΑ