ChatGPT Ενσωματωμένο στο Robot, Internet Fears End of Civilization

ChatGPT Ενσωματωμένο στο Robot, Internet Fears End of Civilization

Κόμβος πηγής: 2611695

Μια ομάδα ερευνητών διδακτορικών φοιτητών από τη Σαουδική Αραβία ανέπτυξε ένα νέο εργαλείο με τεχνητή νοημοσύνη, το MiniGPT-4, το οποίο έχει παρόμοια χαρακτηριστικά με OpenAI's ChatGPT-4.

Από ChatGPT κυκλοφόρησε τον Νοέμβριο και έγινε παγκόσμια επιτυχία, οι προγραμματιστές δεν σταμάτησαν τίποτα για να βρουν νέα εργαλεία τεχνητής νοημοσύνης που είτε συναγωνίζονται το δημοφιλές chatbot είτε το συμπληρώνουν.

Το MiniGPT-4, που αναπτύχθηκε χρησιμοποιώντας το μοντέλο ChatGPT, είναι μόνο το πιο πρόσφατο παράδειγμα.

Διαβάστε επίσης: Bill Gates: Τα Chatbots AI θα μπορούσαν να διδάξουν στα παιδιά να διαβάζουν σε 18 μήνες

Σύμφωνα με Μελλοντικά Εργαλεία, το MiniGPT-4 είναι ικανό για πολλές εργασίες, συμπεριλαμβανομένων των γενεών περιγραφής εικόνων και της δημιουργίας ιστοτόπων.

«Αυτό το εργαλείο είναι ικανό να δημιουργεί λεπτομερείς περιγραφές εικόνων, να δημιουργεί ιστοσελίδες από χειρόγραφα προσχέδια, να γράφει ιστορίες και ποιήματα εμπνευσμένα από δεδομένες εικόνες, να παρέχει λύσεις σε προβλήματα που εμφανίζονται στις εικόνες και να διδάσκει στους χρήστες πώς να μαγειρεύουν με βάση φωτογραφίες φαγητού», ισχυρίζεται το Future. Εργαλεία.

Όταν κυκλοφόρησε το ChatGPT-4, εμφανίστηκε ένα βίντεο του μοντέλου που κατασκεύαζε έναν ιστότοπο από μια εικόνα σκίτσου. Σύμφωνα με tweet του Barsee, Το MiniGPT-4 έχει την ικανότητα να κάνει το ίδιο κατόρθωμα. Η μόνη διαφορά είναι ότι το ChatGPT-4 δεν είναι διαθέσιμο σε όλους προς το παρόν, ενώ το MiniGPT-4 είναι ήδη στη φύση.

Κατανόηση του MiniGPT

Σύμφωνα με Γκάρες, το MiniGPT-4 χρησιμοποιεί ένα προηγμένο LLM που ονομάζεται Vicuna ως αποκωδικοποιητή γλώσσας, το οποίο βασίζεται στο LLaMa και αναφέρεται ότι επιτυγχάνει το 90% της ποιότητας του ChatGPT όπως αξιολογείται από το GPT-4.

Το μοντέλο AI έχει χρησιμοποιήσει το προεκπαιδευμένο στοιχείο του Bootstrapping Language Image Pre-training (BLIP-2) και έχει προσθέσει ένα μόνο στρώμα έγχυσης για να ευθυγραμμίσει τα κωδικοποιημένα οπτικά χαρακτηριστικά με το μοντέλο γλώσσας Vicuna παγώνοντας όλα τα άλλα στοιχεία όρασης και γλώσσας.

Ντέιβιντ Γουότσον λέει ότι το MiniGPT είναι ελαφρύ και μπορεί να εφαρμοστεί εύκολα σε καταστάσεις πραγματικού χρόνου, όπως chatbot, εικονικούς βοηθούς και αυτοματοποιημένα συστήματα υποτίτλων εικόνων.

Παραθέτει επίσης μερικές πιθανές εφαρμογές που μπορούν να χρησιμοποιηθούν για το MiniGPT-4: δημιουργία συστημάτων υπότιτλων εικόνων που απαιτούν μόνο ελαφρούς πόρους. και περιγραφή εικόνας για άτομα με προβλήματα όρασης με χρήση ακουστικής περιγραφής, μια μέθοδος που θα απαιτούσε να συμπεριληφθεί ένα σύστημα κειμένου σε ήχο.

Ενώ OpenAI επιβεβαίωσαν τις πολυτροπικές δυνατότητες του GPT-4, δεν έχουν ακόμη αποκαλύψει τις ικανότητές του για επεξεργασία εικόνας. Το MiniGPT-4 καλύπτει αυτό το κενό επεξεργάζοντας εικόνες παράλληλα με τη γλώσσα χρησιμοποιώντας ένα πιο εξελιγμένο LLM.

Ένα εργαλείο AI για να βοηθήσει την έρευνα

Οι ειδικοί λένε ότι το υπερσύγχρονο μοντέλο θεμελιώδους γλώσσας που χρησιμοποιείται έχει σχεδιαστεί για να βοηθήσει τους ερευνητές να προωθήσουν το έργο τους σε αυτό το συγκεκριμένο τμήμα τεχνητής νοημοσύνης.

Δεδομένου ότι το OpenAI δεν έχει αποκαλύψει πολλές πληροφορίες σχετικά με την αρχιτεκτονική, το μέγεθος του μοντέλου, το υλικό, τον υπολογισμό εκπαίδευσης, την κατασκευή δεδομένων ή τη μέθοδο εκπαίδευσης του GPT-4, η φύση ανοιχτού κώδικα του MiniGPT-4 μπορεί να αποδειχθεί ιδιαίτερα πολύτιμη για τους ερευνητές.

«Η ικανότητα του MiniGPT να επεξεργάζεται εικόνες παρέχει στους ερευνητές νέες ευκαιρίες να διερευνήσουν τη σχέση μεταξύ μοντέλων γλώσσας και όρασης», δήλωσε η Yana Khara, γράφοντας για Analytics Vidhaya.

«Προσφέροντας ένα μικρότερο, πιο προσιτό μοντέλο για να εργαστούν οι ερευνητές, το MiniGPT-4 μπορεί να οδηγήσει στην καινοτομία και τις προόδους στην τεχνολογία AI.

«Επιπλέον, η βάση ανοιχτού κώδικα του μοντέλου διασφαλίζει ότι η ερευνητική κοινότητα μπορεί να συνεργαστεί και να μοιραστεί τα ευρήματά της για περαιτέρω πρόοδο στον τομέα».

Το MiniGPT μεταφέρει τους υπότιτλους εικόνων σε άλλο επίπεδο

Barsee, ο οποίος δημοσίευσε ένα νήμα στο Twitter που περιγράφει πώς μπορεί να χρησιμοποιηθεί το MiniGPT-4 για συνομιλία με εικόνες, συμπεριέλαβε μερικές από τις ακόλουθες περιπτώσεις:

Διόρθωση σπασμένων αντικειμένων

Ανεβάζοντας μια εικόνα ενός σπασμένου αντικειμένου στην πλατφόρμα MiniGPT και ρωτώντας πώς θα μπορούσατε να διορθώσετε την κατάσταση στην εικόνα, το chatbot θα εξηγήσει την κατάσταση στην εικόνα και θα προτείνει τρόπους επίλυσης των προβλημάτων που εντοπίστηκαν.

Στο tweet, Το MiniGPT μπορεί εύκολα να εντοπίσει το πρόβλημα, ένα πλυντήριο ρούχων με διαρροή, εξηγώντας τους λόγους για τους οποίους θα μπορούσε να συμβεί η διαρροή και παρέχει επίσης μια λίστα λύσεων που θα μπορούσε να δοκιμάσει ο χρήστης.

Συγγραφή διαφημίσεων

Σε ένα άλλο tweet από τον Barsee στο νήμα MiniGPT, συμπεριέλαβε ένα σενάριο όπου στο MiniGPT δόθηκε μια εικόνα μιας κούπας που φτιάχνει και πουλάει ο χρήστης. Στη συνέχεια, ο χρήστης ζητά από το chatbot να γράψει μια διαφήμιση για την εμπορία των κούπες, κάτι που το chatbot κάνει δεόντως.

Σύντομες εισαγωγές

Απλώς ανεβάστε μια εικόνα μιας ταινίας και ζητήστε από το MiniGPT να σας κάνει μια σύντομη εισαγωγή. Στη συνέχεια θα παράγει μια εισαγωγή παραγράφου της εν λόγω ταινίας. Όπως φαίνεται στο tweet, το MiniGPT chatbot αναγνωρίζει την εικόνα από το "The Godfather" και γράφει μια εισαγωγή της ταινίας σύμφωνα με τις οδηγίες.

Στην αγορά αναπτύχθηκαν αμέτρητα νέα εργαλεία τεχνητής νοημοσύνης από τότε που κυκλοφόρησε το ChatGPT. Υπάρχουν περισσότερες εναλλακτικές λύσεις για το διάσημο chatbot με άλλα που φέρεται να το ξεπερνούν, κυρίως Auto-GPT, η οποία εξακολουθεί να κάνει πάταγο στην κοινότητα της τεχνητής νοημοσύνης. Με αυτόν τον ρυθμό, φαίνεται σχεδόν αναπόφευκτο ότι θα καταλήξουμε σε μια αμηχανία πλούτου AI για σχεδόν οποιαδήποτε ανθρώπινη εργασία.

Σφραγίδα ώρας:

Περισσότερα από MetaNews