Εικόνα από τον συγγραφέα | Δημιουργός εικόνων Bing
Ντόλι 2.0 είναι ένα μοντέλο ανοιχτού κώδικα, που ακολουθείται από οδηγίες, μεγάλης γλώσσας (LLM) που έχει ρυθμιστεί με ακρίβεια σε ένα σύνολο δεδομένων που δημιουργήθηκε από τον άνθρωπο. Μπορεί να χρησιμοποιηθεί τόσο για ερευνητικούς όσο και για εμπορικούς σκοπούς.
Εικόνα από Hugging Face Space από τον RamAnanth1
Προηγουμένως, η ομάδα Databricks κυκλοφόρησε Ντόλι 1.0, LLM, το οποίο παρουσιάζει οδηγίες τύπου ChatGPT που ακολουθεί την ικανότητα και κοστίζει λιγότερο από 30 $ για την εκπαίδευση. Χρησιμοποιούσε το σύνολο δεδομένων της ομάδας Stanford Alpaca, το οποίο ήταν υπό περιορισμένη άδεια (μόνο για έρευνα).
Το Dolly 2.0 έχει επιλύσει αυτό το ζήτημα βελτιστοποιώντας το μοντέλο γλώσσας παραμέτρων 12Β (Πύθια) σε μια οδηγία υψηλής ποιότητας που δημιουργήθηκε από τον άνθρωπο στο ακόλουθο σύνολο δεδομένων, το οποίο επισημάνθηκε από έναν υπάλληλο της Datbricks. Τόσο το μοντέλο όσο και το σύνολο δεδομένων είναι διαθέσιμα για εμπορική χρήση.
Το Dolly 1.0 εκπαιδεύτηκε σε ένα σύνολο δεδομένων Stanford Alpaca, το οποίο δημιουργήθηκε χρησιμοποιώντας το OpenAI API. Το σύνολο δεδομένων περιέχει την έξοδο από το ChatGPT και εμποδίζει οποιονδήποτε να το χρησιμοποιήσει για να ανταγωνιστεί το OpenAI. Εν ολίγοις, δεν μπορείτε να δημιουργήσετε ένα εμπορικό chatbot ή μια εφαρμογή γλώσσας με βάση αυτό το σύνολο δεδομένων.
Τα περισσότερα από τα τελευταία μοντέλα που κυκλοφόρησαν τις τελευταίες εβδομάδες υπέφεραν από τα ίδια προβλήματα, όπως μοντέλα Αιγοκάμηλος, Δενδρόβιο ζώο της αυστραλίας, GPT4All, να Vicuna. Για να ξεφύγουμε, πρέπει να δημιουργήσουμε νέα σύνολα δεδομένων υψηλής ποιότητας που μπορούν να χρησιμοποιηθούν για εμπορική χρήση, και αυτό έκανε η ομάδα Databricks με το σύνολο δεδομένων databricks-dolly-15k.
Το νέο σύνολο δεδομένων περιέχει 15,000 υψηλής ποιότητας ζεύγη προτροπής/απόκρισης με ανθρώπινη ετικέτα που μπορούν να χρησιμοποιηθούν για τη σχεδίαση μοντέλων γλωσσικών μοντέλων για συντονισμό εντολών. ο databricks-dolly-15k Το σύνολο δεδομένων συνοδεύεται από Creative Commons Attribution-ShareAlike 3.0 Unported License, το οποίο επιτρέπει σε οποιονδήποτε να το χρησιμοποιήσει, να το τροποποιήσει και να δημιουργήσει μια εμπορική εφαρμογή σε αυτό.
Πώς δημιούργησαν το σύνολο δεδομένων databricks-dolly-15k;
Η έρευνα OpenAI χαρτί αναφέρει ότι το αρχικό μοντέλο InstructGPT εκπαιδεύτηκε σε 13,000 προτροπές και απαντήσεις. Χρησιμοποιώντας αυτές τις πληροφορίες, η ομάδα Databricks άρχισε να εργάζεται πάνω σε αυτό και αποδεικνύεται ότι η δημιουργία 13 ερωτήσεων και απαντήσεων ήταν μια δύσκολη εργασία. Δεν μπορούν να χρησιμοποιήσουν συνθετικά δεδομένα ή δεδομένα παραγωγής τεχνητής νοημοσύνης και πρέπει να δημιουργούν πρωτότυπες απαντήσεις σε κάθε ερώτηση. Εδώ αποφάσισαν να χρησιμοποιήσουν 5,000 υπαλλήλους της Databricks για να δημιουργήσουν δεδομένα που δημιουργούνται από τον άνθρωπο.
Οι Databricks έχουν οργανώσει έναν διαγωνισμό, στον οποίο οι 20 κορυφαίοι labelers θα έπαιρναν ένα μεγάλο βραβείο. Σε αυτόν τον διαγωνισμό, συμμετείχαν 5,000 υπάλληλοι της Databricks που ενδιαφέρθηκαν πολύ για τα LLM
Το dolly-v2-12b δεν είναι ένα μοντέλο τελευταίας τεχνολογίας. Έχει χαμηλότερη απόδοση από το dolly-v1-6b σε ορισμένα σημεία αναφοράς αξιολόγησης. Μπορεί να οφείλεται στη σύνθεση και το μέγεθος των υποκείμενων συνόλων δεδομένων λεπτομερούς ρύθμισης. Η οικογένεια μοντέλων Dolly βρίσκεται υπό ενεργό ανάπτυξη, επομένως ενδέχεται να δείτε μια ενημερωμένη έκδοση με καλύτερες επιδόσεις στο μέλλον.
Εν ολίγοις, το μοντέλο dolly-v2-12b έχει καλύτερες επιδόσεις από τα EleutherAI/gpt-neox-20b και EleutherAI/pythia-6.9b.
Εικόνα από Δωρεάν Dolly
Το Dolly 2.0 είναι 100% ανοιχτού κώδικα. Έρχεται με κώδικα εκπαίδευσης, σύνολο δεδομένων, βάρη μοντέλων και γραμμή συμπερασμάτων. Όλα τα εξαρτήματα είναι κατάλληλα για εμπορική χρήση. Μπορείτε να δοκιμάσετε το μοντέλο στο Hugging Face Spaces Dolly V2 από RamAnanth1.
Εικόνα από Αγκαλιάζοντας το πρόσωπο
Resource:
Επίδειξη Dolly 2.0: Dolly V2 από RamAnanth1
Αμπίντ Αλί Αουάν (@1abidaliawan) είναι πιστοποιημένος επαγγελματίας επιστήμονας δεδομένων που λατρεύει την κατασκευή μοντέλων μηχανικής μάθησης. Επί του παρόντος, εστιάζει στη δημιουργία περιεχομένου και στη σύνταξη τεχνικών ιστολογίων για τη μηχανική μάθηση και τις τεχνολογίες επιστήμης δεδομένων. Ο Abid είναι κάτοχος μεταπτυχιακού τίτλου στη Διοίκηση Τεχνολογίας και πτυχίου στη Μηχανική Τηλεπικοινωνιών. Το όραμά του είναι να δημιουργήσει ένα προϊόν τεχνητής νοημοσύνης χρησιμοποιώντας ένα νευρωνικό δίκτυο γραφημάτων για μαθητές που παλεύουν με ψυχικές ασθένειες.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- Minting the Future με την Adryenn Ashley. Πρόσβαση εδώ.
- πηγή: https://www.kdnuggets.com/2023/04/dolly-20-chatgpt-open-source-alternative-commercial.html?utm_source=rss&utm_medium=rss&utm_campaign=dolly-2-0-chatgpt-open-source-alternative-for-commercial-use
- :έχει
- :είναι
- :δεν
- $UP
- 000
- 1
- 20
- a
- ικανότητα
- ενεργός
- AI
- Όλα
- επιτρέπει
- εναλλακτική λύση
- an
- και
- απαντήσεις
- κάποιος
- api
- Εφαρμογή
- ΕΙΝΑΙ
- γύρω
- συγγραφέας
- διαθέσιμος
- βραβείο
- βασίζονται
- BE
- αναφοράς
- Berkeley
- Καλύτερα
- Μεγάλος
- Bing
- ιστολόγια
- και οι δύο
- χτίζω
- Κτίριο
- by
- CAN
- δεν μπορώ
- Πιστοποίηση
- chatbot
- ChatGPT
- κωδικός
- εμπορικός
- Κοινά
- ανταγωνίζονται
- εξαρτήματα
- Περιέχει
- περιεχόμενο
- δημιουργία περιεχομένου
- διαγωνισμός
- Δικαστικά έξοδα
- δημιουργία
- δημιουργήθηκε
- δημιουργία
- Τη στιγμή
- ημερομηνία
- επιστημονικά δεδομένα
- επιστήμονας δεδομένων
- Βάσεις δεδομένων
- σύνολα δεδομένων
- αποφάσισε
- Πτυχίο
- Διαδήλωση
- Υπηρεσίες
- Ανάπτυξη
- DID
- δύσκολος
- Κουκλίτσα
- Υπάλληλος
- υπαλλήλους
- Μηχανική
- εκτίμηση
- Κάθε
- εκθέματα
- Πρόσωπο
- οικογένεια
- λίγοι
- εστιάζοντας
- Εξής
- Για
- από
- μελλοντικός
- παράγουν
- παραγωγής
- γενετική
- παίρνω
- γραφική παράσταση
- Γράφημα Νευρωνικό Δίκτυο
- Έχω
- he
- υψηλής ποιότητας
- κατέχει
- HTML
- HTTPS
- ασθένεια
- εικόνα
- in
- πληροφορίες
- ενδιαφερόμενος
- ζήτημα
- θέματα
- IT
- jpg
- KDnuggets
- Γλώσσα
- large
- Επίθετο
- αργότερο
- μάθηση
- Άδεια
- Μου αρέσει
- μηχανή
- μάθηση μηχανής
- διαχείριση
- κύριος
- ψυχική
- Ψυχική ασθένεια
- ενδέχεται να
- μοντέλο
- μοντέλα
- τροποποιήσει
- Ανάγκη
- δίκτυο
- Νευρικός
- νευρικό σύστημα
- Νέα
- of
- on
- αποκλειστικά
- ανοίξτε
- ανοικτού κώδικα
- OpenAI
- or
- πρωτότυπο
- παραγωγή
- ζεύγη
- παράμετρος
- συμμετείχαν
- επίδοση
- αγωγού
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Προϊόν
- επαγγελματίας
- σκοποί
- ερώτηση
- Ερωτήσεις
- κυκλοφόρησε
- έρευνα
- επιλυθεί
- περιορισμένος
- s
- ίδιο
- Επιστήμη
- Επιστήμονας
- σειρά
- Κοντά
- Μέγεθος
- So
- μερικοί
- Πηγή
- Χώρος
- χώρων
- stanford
- ξεκίνησε
- state-of-the-art
- Μελών
- Παλεύοντας
- Φοιτητές
- κατάλληλος
- συνθετικός
- συνθετικά δεδομένα
- Έργο
- Τεχνικός
- Τεχνολογίες
- Τεχνολογία
- τηλεπικοινωνία
- από
- ότι
- Η
- Το μέλλον
- αυτοί
- αυτό
- προς την
- κορυφή
- Τρένο
- εκπαιδευμένο
- Εκπαίδευση
- υπό
- υποκείμενες
- ενημερώθηκε
- χρήση
- μεταχειρισμένος
- χρησιμοποιώντας
- εκδοχή
- όραμα
- ήταν
- we
- Εβδ.
- ήταν
- Τι
- Ποιό
- Ο ΟΠΟΊΟΣ
- με
- Εργασία
- θα
- γραφή
- εσείς
- zephyrnet