Εικόνα από το Bing Image Creator
Το Meta AI μόλις κυκλοφόρησε ανοιχτού κώδικα Μοντέλα DINOv2 η πρώτη μέθοδος που χρησιμοποιεί αυτοεποπτευόμενη μάθηση για την εκπαίδευση μοντέλων όρασης υπολογιστή. Τα μοντέλα DINOv2 επιτυγχάνουν αποτελέσματα που ταιριάζουν ή είναι ακόμη καλύτερα από την τυπική προσέγγιση και τα μοντέλα στο πεδίο.
Τα μοντέλα πέτυχαν ισχυρή απόδοση χωρίς την ανάγκη λεπτομέρειας, γεγονός που αποτελεί την τέλεια επιλογή για πολλές διαφορετικές εργασίες και εφαρμογές όρασης υπολογιστή. Το DINOv2 μπορεί να μάθει από διάφορες συλλογές εικόνων και χαρακτηριστικών, όπως εκτίμηση βάθους χωρίς να χρειάζεται ρητή εκπαίδευση, χάρη στην αυτοεποπτευόμενη μέθοδο εκπαίδευσης.
Εικόνα 1: DINOv2: Αυτο-εποπτευόμενα μοντέλα όρασης υπολογιστή από Meta AI
1.1. Δεν απαιτείται μικρορύθμιση
Η αυτοεποπτευόμενη μάθηση είναι μια ισχυρή μέθοδος που χρησιμοποιείται για την εκπαίδευση μοντέλων μηχανικής εκμάθησης χωρίς την ανάγκη μεγάλων ποσοτήτων δεδομένων με ετικέτα. Τα μοντέλα DINOv2 μπορούν να εκπαιδευτούν σε σώματα εικόνων χωρίς να χρειάζονται σχετικά μεταδεδομένα, συγκεκριμένο hashtag ή λεζάντες εικόνας. Τα μοντέλα DinoV2, σε αντίθεση με πολλές πρόσφατες προσεγγίσεις αυτοεποπτεύουσας μάθησης, δεν απαιτούν λεπτομερή ρύθμιση, παράγοντας έτσι χαρακτηριστικά υψηλής απόδοσης για διαφορετικές εφαρμογές όρασης υπολογιστή.
1.2. Ξεπερνώντας τους ανθρώπινους περιορισμούς σχολιασμού
Κατά τη διάρκεια των τελευταίων ετών, προπόνηση εικόνας-κειμένου έχει γίνει η κυρίαρχη μέθοδος για διάφορες εφαρμογές υπολογιστικής όρασης. Ωστόσο, λόγω της εξάρτησής του από λεζάντες με ανθρώπινη ετικέτα για να μάθει τη σημασιολογική έννοια των εικόνων. Αυτή η προσέγγιση συχνά παραβλέπει κρίσιμες πληροφορίες που δεν περιλαμβάνονται ρητά σε αυτές τις λεζάντες. Για παράδειγμα, μια λεζάντα ανθρώπινης ετικέτας μιας εικόνας ενός κόκκινου τραπεζιού σε ένα κίτρινο δωμάτιο μπορεί να είναι "Ένα κόκκινο ξύλινο τραπέζι". Αυτή η λεζάντα θα χάσει ορισμένες σημαντικές πληροφορίες σχετικά με το φόντο, τη θέση και το μέγεθος του πίνακα. Αυτό θα προκαλέσει έλλειψη κατανόησης των τοπικών πληροφοριών και θα οδηγήσει σε κακή απόδοση σε εργασίες που απαιτούν λεπτομερείς πληροφορίες τοπικής προσαρμογής.
Επίσης, η ανάγκη για ανθρώπινες ετικέτες και σχολιασμούς θα περιορίσει τον όγκο των δεδομένων που μπορούμε να συλλέξουμε για την εκπαίδευση των μοντέλων. Αυτό γίνεται πολύ πιο δύσκολο για ορισμένες εφαρμογές, για παράδειγμα, ο σχολιασμός ενός κελιού απαιτεί ένα ορισμένο επίπεδο ανθρώπινης εμπειρίας που δεν θα είναι διαθέσιμο στην απαιτούμενη κλίμακα. Η χρήση μιας αυτο-εποπτευόμενης προσέγγισης εκπαίδευσης σε κυτταρικές εικόνες ανοίγει το δρόμο για ένα πιο θεμελιώδες μοντέλο και ως αποτέλεσμα θα βελτιώσει βιολογική ανακάλυψη. Το ίδιο ισχύει για παρόμοια προηγμένα πεδία όπως η εκτίμηση του πυκνότητα των ζώων.
Η μετάβαση από το DINO στο DINOv2 απαιτούσε την υπέρβαση πολλών προκλήσεων όπως π.χ
- Δημιουργία μεγάλου και επιμελημένου συνόλου δεδομένων εκπαίδευσης
- Βελτίωση του αλγόριθμου εκπαίδευσης και υλοποίηση
- Σχεδιασμός λειτουργικού αγωγού απόσταξης.
Σχήμα 2: DINO v1 vs v2 σύγκριση της ακρίβειας τμηματοποίησης
2.1. Δημιουργία ενός μεγάλου, επιμελημένου και ποικίλου συνόλου δεδομένων εικόνων
One of the main steps to building the DINOv2 is to train larger architectures and models to enhance the model’s performance. However, larger models require large datasets to be efficiently trained. Since there were no large datasets available that meet the requirements researchers leveraged publicly crawled web data and built a pipeline to select only useful data as in LASER.
Ωστόσο, δύο κύριες εργασίες πρέπει να γίνουν για να μπορέσουμε να χρησιμοποιήσουμε αυτά τα σύνολα δεδομένων:
- Ισορροπήστε τα δεδομένα σε διαφορετικές έννοιες και εργασίες
- Αφαιρέστε άσχετες εικόνες
Καθώς αυτή η εργασία μπορεί να ολοκληρωθεί με μη αυτόματο τρόπο, επιμελήθηκαν ένα σύνολο εικόνων από περίπου 25 σύνολα δεδομένων τρίτων και το επέκτεισαν φέρνοντας εικόνες που σχετίζονται στενά με αυτές τις αρχικές εικόνες. Αυτή η προσέγγιση τους επέτρεψε να παράγουν ένα σχετικό σύνολο δεδομένων με συνολικά 142 εκατομμύρια εικόνες από 1.2 δισεκατομμύρια εικόνες.
2.2. Αλγοριθμικές και τεχνικές βελτιώσεις
Αν και η χρήση μεγαλύτερων μοντέλων και συνόλων δεδομένων θα οδηγήσει σε καλύτερα αποτελέσματα, συνοδεύεται από σημαντικές προκλήσεις. Δύο από τις κύριες προκλήσεις είναι η πιθανή αστάθεια και η παραμονή σε έλξη κατά τη διάρκεια της προπόνησης. Για να γίνει η προπόνηση πιο σταθερή, το DINOv2 περιλαμβάνει πρόσθετες μεθόδους τακτοποίησης από τις οποίες εμπνεύστηκαν αναζήτηση ομοιότητας και ταξινόμηση βιβλιογραφία.
Η εκπαιδευτική διαδικασία του DINOv2 ενσωματώνει τις πιο πρόσφατες εκπαιδευτικές υλοποιήσεις μικτής ακρίβειας και κατανεμημένες που παρέχονται από την αιχμή PyTorch 2. Αυτό επέτρεψε την ταχύτερη εφαρμογή των κωδικών και η χρήση του ίδιου υλικού για την εκπαίδευση μοντέλων DINO είχε ως αποτέλεσμα τη διπλάσια ταχύτητα και το ένα τρίτο της χρήσης μνήμης που επέτρεψε την κλιμάκωση των δεδομένων και του μεγέθους του μοντέλου.
2.3. Μείωση του χρόνου συμπερασμάτων με χρήση μοντέλων απόσταξης
Η εκτέλεση μεγάλων μοντέλων σε συμπέρασμα απαιτεί ισχυρό υλικό που θα περιορίσει την πρακτική χρήση των μεθόδων για διαφορετικές περιπτώσεις χρήσης. Για να ξεπεράσουν αυτό το πρόβλημα, οι ερευνητές χρησιμοποίησαν απόσταξη μοντέλων για να συμπιέσουν τη γνώση των μεγάλων μοντέλων σε μικρότερα. Χρησιμοποιώντας αυτήν την προσέγγιση, οι ερευνητές μπόρεσαν να συμπυκνώσουν αρχιτεκτονικές υψηλής απόδοσης σε μικρότερες με αμελητέο κόστος απόδοσης. Αυτό είχε ως αποτέλεσμα ισχυρά μοντέλα ViT-Small, ViT-Base και ViT-Large.
Ο κώδικας εκπαίδευσης και αξιολόγησης απαιτεί PyTorch 2.0 και xΠρώην 0.0.18 καθώς και πολλά άλλα πακέτα τρίτων και επίσης ο κώδικας αναμένει περιβάλλον Linux. Οι ακόλουθες οδηγίες περιγράφουν πώς να διαμορφώσετε όλες τις απαραίτητες εξαρτήσεις για σκοπούς εκπαίδευσης και αξιολόγησης:
- Εγκαταστήστε το PyTorch χρησιμοποιώντας τις οδηγίες εδώ. Συνιστάται η εγκατάσταση του PyTorch με υποστήριξη CUDA.
- Λήψη Conda
- Κλωνοποιήστε το αποθετήριο DINOv2 χρησιμοποιώντας την ακόλουθη εντολή:
Κωδικός ανά συγγραφέα
- Proceed to create and activate a Conda environment named “dinov2” using the provided environment definition:
Κωδικός ανά συγγραφέα
- Για να εγκαταστήσετε τις εξαρτήσεις που απαιτούνται για αυτό το έργο, χρησιμοποιήστε το παρεχόμενο αρχείο requires.txt.
Κωδικός ανά συγγραφέα
- Τέλος, μπορείτε να φορτώσετε τα μοντέλα χρησιμοποιώντας τον παρακάτω κώδικα:
Κωδικός ανά συγγραφέα
Συμπερασματικά, η κυκλοφορία των μοντέλων DINOv2 από τη Meta AI σηματοδοτεί ένα σημαντικό ορόσημο. Η αυτοεποπτευόμενη προσέγγιση εκμάθησης που χρησιμοποιείται από τα μοντέλα DINOv2 παρέχει έναν ισχυρό τρόπο εκπαίδευσης μοντέλων μηχανικής εκμάθησης χωρίς την ανάγκη μεγάλων ποσοτήτων δεδομένων με ετικέτα. Με την ικανότητα επίτευξης υψηλής ακρίβειας χωρίς την απαίτηση για μικρορύθμιση, αυτά τα μοντέλα είναι κατάλληλα για διάφορες εργασίες και εφαρμογές όρασης υπολογιστή. Επιπλέον, το DINOv2 μπορεί να μάθει από διαφορετικές συλλογές εικόνων και μπορεί να μάθει από χαρακτηριστικά όπως η εκτίμηση βάθους χωρίς ρητή εκπαίδευση. Η διαθεσιμότητα του DINOv2 ως μοντέλου ανοιχτού κώδικα ανοίγει τις πόρτες σε ερευνητές και προγραμματιστές να εξερευνήσουν νέες δυνατότητες σε εργασίες και εφαρμογές όρασης υπολογιστή.
αναφορές
Γιουσέφ Ραφαάτ είναι ερευνητής όρασης υπολογιστών και επιστήμονας δεδομένων. Η έρευνά του επικεντρώνεται στην ανάπτυξη αλγορίθμων υπολογιστικής όρασης σε πραγματικό χρόνο για εφαρμογές υγειονομικής περίθαλψης. Εργάστηκε επίσης ως επιστήμονας δεδομένων για περισσότερα από 3 χρόνια στον τομέα του μάρκετινγκ, των οικονομικών και της υγειονομικής περίθαλψης.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoAiStream. Web3 Data Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- Minting the Future με την Adryenn Ashley. Πρόσβαση εδώ.
- Αγορά και πώληση μετοχών σε εταιρείες PRE-IPO με το PREIPO®. Πρόσβαση εδώ.
- πηγή: https://www.kdnuggets.com/2023/05/dinov2-selfsupervised-computer-vision-models-meta-ai.html?utm_source=rss&utm_medium=rss&utm_campaign=dinov2-self-supervised-computer-vision-models-by-meta-ai
- :έχει
- :είναι
- :δεν
- 1
- 1.2 δις
- 3
- a
- ικανότητα
- Ικανός
- Σχετικα
- επιτυγχάνεται
- Κατορθώνω
- επιτευχθεί
- απέναντι
- Πρόσθετος
- προηγμένες
- AI
- αλγόριθμος
- αλγοριθμικός
- αλγόριθμοι
- Όλα
- Επίσης
- ποσό
- Ποσά
- an
- και
- ζώο
- εφαρμογές
- πλησιάζω
- προσεγγίσεις
- περίπου
- ΕΙΝΑΙ
- AS
- At
- διαθεσιμότητα
- διαθέσιμος
- φόντο
- BE
- γίνονται
- γίνεται
- παρακάτω
- Καλύτερα
- Δισεκατομμύριο
- Bing
- Κτίριο
- χτισμένο
- by
- CAN
- λεζάντες
- περιπτώσεις
- Αιτία
- ορισμένες
- προκλήσεις
- επιλογή
- στενά
- κωδικός
- συλλέγουν
- συλλογές
- έρχεται
- σύγκριση
- υπολογιστή
- Computer Vision
- Εφαρμογές Computer Vision
- έννοιες
- συμπέρασμα
- Δικαστικά έξοδα
- δημιουργία
- δημιουργία
- κρίσιμος
- επιμέλεια
- ημερομηνία
- επιστήμονας δεδομένων
- σύνολα δεδομένων
- Ζήτηση
- εξάρτηση
- βάθος
- λεπτομερής
- προγραμματιστές
- ανάπτυξη
- διαφορετικές
- διανέμονται
- κατανεμημένη εκπαίδευση
- διάφορα
- do
- τομέα
- γίνεται
- πόρτες
- διπλασιαστεί
- δυο
- κατά την διάρκεια
- αποτελεσματικά
- ενίσχυση
- Περιβάλλον
- Αιθέρας (ΕΤΗ)
- εκτίμηση
- Even
- παράδειγμα
- επεκτάθηκε
- αναμένει
- εξειδίκευση
- διερευνήσει
- γρηγορότερα
- Χαρακτηριστικά
- λίγοι
- πεδίο
- Πεδία
- Αρχεία
- χρηματοδότηση
- Όνομα
- εστιάζει
- Εξής
- Για
- από
- λειτουργικός
- gif
- υλικού
- hashtag
- he
- υγειονομική περίθαλψη
- Ψηλά
- υψηλή απόδοση
- του
- Πως
- Πώς να
- Ωστόσο
- HTML
- HTTPS
- ανθρώπινος
- εικόνα
- εικόνες
- εκτέλεση
- σημαντικό
- in
- περιλαμβάνονται
- περιλαμβάνει
- πληροφορίες
- εμπνευσμένος
- αστάθεια
- εγκαθιστώ
- οδηγίες
- Ενσωματώνει
- σε
- IT
- ΤΟΥ
- μόλις
- KDnuggets
- γνώση
- επιγραφή
- Ετικέτες
- Έλλειψη
- large
- μεγαλύτερος
- αργότερο
- οδηγήσει
- ΜΑΘΑΊΝΩ
- μάθηση
- Επίπεδο
- LIMIT
- linux
- λογοτεχνία
- φορτίο
- τοπικός
- Τοπική Προσαρμογή
- μηχανή
- μάθηση μηχανής
- Κυρίως
- μεγάλες
- κάνω
- ΚΑΝΕΙ
- χειροκίνητα
- πολοί
- Μάρκετινγκ
- Ταίριασμα
- νόημα
- Γνωρίστε
- Μνήμη
- Meta
- Μεταδεδομένα
- μέθοδος
- μέθοδοι
- ενδέχεται να
- ορόσημο
- εκατομμύριο
- μοντέλο
- μοντέλα
- περισσότερο
- Εξάλλου
- πολύ
- Ονομάστηκε
- απαραίτητος
- Ανάγκη
- Νέα
- Όχι.
- of
- συχνά
- on
- αυτά
- αποκλειστικά
- ανοικτού κώδικα
- ανοίγει
- or
- ΑΛΛΑ
- έξω
- περίγραμμα
- Ξεπεράστε
- Packages
- κόμμα
- Το παρελθόν
- τέλειος
- επίδοση
- PHP
- εικόνα
- αγωγού
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- φτωχός
- θέση
- δυνατότητες
- δυναμικού
- ισχυρός
- Πρακτικός
- Πρόβλημα
- διαδικασια μας
- παράγει
- σχέδιο
- παρέχεται
- παρέχει
- δημοσίως
- σκοποί
- pytorch
- σε πραγματικό χρόνο
- πρόσφατος
- Red
- σχετίζεται με
- απελευθερώνουν
- κυκλοφόρησε
- υπόλοιπα
- Αποθήκη
- απαιτούν
- απαιτείται
- απαιτήσεις
- Απαιτεί
- έρευνα
- ερευνητής
- ερευνητές
- αποτέλεσμα
- Αποτελέσματα
- Δωμάτιο
- s
- ίδιο
- Κλίμακα
- απολέπιση
- Επιστήμονας
- σπόρος
- κατάτμηση
- σειρά
- διάφοροι
- θα πρέπει να
- σημαντικός
- παρόμοιες
- αφού
- Μέγεθος
- μικρότερος
- μερικοί
- συγκεκριμένες
- ταχύτητα
- σταθερός
- πρότυπο
- Βήματα
- ισχυρός
- τέτοιος
- κατάλληλος
- υποστήριξη
- τραπέζι
- Έργο
- εργασίες
- Τεχνικός
- από
- ευχαριστώ
- ότι
- Η
- Τους
- Εκεί.
- Αυτοί
- αυτοί
- Τρίτος
- τρίτους
- αυτό
- εκείνοι
- ώρα
- προς την
- Σύνολο
- Τρένο
- εκπαιδευμένο
- Εκπαίδευση
- δύο
- κατανόηση
- διαφορετικός
- Χρήση
- χρήση
- μεταχειρισμένος
- χρησιμοποιώντας
- χρησιμοποιώ
- αξιοποιώντας
- v1
- διάφορα
- όραμα
- vs
- Τρόπος..
- we
- ιστός
- ΛΟΙΠΌΝ
- ήταν
- Ποιό
- θα
- με
- χωρίς
- ξύλινος
- εργάστηκαν
- χρόνια
- εσείς
- zephyrnet