Obraz z Kreatora obrazów Bing
Meta AI właśnie wydało open source modele DINOv2 pierwsza metoda, która wykorzystuje uczenie samonadzorowane do trenowania komputerowych modeli wizyjnych. Modele DINOv2 osiągają wyniki, które odpowiadają lub są nawet lepsze niż standardowe podejście i modele w terenie.
Modele osiągnęły wysoką wydajność bez konieczności precyzyjnego dostrajania, co stanowi doskonały wybór do wielu różnych zadań i zastosowań związanych z wizją komputerową. DINOv2 może uczyć się z różnych kolekcji obrazów i funkcji, takich jak szacowanie głębokości, bez potrzeby wyraźnego szkolenia dzięki samonadzorowanej metodzie uczenia.
Rysunek 1: DINOv2: Samonadzorowane komputerowe modele wizyjne opracowane przez Meta AI
1.1. Dostrajanie nie jest wymagane
Samonadzorowane uczenie się to zaawansowana metoda używana do trenowania modeli uczenia maszynowego bez konieczności używania dużych ilości danych z etykietami. Modele DINOv2 można trenować na korpusie obrazu bez potrzeby stosowania powiązanych metadanych, określonego hashtagu lub podpisu obrazu. Modele DinoV2, w przeciwieństwie do kilku ostatnich podejść do samonadzorowanego uczenia się, nie wymagają precyzyjnego dostrajania, tworząc w ten sposób funkcje o wysokiej wydajności dla różnych aplikacji wizyjnych.
1.2. Pokonywanie ograniczeń związanych z adnotacjami ludzkimi
Przez ostatnich kilka lat, wstępne szkolenie obraz-tekst stała się dominującą metodą w różnych zastosowaniach wizyjnych. Jednak ze względu na zależność od podpisów oznaczonych przez ludzi, aby poznać semantyczne znaczenie obrazów. Takie podejście często pomija kluczowe informacje, które nie są wyraźnie zawarte w tych podpisach. Na przykład podpis człowieka na etykiecie zdjęcia czerwonego stołu w żółtym pokoju może brzmieć „Czerwony drewniany stół”. W tym podpisie pominiemy kilka ważnych informacji o tle, pozycji i rozmiarze stołu. Spowoduje to brak zrozumienia informacji lokalnych i spowoduje słabą wydajność zadań wymagających szczegółowych informacji o lokalizacji.
Ponadto potrzeba ludzkich etykiet i adnotacji ograniczy ilość danych, które możemy zebrać, aby wyszkolić modele. Staje się to znacznie trudniejsze w przypadku niektórych aplikacji, na przykład opisywanie komórki wymaga pewnego poziomu wiedzy fachowej człowieka, który nie będzie dostępny w wymaganej skali. Zastosowanie samonadzorowanego podejścia szkoleniowego do obrazowania komórkowego otwiera drogę do bardziej fundamentalnego modelu, a w rezultacie poprawi odkrycie biologiczne. To samo dotyczy podobnych zaawansowanych pól jak oszacowanie zagęszczenie zwierząt.
Przejście z DINO na DINOv2 wymagało pokonania kilku wyzwań, takich jak
- Tworzenie dużego i wyselekcjonowanego zestawu danych szkoleniowych
- Doskonalenie algorytmu uczenia i implementacji
- Projektowanie funkcjonalnego rurociągu destylacyjnego.
Rysunek 2: Porównanie precyzji segmentacji DINO v1 i v2
2.1. Tworzenie dużego, wyselekcjonowanego i zróżnicowanego zestawu danych obrazu
Jednym z głównych kroków do zbudowania DINOv2 jest uczenie większych architektur i modeli w celu zwiększenia wydajności modelu. Jednak większe modele wymagają wydajnego uczenia dużych zestawów danych. Ponieważ nie było dostępnych dużych zbiorów danych, które spełniałyby wymagania, badacze wykorzystali publicznie przeszukiwane dane internetowe i zbudowali potok w celu wybrania tylko użytecznych danych, jak w LASER.
Jednak aby móc korzystać z tych zbiorów danych, należy wykonać dwa główne zadania:
- Zrównoważ dane w różnych koncepcjach i zadaniach
- Usuń nieistotne obrazy
Ponieważ zadanie to można wykonać ręcznie, wybrali zestaw obrazów źródłowych z około 25 zestawów danych innych firm i rozszerzyli go, pobierając obrazy, które są ściśle z nimi powiązane. Takie podejście pozwoliło im stworzyć odpowiedni zestaw danych obejmujący łącznie 142 miliony obrazów z 1.2 miliarda obrazów.
2.2. Udoskonalenia algorytmiczne i techniczne
Chociaż korzystanie z większych modeli i zbiorów danych prowadzi do lepszych wyników, wiąże się to z poważnymi wyzwaniami. Dwa z głównych wyzwań to potencjalna niestabilność i pozostawanie podatnym na leczenie podczas treningu. Aby trening był bardziej stabilny, DINOv2 zawiera dodatkowe metody regularyzacji, które zostały zainspirowane wyszukiwanie podobieństw i klasyfikacja literatura.
Proces szkolenia DINOv2 integruje najnowsze implementacje szkolenia o mieszanej precyzji i rozproszeniu zapewniane przez najnowocześniejsze PyTorch 2. Pozwoliło to na szybszą implementację kodów i użycie tego samego sprzętu do szkolenia modeli DINO, co zaowocowało dwukrotnie większą szybkością i jedną trzecią zużycia pamięci, co umożliwiło skalowanie danych i rozmiaru modelu.
2.3. Zmniejszanie czasu wnioskowania za pomocą destylacji modeli
Uruchamianie dużych modeli we wnioskowaniu wymaga wydajnego sprzętu, który ograniczy praktyczne zastosowanie metod w różnych przypadkach użycia. Aby przezwyciężyć ten problem, naukowcy wykorzystali destylację modeli w celu skompresowania wiedzy z dużych modeli do mniejszych. Wykorzystując to podejście, naukowcy byli w stanie skondensować wysokowydajne architektury w mniejsze architektury o znikomych kosztach wydajności. Zaowocowało to silnymi modelami ViT-Small, ViT-Base i ViT-Large.
Kod szkolenia i oceny wymaga PyTorch 2.0 i xFormerzy 0.0.18, jak również wiele innych pakietów stron trzecich, a także kod oczekuje środowiska Linux. Poniższe instrukcje opisują sposób konfigurowania wszystkich niezbędnych zależności do celów szkoleniowych i ewaluacyjnych:
- Zainstaluj PyTorch zgodnie z instrukcją tutaj. Zaleca się zainstalowanie PyTorch z obsługą CUDA.
- Do pobrania Conda
- Sklonuj repozytorium DINOv2 za pomocą następującego polecenia:
Kod autora
- Kontynuuj tworzenie i aktywowanie środowiska Conda o nazwie „dinov2”, korzystając z dostarczonej definicji środowiska:
Kod autora
- Aby zainstalować zależności wymagane dla tego projektu, użyj dostarczonego pliku requirements.txt.
Kod autora
- Na koniec możesz załadować modele za pomocą poniższego kodu:
Kod autora
Podsumowując, wypuszczenie modeli DINOv2 przez Meta AI stanowi ważny kamień milowy. Samonadzorowane podejście do uczenia się stosowane w modelach DINOv2 zapewnia skuteczny sposób uczenia modeli uczenia maszynowego bez konieczności używania dużych ilości danych z etykietami. Dzięki możliwości osiągania wysokiej dokładności bez potrzeby precyzyjnego dostrajania, modele te nadają się do różnych zadań i zastosowań związanych z wizją komputerową. Co więcej, DINOv2 może uczyć się z różnych kolekcji obrazów i może uczyć się z funkcji takich jak szacowanie głębokości bez wyraźnego szkolenia. Dostępność DINOv2 jako modelu typu open source otwiera badaczom i programistom drzwi do odkrywania nowych możliwości w zadaniach i zastosowaniach widzenia komputerowego.
Referencje
Youssef Rafaat jest badaczem wizji komputerowej i naukowcem danych. Jego badania koncentrują się na opracowywaniu algorytmów widzenia komputerowego w czasie rzeczywistym do zastosowań w opiece zdrowotnej. Pracował również jako analityk danych przez ponad 3 lata w dziedzinie marketingu, finansów i opieki zdrowotnej.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoAiStream. Analiza danych Web3. Wiedza wzmocniona. Dostęp tutaj.
- Wybijanie przyszłości w Adryenn Ashley. Dostęp tutaj.
- Kupuj i sprzedawaj akcje spółek PRE-IPO z PREIPO®. Dostęp tutaj.
- Źródło: https://www.kdnuggets.com/2023/05/dinov2-selfsupervised-computer-vision-models-meta-ai.html?utm_source=rss&utm_medium=rss&utm_campaign=dinov2-self-supervised-computer-vision-models-by-meta-ai
- :ma
- :Jest
- :nie
- 1
- 1.2 mld
- 3
- a
- zdolność
- Zdolny
- O nas
- realizowane
- Osiągać
- osiągnięty
- w poprzek
- Dodatkowy
- zaawansowany
- AI
- algorytm
- algorytmiczny
- Algorytmy
- Wszystkie kategorie
- również
- ilość
- kwoty
- an
- i
- zwierzę
- aplikacje
- podejście
- awanse
- w przybliżeniu
- SĄ
- AS
- At
- dostępność
- dostępny
- tło
- BE
- stają się
- staje się
- poniżej
- Ulepsz Swój
- Miliard
- Bing
- Budowanie
- wybudowany
- by
- CAN
- podpisy
- Etui
- Spowodować
- pewien
- wyzwania
- wybór
- dokładnie
- kod
- zbierać
- kolekcje
- byliśmy spójni, od początku
- porównanie
- komputer
- Wizja komputerowa
- Aplikacje do widzenia komputerowego
- Koncepcje
- konkluzja
- Koszty:
- Stwórz
- Tworzenie
- istotny
- kurator
- dane
- naukowiec danych
- zbiory danych
- Kreowanie
- zależność
- głębokość
- szczegółowe
- deweloperzy
- rozwijanie
- różne
- dystrybuowane
- szkolenia rozproszone
- inny
- do
- domena
- zrobić
- Drzwi
- Podwójna
- z powodu
- podczas
- skutecznie
- wzmacniać
- Środowisko
- Eter (ETH)
- ewaluację
- Parzyste
- przykład
- rozszerzony
- oczekuje
- ekspertyza
- odkryj
- szybciej
- Korzyści
- kilka
- pole
- Łąka
- filet
- finansować
- i terminów, a
- koncentruje
- następujący
- W razie zamówieenia projektu
- od
- funkcjonalny
- gif
- sprzęt komputerowy
- hashtag
- he
- opieki zdrowotnej
- Wysoki
- wysoka wydajność
- jego
- W jaki sposób
- How To
- Jednak
- HTML
- HTTPS
- człowiek
- obraz
- zdjęcia
- realizacja
- ważny
- in
- włączony
- obejmuje
- Informacja
- inspirowane
- niestabilność
- zainstalować
- instrukcje
- Integruje się
- najnowszych
- IT
- JEGO
- właśnie
- Knuggety
- wiedza
- Etykieta
- Etykiety
- Brak
- duży
- większe
- firmy
- prowadzić
- UCZYĆ SIĘ
- nauka
- poziom
- LIMIT
- linux
- literatura
- załadować
- miejscowy
- Localization
- maszyna
- uczenie maszynowe
- Główny
- poważny
- robić
- WYKONUJE
- ręcznie
- wiele
- Marketing
- Mecz
- znaczenie
- Poznaj nasz
- Pamięć
- Meta
- Metadane
- metoda
- metody
- może
- kamień milowy
- milion
- model
- modele
- jeszcze
- Ponadto
- dużo
- O imieniu
- niezbędny
- Potrzebować
- Nowości
- Nie
- of
- często
- on
- te
- tylko
- open source
- otwiera
- or
- Inne
- na zewnątrz
- zarys
- Przezwyciężać
- Pakiety
- przyjęcie
- Przeszłość
- doskonały
- jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,
- PHP
- obraz
- rurociąg
- plato
- Analiza danych Platona
- PlatoDane
- biedny
- position
- możliwości
- potencjał
- mocny
- Praktyczny
- Problem
- wygląda tak
- produkować
- projekt
- pod warunkiem,
- zapewnia
- publicznie
- cele
- płomień
- w czasie rzeczywistym
- niedawny
- Czerwony
- związane z
- zwolnić
- wydany
- pozostały
- składnica
- wymagać
- wymagany
- wymagania
- Wymaga
- Badania naukowe
- badacz
- Badacze
- dalsze
- Efekt
- Pokój
- s
- taki sam
- Skala
- skalowaniem
- Naukowiec
- nasienie
- segmentacja
- zestaw
- kilka
- powinien
- znaczący
- podobny
- ponieważ
- Rozmiar
- mniejszy
- kilka
- specyficzny
- prędkość
- stabilny
- standard
- Cel
- silny
- taki
- odpowiedni
- wsparcie
- stół
- Zadanie
- zadania
- Techniczny
- niż
- dzięki
- że
- Połączenia
- Im
- Tam.
- Te
- one
- Trzeci
- innych firm
- to
- tych
- czas
- do
- Kwota produktów:
- Pociąg
- przeszkolony
- Trening
- drugiej
- zrozumienie
- w odróżnieniu
- Stosowanie
- posługiwać się
- używany
- za pomocą
- wykorzystać
- Wykorzystując
- v1
- różnorodny
- wizja
- vs
- Droga..
- we
- sieć
- DOBRZE
- były
- który
- będzie
- w
- bez
- drewniana
- pracował
- lat
- ty
- zefirnet