DINOv2: Samonadzorowane komputerowe modele wizyjne autorstwa Meta AI — KDnuggets

Opublikowane ponownie przez Plato

Obserwuje: 0

DINOv2: Samonadzorowane modele widzenia komputerowego opracowane przez Meta AI
Obraz z Kreatora obrazów Bing

Meta AI właśnie wydało open source modele DINOv2 pierwsza metoda, która wykorzystuje uczenie samonadzorowane do trenowania komputerowych modeli wizyjnych. Modele DINOv2 osiągają wyniki, które odpowiadają lub są nawet lepsze niż standardowe podejście i modele w terenie.

Modele osiągnęły wysoką wydajność bez konieczności precyzyjnego dostrajania, co stanowi doskonały wybór do wielu różnych zadań i zastosowań związanych z wizją komputerową. DINOv2 może uczyć się z różnych kolekcji obrazów i funkcji, takich jak szacowanie głębokości, bez potrzeby wyraźnego szkolenia dzięki samonadzorowanej metodzie uczenia.

DINOv2: Samonadzorowane modele widzenia komputerowego opracowane przez Meta AI
Rysunek 1: DINOv2: Samonadzorowane komputerowe modele wizyjne opracowane przez Meta AI

1.1. Dostrajanie nie jest wymagane

Samonadzorowane uczenie się to zaawansowana metoda używana do trenowania modeli uczenia maszynowego bez konieczności używania dużych ilości danych z etykietami. Modele DINOv2 można trenować na korpusie obrazu bez potrzeby stosowania powiązanych metadanych, określonego hashtagu lub podpisu obrazu. Modele DinoV2, w przeciwieństwie do kilku ostatnich podejść do samonadzorowanego uczenia się, nie wymagają precyzyjnego dostrajania, tworząc w ten sposób funkcje o wysokiej wydajności dla różnych aplikacji wizyjnych.

1.2. Pokonywanie ograniczeń związanych z adnotacjami ludzkimi

Przez ostatnich kilka lat, wstępne szkolenie obraz-tekst stała się dominującą metodą w różnych zastosowaniach wizyjnych. Jednak ze względu na zależność od podpisów oznaczonych przez ludzi, aby poznać semantyczne znaczenie obrazów. Takie podejście często pomija kluczowe informacje, które nie są wyraźnie zawarte w tych podpisach. Na przykład podpis człowieka na etykiecie zdjęcia czerwonego stołu w żółtym pokoju może brzmieć „Czerwony drewniany stół”. W tym podpisie pominiemy kilka ważnych informacji o tle, pozycji i rozmiarze stołu. Spowoduje to brak zrozumienia informacji lokalnych i spowoduje słabą wydajność zadań wymagających szczegółowych informacji o lokalizacji.

Ponadto potrzeba ludzkich etykiet i adnotacji ograniczy ilość danych, które możemy zebrać, aby wyszkolić modele. Staje się to znacznie trudniejsze w przypadku niektórych aplikacji, na przykład opisywanie komórki wymaga pewnego poziomu wiedzy fachowej człowieka, który nie będzie dostępny w wymaganej skali. Zastosowanie samonadzorowanego podejścia szkoleniowego do obrazowania komórkowego otwiera drogę do bardziej fundamentalnego modelu, a w rezultacie poprawi odkrycie biologiczne. To samo dotyczy podobnych zaawansowanych pól jak oszacowanie zagęszczenie zwierząt.

Przejście z DINO na DINOv2 wymagało pokonania kilku wyzwań, takich jak

Tworzenie dużego i wyselekcjonowanego zestawu danych szkoleniowych
Doskonalenie algorytmu uczenia i implementacji
Projektowanie funkcjonalnego rurociągu destylacyjnego.

DINOv2: Samonadzorowane modele widzenia komputerowego opracowane przez Meta AI
Rysunek 2: Porównanie precyzji segmentacji DINO v1 i v2

2.1. Tworzenie dużego, wyselekcjonowanego i zróżnicowanego zestawu danych obrazu

Jednym z głównych kroków do zbudowania DINOv2 jest uczenie większych architektur i modeli w celu zwiększenia wydajności modelu. Jednak większe modele wymagają wydajnego uczenia dużych zestawów danych. Ponieważ nie było dostępnych dużych zbiorów danych, które spełniałyby wymagania, badacze wykorzystali publicznie przeszukiwane dane internetowe i zbudowali potok w celu wybrania tylko użytecznych danych, jak w LASER.

Jednak aby móc korzystać z tych zbiorów danych, należy wykonać dwa główne zadania:

Zrównoważ dane w różnych koncepcjach i zadaniach
Usuń nieistotne obrazy

Ponieważ zadanie to można wykonać ręcznie, wybrali zestaw obrazów źródłowych z około 25 zestawów danych innych firm i rozszerzyli go, pobierając obrazy, które są ściśle z nimi powiązane. Takie podejście pozwoliło im stworzyć odpowiedni zestaw danych obejmujący łącznie 142 miliony obrazów z 1.2 miliarda obrazów.

2.2. Udoskonalenia algorytmiczne i techniczne

Chociaż korzystanie z większych modeli i zbiorów danych prowadzi do lepszych wyników, wiąże się to z poważnymi wyzwaniami. Dwa z głównych wyzwań to potencjalna niestabilność i pozostawanie podatnym na leczenie podczas treningu. Aby trening był bardziej stabilny, DINOv2 zawiera dodatkowe metody regularyzacji, które zostały zainspirowane wyszukiwanie podobieństw i klasyfikacja literatura.

Proces szkolenia DINOv2 integruje najnowsze implementacje szkolenia o mieszanej precyzji i rozproszeniu zapewniane przez najnowocześniejsze PyTorch 2. Pozwoliło to na szybszą implementację kodów i użycie tego samego sprzętu do szkolenia modeli DINO, co zaowocowało dwukrotnie większą szybkością i jedną trzecią zużycia pamięci, co umożliwiło skalowanie danych i rozmiaru modelu.

2.3. Zmniejszanie czasu wnioskowania za pomocą destylacji modeli

Uruchamianie dużych modeli we wnioskowaniu wymaga wydajnego sprzętu, który ograniczy praktyczne zastosowanie metod w różnych przypadkach użycia. Aby przezwyciężyć ten problem, naukowcy wykorzystali destylację modeli w celu skompresowania wiedzy z dużych modeli do mniejszych. Wykorzystując to podejście, naukowcy byli w stanie skondensować wysokowydajne architektury w mniejsze architektury o znikomych kosztach wydajności. Zaowocowało to silnymi modelami ViT-Small, ViT-Base i ViT-Large.

Kod szkolenia i oceny wymaga PyTorch 2.0 i xFormerzy 0.0.18, jak również wiele innych pakietów stron trzecich, a także kod oczekuje środowiska Linux. Poniższe instrukcje opisują sposób konfigurowania wszystkich niezbędnych zależności do celów szkoleniowych i ewaluacyjnych:

Zainstaluj PyTorch zgodnie z instrukcją tutaj. Zaleca się zainstalowanie PyTorch z obsługą CUDA.
Do pobrania Conda
Sklonuj repozytorium DINOv2 za pomocą następującego polecenia:

Kod autora

Kontynuuj tworzenie i aktywowanie środowiska Conda o nazwie „dinov2”, korzystając z dostarczonej definicji środowiska:

Kod autora

Aby zainstalować zależności wymagane dla tego projektu, użyj dostarczonego pliku requirements.txt.

Kod autora

Na koniec możesz załadować modele za pomocą poniższego kodu:

Kod autora

Podsumowując, wypuszczenie modeli DINOv2 przez Meta AI stanowi ważny kamień milowy. Samonadzorowane podejście do uczenia się stosowane w modelach DINOv2 zapewnia skuteczny sposób uczenia modeli uczenia maszynowego bez konieczności używania dużych ilości danych z etykietami. Dzięki możliwości osiągania wysokiej dokładności bez potrzeby precyzyjnego dostrajania, modele te nadają się do różnych zadań i zastosowań związanych z wizją komputerową. Co więcej, DINOv2 może uczyć się z różnych kolekcji obrazów i może uczyć się z funkcji takich jak szacowanie głębokości bez wyraźnego szkolenia. Dostępność DINOv2 jako modelu typu open source otwiera badaczom i programistom drzwi do odkrywania nowych możliwości w zadaniach i zastosowaniach widzenia komputerowego.

Referencje

Youssef Rafaat jest badaczem wizji komputerowej i naukowcem danych. Jego badania koncentrują się na opracowywaniu algorytmów widzenia komputerowego w czasie rzeczywistym do zastosowań w opiece zdrowotnej. Pracował również jako analityk danych przez ponad 3 lata w dziedzinie marketingu, finansów i opieki zdrowotnej.