DINOv2: zelfgestuurde computervisiemodellen door Meta AI - KDnuggets

Heruitgegeven door Plato

volgers: 0

DINOv2: Zelfgestuurde computervisiemodellen door Meta AI
Afbeelding van Bing Image Creator

Meta AI heeft zojuist open-source vrijgegeven DINOv2-modellen de eerste methode die gebruik maakt van zelfgestuurd leren om computervisiemodellen te trainen. De DINOv2-modellen behalen resultaten die aansluiten bij of zelfs beter zijn dan de standaard aanpak en modellen in het veld.

De modellen behaalden sterke prestaties zonder dat ze hoefden te worden verfijnd, wat een perfecte keuze is voor veel verschillende computer vision-taken en -toepassingen. DINOv2 kan leren van verschillende verzamelingen afbeeldingen en functies zoals diepteschatting zonder dat expliciete training nodig is dankzij de zelfgecontroleerde trainingsmethode.

Figuur 1: DINOv2: zelfgestuurde computervisiemodellen door Meta AI

1.1. Er is geen fijnafstemming nodig

Zelfgestuurd leren is een krachtige methode die wordt gebruikt om machine learning-modellen te trainen zonder dat er grote hoeveelheden gelabelde gegevens nodig zijn. DINOv2-modellen kunnen worden getraind op beeldcorpus zonder de noodzaak van gerelateerde metadata, specifieke hashtag of bijschrift van afbeeldingen. DinoV2-modellen vereisen, in tegenstelling tot verschillende recente zelfgecontroleerde leerbenaderingen, geen fijnafstemming, waardoor hoogwaardige functies voor verschillende computer vision-toepassingen worden geproduceerd.

1.2. Het overwinnen van menselijke annotatiebeperkingen

In de afgelopen paar jaar beeld-tekst vooropleiding is de overheersende methode geworden voor verschillende computer vision-toepassingen. Echter, vanwege de afhankelijkheid van door mensen gelabelde bijschriften om de semantische betekenis van afbeeldingen te leren. Bij deze aanpak wordt vaak cruciale informatie over het hoofd gezien die niet expliciet in de bijschriften is opgenomen. Een bijschrift op een menselijk etiket bij een afbeelding van een rode tafel in een gele kamer kan bijvoorbeeld 'Een rode houten tafel' zijn. Dit bijschrift mist belangrijke informatie over de achtergrond, de positie en de grootte van de tafel. Dit zal een gebrek aan begrip van lokale informatie veroorzaken en zal resulteren in slechte prestaties bij taken waarvoor gedetailleerde lokalisatie-informatie vereist is.

Bovendien zal de behoefte aan menselijke labels en annotaties de hoeveelheid gegevens beperken die we kunnen verzamelen om de modellen te trainen. Voor bepaalde toepassingen wordt dit veel moeilijker. Het annoteren van een cel vereist bijvoorbeeld een bepaald niveau van menselijke expertise dat niet op de vereiste schaal beschikbaar zal zijn. Het gebruik van een zelfgecontroleerde trainingsaanpak op het gebied van cellulaire beelden opent de weg voor een meer fundamenteel model en zal als gevolg daarvan de biologische ontdekking. Hetzelfde geldt voor vergelijkbare geavanceerde velden als de schatting van dichtheid van dieren.

De overstap van DINO naar DINOv2 vereiste het overwinnen van verschillende uitdagingen, zoals

Een grote en samengestelde trainingsdataset creëren
Verbetering van het trainingsalgoritme en de implementatie ervan
Ontwerp van een functionele destillatiepijplijn.

DINOv2: Zelfgestuurde computervisiemodellen door Meta AI
Figuur 2: DINO v1 versus v2 vergelijking van segmentatieprecisie

2.1. Het creëren van een grote, samengestelde en diverse beelddataset

One of the main steps to building the DINOv2 is to train larger architectures and models to enhance the model’s performance. However, larger models require large datasets to be efficiently trained. Since there were no large datasets available that meet the requirements researchers leveraged publicly crawled web data and built a pipeline to select only useful data as in LASER.

Er moeten echter twee hoofdtaken worden uitgevoerd om deze datasets te kunnen gebruiken:

Breng de gegevens in evenwicht over verschillende concepten en taken
Verwijder irrelevante afbeeldingen

Omdat deze taak handmatig kan worden uitgevoerd, hebben ze een set zaadafbeeldingen samengesteld uit ongeveer 25 datasets van derden en deze uitgebreid door afbeeldingen op te halen die nauw verwant zijn aan die zaadafbeeldingen. Dankzij deze aanpak konden ze een relevante dataset produceren van in totaal 142 miljoen afbeeldingen uit 1.2 miljard afbeeldingen.

2.2. Algoritmische en technische verbeteringen

Hoewel het gebruik van grotere modellen en datasets tot betere resultaten zal leiden, brengt dit grote uitdagingen met zich mee. Twee van de belangrijkste uitdagingen zijn potentiële instabiliteit en handelbaar blijven tijdens de training. Om de training stabieler te maken bevat DINOv2 aanvullende regularisatiemethoden die hierop zijn geïnspireerd gelijkenis zoeken en classificatie literatuur.

Het trainingsproces van DINOv2 integreert de nieuwste gemengde precisie- en gedistribueerde trainingsimplementaties van de allernieuwste Py Torch 2. Dit maakte een snellere implementatie van de codes mogelijk en het gebruik van dezelfde hardware voor het trainen van DINO-modellen resulteerde in een dubbele snelheid en een derde van het geheugengebruik, waardoor schaalbaarheid in gegevens en modelgrootte mogelijk was.

2.3. Vermindering van de inferentietijd met behulp van modellendestillatie

Het uitvoeren van grote modellen in inferentie vereist krachtige hardware die het praktische gebruik van de methoden voor verschillende gebruiksscenario's zal beperken. Om dit probleem te overwinnen, gebruikten onderzoekers modeldestillatie om de kennis van de grote modellen in kleinere te comprimeren. Door gebruik te maken van deze aanpak konden onderzoekers hoogwaardige architecturen condenseren tot kleinere met verwaarloosbare prestatiekosten. Dit resulteerde in sterke ViT-Small, ViT-Base en ViT-Large modellen.

De trainings- en evaluatiecode vereist PyTorch 2.0 en xFormers 0.0.18 en vele andere pakketten van derden en ook de code verwacht een Linux-omgeving. De volgende instructies beschrijven hoe u alle noodzakelijke afhankelijkheden voor trainings- en evaluatiedoeleinden configureert:

Installeer PyTorch met behulp van de instructie hier. Het wordt geadviseerd om PyTorch te installeren met CUDA-ondersteuning.
Downloaden Conda
Kloon de DINOv2-repository met behulp van de volgende opdracht:

Code door auteur

Proceed to create and activate a Conda environment named “dinov2” using the provided environment definition:

Code door auteur

Om de voor dit project vereiste afhankelijkheden te installeren, gebruikt u het meegeleverde bestand require.txt.

Code door auteur

Ten slotte kunt u de modellen laden met behulp van de onderstaande code:

Code door auteur

Kortom, de release van DINOv2-modellen door Meta AI markeert een belangrijke mijlpaal. De zelfgestuurde leeraanpak die door DINOv2-modellen wordt gebruikt, biedt een krachtige manier om machine learning-modellen te trainen zonder dat er grote hoeveelheden gelabelde gegevens nodig zijn. Met de mogelijkheid om een hoge nauwkeurigheid te bereiken zonder de vraag naar fijnafstemming, zijn deze modellen geschikt voor verschillende computer vision-taken en -toepassingen. Bovendien kan DINOv2 leren van verschillende beeldcollecties en van functies zoals diepteschatting zonder expliciete training. De beschikbaarheid van DINOv2 als open-sourcemodel opent de deuren voor onderzoekers en ontwikkelaars om nieuwe mogelijkheden op het gebied van computer vision-taken en -toepassingen te verkennen.

Referenties

Youssef Rafaat is een computer vision-onderzoeker en datawetenschapper. Zijn onderzoek richt zich op het ontwikkelen van real-time computer vision-algoritmen voor toepassingen in de gezondheidszorg. Hij werkte ook meer dan 3 jaar als datawetenschapper in het domein van marketing, financiën en gezondheidszorg.