DINOv2: Self-Supervised Computer Vision Models By Meta AI - KDnuggets

Ripubblicato da Platone

Seguaci: 0

DINOv2: modelli di visione artificiale auto-supervisionati di Meta AI
Immagine da Bing Image Creator

Meta AI ha appena rilasciato l'open source Modelli DINOv2 il primo metodo che utilizza l'apprendimento auto-supervisionato per addestrare modelli di visione artificiale. I modelli DINOv2 ottengono risultati che corrispondono o sono addirittura migliori rispetto all'approccio standard e ai modelli sul campo.

I modelli hanno raggiunto prestazioni elevate senza la necessità di una messa a punto, il che li rende una scelta perfetta per molte diverse attività e applicazioni di visione artificiale. DINOv2 può apprendere da varie raccolte di immagini e funzionalità come la stima della profondità senza la necessità di una formazione esplicita grazie al metodo di formazione auto-supervisionato.

Figura 1: DINOv2: modelli di visione artificiale auto-supervisionati di Meta AI

1.1. Non è richiesta alcuna messa a punto

L'apprendimento autosupervisionato è un metodo potente utilizzato per addestrare modelli di apprendimento automatico senza la necessità di grandi quantità di dati etichettati. I modelli DINOv2 possono essere addestrati su un corpus di immagini senza la necessità di metadati correlati, hashtag specifici o didascalie dell'immagine. I modelli DinoV2, a differenza di molti recenti approcci di apprendimento auto-supervisionato, non richiedono messa a punto, producendo così funzionalità ad alte prestazioni per diverse applicazioni di visione artificiale.

1.2. Superare i limiti delle annotazioni umane

Nel corso degli ultimi anni, pre-formazione immagine-testo è diventato il metodo predominante per varie applicazioni di visione artificiale. Tuttavia, a causa della sua dipendenza dalle didascalie con etichetta umana per apprendere il significato semantico delle immagini. Questo approccio spesso trascura informazioni cruciali che non sono esplicitamente incluse in tali didascalie. Ad esempio, la didascalia di un'etichetta umana di un'immagine di un tavolo rosso in una stanza gialla potrebbe essere "Un tavolo di legno rosso". In questa didascalia mancheranno alcune informazioni importanti sullo sfondo, la posizione e le dimensioni del tavolo. Ciò causerà una mancanza di comprensione delle informazioni locali e si tradurrà in scarse prestazioni nelle attività che richiedono informazioni dettagliate sulla localizzazione.

Inoltre, la necessità di etichette e annotazioni umane limiterà la quantità di dati che possiamo raccogliere per addestrare i modelli. Questo diventa molto più difficile per alcune applicazioni, ad esempio l'annotazione di una cella richiede un certo livello di esperienza umana che non sarà disponibile nella scala richiesta. L'utilizzo di un approccio formativo auto-supervisionato sulle immagini cellulari apre la strada a un modello più fondamentale e, di conseguenza, migliorerà scoperta biologica. Lo stesso vale per campi avanzati simili come la stima di densità animale.

Il passaggio da DINO a DINOv2 ha richiesto il superamento di diverse sfide come

Creazione di un set di dati di addestramento ampio e curato
Migliorare l'algoritmo di addestramento e l'implementazione
Progettazione di una pipeline di distillazione funzionale.

DINOv2: modelli di visione artificiale auto-supervisionati di Meta AI
Figura 2: Confronto DINO v1 Vs v2 della precisione di segmentazione

2.1. Creazione di un set di dati di immagini ampio, curato e diversificato

Uno dei passaggi principali per la creazione di DINOv2 consiste nell'addestrare architetture e modelli più grandi per migliorare le prestazioni del modello. Tuttavia, i modelli più grandi richiedono set di dati di grandi dimensioni per essere addestrati in modo efficiente. Poiché non erano disponibili set di dati di grandi dimensioni che soddisfacessero i requisiti, i ricercatori hanno sfruttato i dati Web scansionati pubblicamente e hanno creato una pipeline per selezionare solo dati utili come in LASER.

Tuttavia, per poter utilizzare questi set di dati dovrebbero essere svolte due attività principali:

Bilancia i dati tra diversi concetti e attività
Rimuovi le immagini non pertinenti

Poiché questa attività può essere eseguita manualmente, hanno curato una serie di immagini seme da circa 25 set di dati di terze parti e l'hanno ampliata recuperando immagini strettamente correlate a quelle immagini seme. Questo approccio ha permesso loro di produrre un set di dati pertinente di un totale di 142 milioni di immagini su 1.2 miliardi di immagini.

2.2. Miglioramenti algoritmici e tecnici

Sebbene l'utilizzo di modelli e set di dati più grandi porti a risultati migliori, comporta grandi sfide. Due delle sfide principali sono la potenziale instabilità e il rimanere trattabili durante l'allenamento. Per rendere la formazione più stabile, DINOv2 include metodi di regolarizzazione aggiuntivi a cui si è ispirato ricerca di somiglianza ed classificazione letteratura.

Il processo di formazione di DINOv2 integra le ultime implementazioni di formazione a precisione mista e distribuita fornite dall'avanguardia PiTorcia 2. Ciò ha consentito un'implementazione più rapida dei codici e l'utilizzo dello stesso hardware per l'addestramento dei modelli DINO ha comportato il doppio della velocità e un terzo dell'utilizzo della memoria che ha consentito il ridimensionamento dei dati e delle dimensioni del modello.

2.3. Diminuzione del tempo di inferenza utilizzando la distillazione dei modelli

L'esecuzione di modelli di grandi dimensioni in inferenza richiede hardware potente che limiterà l'uso pratico dei metodi per diversi casi d'uso. Per superare questo problema, i ricercatori hanno utilizzato la distillazione del modello per comprimere la conoscenza dei modelli grandi in quelli più piccoli. Utilizzando questo approccio, i ricercatori sono stati in grado di condensare architetture ad alte prestazioni in architetture più piccole con costi prestazionali trascurabili. Ciò ha portato a potenti modelli ViT-Small, ViT-Base e ViT-Large.

Il codice di formazione e valutazione richiede PyTorch 2.0 e xFormers 0.0.18 così come molti altri pacchetti di terze parti e anche il codice prevede un ambiente Linux. Le seguenti istruzioni delineano come configurare tutte le dipendenze necessarie per scopi di formazione e valutazione:

Installa PyTorch usando le istruzioni qui. Si consiglia di installare PyTorch con il supporto CUDA.
Scaricare contea
Clona il repository DINOv2 usando il seguente comando:

Codice per autore

Procedi con la creazione e l'attivazione di un ambiente Conda denominato "dinov2" utilizzando la definizione dell'ambiente fornita:

Codice per autore

Per installare le dipendenze richieste per questo progetto, utilizzare il file requirements.txt fornito.

Codice per autore

Infine, puoi caricare i modelli utilizzando il codice seguente:

Codice per autore

In conclusione, il rilascio dei modelli DINOv2 da parte di Meta AI segna una pietra miliare significativa. L'approccio di apprendimento auto-supervisionato utilizzato dai modelli DINOv2 fornisce un modo efficace per addestrare i modelli di apprendimento automatico senza la necessità di grandi quantità di dati etichettati. Con la capacità di raggiungere un'elevata precisione senza la necessità di una messa a punto, questi modelli sono adatti a varie attività e applicazioni di visione artificiale. Inoltre, DINOv2 può apprendere da diverse raccolte di immagini e può apprendere da funzionalità come la stima della profondità senza una formazione esplicita. La disponibilità di DINOv2 come modello open source apre le porte a ricercatori e sviluppatori per esplorare nuove possibilità nelle attività e nelle applicazioni di visione artificiale.

Riferimenti

Youssef Rafat è un ricercatore di visione artificiale e data scientist. La sua ricerca si concentra sullo sviluppo di algoritmi di visione artificiale in tempo reale per applicazioni sanitarie. Ha anche lavorato come data scientist per più di 3 anni nel settore del marketing, della finanza e della sanità.