DINOv2: Modelos de visión por computadora autosupervisados por Meta AI - KDnuggets

Reeditado por Platón

seguidores: 0

DINOV2: Modelos de visión por computadora autosupervisados por Meta AI
Imagen del creador de imágenes de Bing

Meta AI acaba de lanzar código abierto Modelos DINOV2 el primer método que utiliza el aprendizaje autosupervisado para entrenar modelos de visión por computadora. Los modelos DINOv2 logran resultados que coinciden o son incluso mejores que el enfoque y los modelos estándar en el campo.

Los modelos lograron un rendimiento sólido sin necesidad de realizar ajustes, lo que los convierte en la elección perfecta para muchas tareas y aplicaciones diferentes de visión por computadora. DINOv2 puede aprender de varias colecciones de imágenes y funciones, como la estimación de profundidad, sin necesidad de un entrenamiento explícito gracias al método de entrenamiento autosupervisado.

Figura 1: DINOv2: modelos de visión por computadora autosupervisados por Meta AI

1.1. No se requiere ningún ajuste fino

El aprendizaje autosupervisado es un método poderoso que se utiliza para entrenar modelos de aprendizaje automático sin la necesidad de grandes cantidades de datos etiquetados. Los modelos DINOv2 se pueden entrenar en corpus de imágenes sin la necesidad de metadatos relacionados, hashtags específicos o títulos de imágenes. Los modelos DinoV2, a diferencia de varios enfoques recientes de aprendizaje autosupervisado, no necesitan ajustes, lo que produce características de alto rendimiento para diferentes aplicaciones de visión por computadora.

1.2. Superar las limitaciones de la anotación humana

Durante los últimos años, preentrenamiento de imagen-texto se ha convertido en el método predominante para diversas aplicaciones de visión por computadora. Sin embargo, debido a su dependencia de subtítulos etiquetados por humanos para aprender el significado semántico de las imágenes. Este enfoque a menudo pasa por alto información crucial que no está incluida explícitamente en esos títulos. Por ejemplo, el título de una etiqueta humana de una imagen de una mesa roja en una habitación amarilla podría ser "Una mesa de madera roja". Este título omitirá información importante sobre el fondo, la posición y el tamaño de la tabla. Esto provocará una falta de comprensión de la información local y dará como resultado un rendimiento deficiente en tareas que requieren información de localización detallada.

Además, la necesidad de etiquetas y anotaciones humanas limitará la cantidad de datos que podemos recopilar para entrenar los modelos. Esto se vuelve mucho más difícil para ciertas aplicaciones, por ejemplo, anotar una celda requiere un cierto nivel de experiencia humana que no estará disponible en la escala requerida. El uso de un enfoque de capacitación autosupervisado sobre imágenes celulares abre el camino para un modelo más fundamental y, como resultado, mejorará descubrimiento biológico. Lo mismo se aplica a campos avanzados similares como la estimación de densidad animal.

Pasar de DINO a DINOv2 requirió superar varios desafíos, como

Crear un conjunto de datos de entrenamiento grande y seleccionado
Mejora del algoritmo de entrenamiento y su implementación.
Diseño de una tubería de destilación funcional.

DINOV2: Modelos de visión por computadora autosupervisados por Meta AI
Figura 2: Comparación de precisión de segmentación entre DINO v1 y v2

2.1. Crear un conjunto de datos de imágenes grande, seleccionado y diverso

Uno de los pasos principales para construir DINOv2 es entrenar arquitecturas y modelos más grandes para mejorar el rendimiento del modelo. Sin embargo, los modelos más grandes requieren grandes conjuntos de datos para entrenarse de manera eficiente. Dado que no había grandes conjuntos de datos disponibles que cumplieran con los requisitos, los investigadores aprovecharon los datos web rastreados públicamente y construyeron un canal para seleccionar solo datos útiles como en LASER.

Sin embargo, se deben realizar dos tareas principales para poder utilizar estos conjuntos de datos:

Equilibre los datos entre diferentes conceptos y tareas
Eliminar imágenes irrelevantes

Como esta tarea se puede realizar manualmente, seleccionaron un conjunto de imágenes de semillas de aproximadamente 25 conjuntos de datos de terceros y lo ampliaron obteniendo imágenes que están estrechamente relacionadas con esas imágenes de semillas. Este enfoque les permitió producir un conjunto de datos pertinente de un total de 142 millones de imágenes de 1.2 millones de imágenes.

2.2. Mejoras algorítmicas y técnicas.

Aunque el uso de modelos y conjuntos de datos más grandes conducirá a mejores resultados, conlleva grandes desafíos. Dos de los principales desafíos son la inestabilidad potencial y permanecer manejable durante el entrenamiento. Para hacer que el entrenamiento sea más estable, DINOv2 incluye métodos de regularización adicionales que se inspiraron en búsqueda de similitud y clasificación literatura.

El proceso de capacitación de DINOv2 integra las últimas implementaciones de capacitación distribuida y de precisión mixta proporcionadas por la tecnología de punta. PyTorch 2. Esto permitió una implementación más rápida de los códigos y el uso del mismo hardware para entrenar modelos DINO dio como resultado el doble de velocidad y un tercio del uso de memoria, lo que permitió escalar los datos y el tamaño del modelo.

2.3. Disminución del tiempo de inferencia utilizando modelos de destilación.

La ejecución de modelos grandes en inferencia requiere un hardware potente que limitará el uso práctico de los métodos para diferentes casos de uso. Para superar este problema, los investigadores utilizaron la destilación de modelos para comprimir el conocimiento de los modelos grandes en otros más pequeños. Al utilizar este enfoque, los investigadores pudieron condensar arquitecturas de alto rendimiento en otras más pequeñas con costos de rendimiento insignificantes. Esto dio como resultado modelos potentes ViT-Small, ViT-Base y ViT-Large.

El código de capacitación y evaluación requiere PyTorch 2.0 y xFormadores 0.0.18, así como muchos otros paquetes de terceros, y el código espera un entorno Linux. Las siguientes instrucciones describen cómo configurar todas las dependencias necesarias para fines de capacitación y evaluación:

Instale PyTorch siguiendo las instrucciones esta página. Se recomienda instalar PyTorch con soporte CUDA.
Descargar Conda
Clona el repositorio DINOv2 usando el siguiente comando:

Código por autor

Proceda a crear y activar un entorno Conda llamado "dinov2" utilizando la definición de entorno proporcionada:

Código por autor

Para instalar las dependencias necesarias para este proyecto, utilice el archivo requisitos.txt proporcionado.

Código por autor

Finalmente, puede cargar los modelos usando el siguiente código:

Código por autor

En conclusión, el lanzamiento de los modelos DINOv2 por parte de Meta AI marca un hito importante. El enfoque de aprendizaje autosupervisado utilizado por los modelos DINOv2 proporciona una forma poderosa de entrenar modelos de aprendizaje automático sin la necesidad de grandes cantidades de datos etiquetados. Con la capacidad de lograr una alta precisión sin necesidad de ajustes, estos modelos son adecuados para diversas tareas y aplicaciones de visión por computadora. Además, DINOv2 puede aprender de diferentes colecciones de imágenes y de características como la estimación de profundidad sin entrenamiento explícito. La disponibilidad de DINOv2 como modelo de código abierto abre las puertas a investigadores y desarrolladores para explorar nuevas posibilidades en tareas y aplicaciones de visión por computadora.

Referencias

Youssef Rafaat es un investigador de visión artificial y científico de datos. Su investigación se centra en el desarrollo de algoritmos de visión artificial en tiempo real para aplicaciones sanitarias. También trabajó como científico de datos durante más de 3 años en el dominio de marketing, finanzas y atención médica.