DINOv2: Self-Supervised Computer Vision Models By Meta AI - KDnuggets

Republicado por Platão

seguidores: 0

DINOv2: Modelos de visão computacional auto-supervisionados por Meta AI
Imagem do Bing Image Creator

Meta AI acaba de lançar software de código aberto modelos DINOv2 o primeiro método que usa aprendizado auto-supervisionado para treinar modelos de visão computacional. Os modelos DINOv2 alcançam resultados que correspondem ou são ainda melhores do que a abordagem padrão e os modelos em campo.

Os modelos alcançaram forte desempenho sem a necessidade de ajustes finos, o que os torna uma escolha perfeita para muitas tarefas e aplicativos diferentes de visão computacional. O DINOv2 pode aprender com várias coleções de imagens e recursos, como estimativa de profundidade, sem a necessidade de treinamento explícito, graças ao método de treinamento auto-supervisionado.

Figura 1: DINOv2: modelos de visão computacional auto-supervisionados por Meta AI

1.1. Nenhum ajuste fino é necessário

O aprendizado autossupervisionado é um método poderoso usado para treinar modelos de aprendizado de máquina sem a necessidade de grandes quantidades de dados rotulados. Os modelos DINOv2 podem ser treinados em corpus de imagem sem a necessidade de metadados relacionados, hashtag específica ou legenda de imagem. Os modelos DinoV2, ao contrário de várias abordagens recentes de aprendizado auto-supervisionado, não necessitam de ajuste fino, produzindo assim recursos de alto desempenho para diferentes aplicações de visão computacional.

1.2. Superando limitações de anotação humana

Ao longo dos últimos anos, pré-treinamento imagem-texto tornou-se o método predominante para várias aplicações de visão computacional. No entanto, devido à sua dependência de legendas rotuladas por humanos para aprender o significado semântico das imagens. Essa abordagem geralmente ignora informações cruciais que não estão explicitamente incluídas nessas legendas. Por exemplo, uma legenda de rótulo humano de uma foto de uma mesa vermelha em uma sala amarela pode ser “Uma mesa de madeira vermelha”. Esta legenda perderá algumas informações importantes sobre o plano de fundo, a posição e o tamanho da mesa. Isso causará falta de compreensão das informações locais e resultará em baixo desempenho em tarefas que requerem informações detalhadas de localização.

Além disso, a necessidade de rótulos e anotações humanos limitará a quantidade de dados que podemos coletar para treinar os modelos. Isso se torna muito mais difícil para certos aplicativos, por exemplo, anotar uma célula requer um certo nível de conhecimento humano que não estará disponível na escala necessária. O uso de uma abordagem de treinamento auto-supervisionado em imagens celulares abre caminho para um modelo mais básico e, como resultado, melhorará descoberta biológica. O mesmo se aplica a campos avançados semelhantes como a estimativa de densidade animal.

A passagem do DINO para o DINOv2 exigiu a superação de vários desafios, como

Como criar um conjunto de dados de treinamento grande e selecionado
Melhorando o algoritmo de treinamento e a implementação
Projetando um pipeline de destilação funcional.

DINOv2: Modelos de visão computacional auto-supervisionados por Meta AI
Figura 2: comparação DINO v1 Vs v2 da precisão de segmentação

2.1. Criando um conjunto de dados de imagem grande, curado e diversificado

Uma das principais etapas para construir o DINOv2 é treinar arquiteturas e modelos maiores para melhorar o desempenho do modelo. No entanto, modelos maiores requerem grandes conjuntos de dados para serem treinados com eficiência. Como não havia grandes conjuntos de dados disponíveis que atendessem aos requisitos, os pesquisadores aproveitaram os dados da Web rastreados publicamente e criaram um pipeline para selecionar apenas dados úteis, como em LASER.

No entanto, duas tarefas principais devem ser realizadas para poder usar esses conjuntos de dados:

Equilibre os dados em diferentes conceitos e tarefas
Remover imagens irrelevantes

Como essa tarefa pode ser realizada manualmente, eles selecionaram um conjunto de imagens iniciais de aproximadamente 25 conjuntos de dados de terceiros e o expandiram buscando imagens intimamente relacionadas a essas imagens iniciais. Essa abordagem permitiu que eles produzissem um conjunto de dados pertinente de um total de 142 milhões de imagens de 1.2 bilhão de imagens.

2.2. Melhorias algorítmicas e técnicas

Embora o uso de modelos e conjuntos de dados maiores leve a melhores resultados, ele traz grandes desafios. Dois dos principais desafios são a instabilidade potencial e permanecer tratável durante o treinamento. Para tornar o treinamento mais estável, o DINOv2 inclui métodos de regularização adicionais inspirados em busca por similaridade e classificação literatura.

O processo de treinamento do DINOv2 integra as mais recentes implementações de treinamento distribuído e de precisão mista fornecidas pela tecnologia de ponta PyTorch 2. Isso permitiu uma implementação mais rápida dos códigos e o uso do mesmo hardware para treinar modelos DINO resultou no dobro da velocidade e em um terço do uso de memória, o que permitiu o dimensionamento dos dados e do tamanho do modelo.

2.3. Diminuindo o tempo de inferência usando destilação de modelos

A execução de modelos grandes em inferência requer um hardware poderoso que limitará o uso prático dos métodos para diferentes casos de uso. Para superar esse problema, os pesquisadores usaram a destilação de modelos para comprimir o conhecimento dos modelos grandes em modelos menores. Ao utilizar essa abordagem, os pesquisadores conseguiram condensar arquiteturas de alto desempenho em arquiteturas menores com custos de desempenho insignificantes. Isso resultou em fortes modelos ViT-Small, ViT-Base e ViT-Large.

O código de treinamento e avaliação requer PyTorch 2.0 e xFormadores 0.0.18, bem como muitos outros pacotes de terceiros e também o código espera um ambiente Linux. As instruções a seguir descrevem como configurar todas as dependências necessárias para fins de treinamento e avaliação:

Instale o PyTorch usando as instruções SUA PARTICIPAÇÃO FAZ A DIFERENÇA. É aconselhável instalar o PyTorch com suporte CUDA.
Baixar município
Clone o repositório DINOv2 usando o seguinte comando:

Código por Autor

Prossiga para criar e ativar um ambiente Conda chamado “dinov2” usando a definição de ambiente fornecida:

Código por Autor

Para instalar as dependências necessárias para este projeto, utilize o arquivo requirements.txt fornecido.

Código por Autor

Finalmente, você pode carregar os modelos usando o código abaixo:

Código por Autor

Em conclusão, o lançamento dos modelos DINOv2 pela Meta AI marca um marco significativo. A abordagem de aprendizado autossupervisionado usada pelos modelos DINOv2 fornece uma maneira poderosa de treinar modelos de aprendizado de máquina sem a necessidade de grandes quantidades de dados rotulados. Com a capacidade de atingir alta precisão sem a necessidade de ajuste fino, esses modelos são adequados para várias tarefas e aplicações de visão computacional. Além disso, o DINOv2 pode aprender com diferentes coleções de imagens e com recursos como estimativa de profundidade sem treinamento explícito. A disponibilidade do DINOv2 como um modelo de código aberto abre as portas para pesquisadores e desenvolvedores explorarem novas possibilidades em tarefas e aplicativos de visão computacional.

Referências

Youssef Rafael é um pesquisador de visão computacional e cientista de dados. Sua pesquisa se concentra no desenvolvimento de algoritmos de visão computacional em tempo real para aplicações de saúde. Ele também trabalhou como cientista de dados por mais de 3 anos nos domínios de marketing, finanças e saúde.