DINOv2: Meta AI를 통한 자체 감독 컴퓨터 비전 모델 - KDnuggets

플라톤에 의해 재발행

팔로워 : 0

DINOv2: Meta AI의 자체 감독 컴퓨터 비전 모델
Bing Image Creator의 이미지

Meta AI는 방금 오픈 소스를 출시했습니다. DINOv2 모델 자기 지도 학습을 사용하여 컴퓨터 비전 모델을 훈련시키는 첫 번째 방법입니다. DINOv2 모델은 현장의 표준 접근 방식 및 모델과 일치하거나 더 나은 결과를 얻습니다.

이 모델은 미세 조정할 필요 없이 강력한 성능을 달성하여 다양한 컴퓨터 비전 작업 및 애플리케이션에 완벽한 선택이 되었습니다. DINOv2는 자체 지도 학습 방식 덕분에 명시적인 학습 없이 다양한 이미지 모음과 깊이 추정과 같은 기능을 통해 학습할 수 있습니다.

그림 1: DINOv2: Meta AI의 자체 감독 컴퓨터 비전 모델

1.1. 미세 조정이 필요하지 않습니다

자기 지도 학습은 많은 양의 레이블이 지정된 데이터 없이 기계 학습 모델을 훈련하는 데 사용되는 강력한 방법입니다. DINOv2 모델은 관련 메타데이터, 특정 해시태그 또는 이미지 캡션 없이 이미지 말뭉치에서 훈련할 수 있습니다. DinoV2 모델은 최근의 여러 자기 지도 학습 접근 방식과 달리 미세 조정이 필요하지 않으므로 다양한 컴퓨터 비전 응용 프로그램을 위한 고성능 기능을 생성합니다.

1.2. 사람의 주석 한계 극복

지난 몇 년 동안, 이미지-텍스트 사전 훈련 다양한 컴퓨터 비전 응용 분야에서 우세한 방법이 되었습니다. 그러나 이미지의 의미론적 의미를 학습하기 위해 사람이 라벨을 붙인 캡션에 의존하기 때문입니다. 이 접근 방식은 해당 캡션에 명시적으로 포함되지 않은 중요한 정보를 간과하는 경우가 많습니다. 예를 들어 노란색 방에 있는 빨간색 테이블 사진의 휴먼 레이블 캡션은 "A red wooden table"일 수 있습니다. 이 캡션은 테이블의 배경, 위치 및 크기에 대한 몇 가지 중요한 정보를 놓치게 됩니다. 이로 인해 현지 정보에 대한 이해가 부족하고 상세한 현지화 정보가 필요한 작업에서 성능이 저하됩니다.

또한 사람이 레이블을 지정하고 주석을 추가해야 하므로 모델 학습을 위해 수집할 수 있는 데이터의 양이 제한됩니다. 예를 들어 셀에 주석을 추가하려면 필요한 규모에서 사용할 수 없는 특정 수준의 인간 전문 지식이 필요합니다. 셀룰러 이미지에 대한 자기 감독 교육 방식을 사용하면 보다 기초적인 모델을 위한 길이 열리므로 결과적으로 개선될 것입니다. 생물학적 발견. 의 추정과 유사한 고급 필드에 동일하게 적용됩니다. 동물 밀도.

DINO에서 DINOv2로 이동하려면 다음과 같은 몇 가지 문제를 극복해야 했습니다.

선별된 대규모 교육 데이터 세트 만들기
학습 알고리즘 및 구현 개선
기능성 증류 파이프라인 설계.

DINOv2: Meta AI의 자체 감독 컴퓨터 비전 모델
그림 2: 분할 정밀도의 DINO v1 대 v2 비교

2.1. 대규모의 선별된 다양한 이미지 데이터 세트 생성

DINOv2를 구축하는 주요 단계 중 하나는 더 큰 아키텍처와 모델을 훈련하여 모델의 성능을 향상시키는 것입니다. 그러나 모델이 클수록 효율적으로 훈련하려면 큰 데이터 세트가 필요합니다. 요구 사항을 충족하는 대용량 데이터 세트가 없었기 때문에 연구자들은 공개적으로 크롤링된 웹 데이터를 활용하고 다음과 같이 유용한 데이터만 선택하는 파이프라인을 구축했습니다. 원자 램프.

그러나 이러한 데이터 세트를 사용하려면 두 가지 주요 작업을 수행해야 합니다.

서로 다른 개념 및 작업 간에 데이터 균형 조정
관련 없는 이미지 제거

이 작업은 수동으로 수행할 수 있으므로 약 25개의 타사 데이터 세트에서 일련의 시드 이미지를 선별하고 해당 시드 이미지와 밀접하게 관련된 이미지를 가져와 확장했습니다. 이 접근 방식을 통해 142억 개의 이미지 중 총 1.2억 XNUMX만 개의 이미지로 구성된 관련 데이터 세트를 생성할 수 있었습니다.

2.2. 알고리즘 및 기술 개선

더 큰 모델과 데이터 세트를 사용하면 더 나은 결과를 얻을 수 있지만 큰 문제가 따릅니다. 주요 과제 중 두 가지는 잠재적인 불안정성과 훈련 중에 다루기 쉬운 상태를 유지하는 것입니다. 교육을 보다 안정적으로 만들기 위해 DINOv2에는 유사성 검색 및 분류 문학.

DINOv2의 교육 프로세스는 최첨단에서 제공하는 최신 혼합 정밀도 및 분산 교육 구현을 통합합니다. 파이토치 2. 이를 통해 코드를 더 빠르게 구현할 수 있었고 DINO 모델 교육에 동일한 하드웨어를 사용하여 데이터 및 모델 크기를 확장할 수 있는 속도는 두 배, 메모리 사용량은 XNUMX분의 XNUMX로 줄었습니다.

2.3. 모델 증류를 사용하여 추론 시간 감소

추론에서 대형 모델을 실행하려면 다양한 사용 사례에 대한 방법의 실제 사용을 제한하는 강력한 하드웨어가 필요합니다. 이 문제를 극복하기 위해 연구자들은 모델 증류를 사용하여 큰 모델의 지식을 더 작은 모델로 압축했습니다. 연구원들은 이 접근 방식을 활용하여 무시할 수 있는 성능 비용으로 고성능 아키텍처를 더 작은 아키텍처로 압축할 수 있었습니다. 그 결과 강력한 ViT-Small, ViT-Base 및 ViT-Large 모델이 탄생했습니다.

교육 및 평가 코드에는 PyTorch 2.0 및 xFormers 0.0.18 뿐만 아니라 다른 많은 타사 패키지와 코드도 Linux 환경을 예상합니다. 다음 지침에서는 교육 및 평가 목적으로 필요한 모든 종속성을 구성하는 방법을 간략하게 설명합니다.

지침을 사용하여 PyTorch를 설치합니다. 여기에서 지금 확인해 보세요.. CUDA를 지원하는 PyTorch를 설치하는 것이 좋습니다.
다운로드 콘도
다음 명령을 사용하여 DINOv2 리포지토리를 복제합니다.

작성자 별 코드

제공된 환경 정의를 사용하여 "dinov2"라는 Conda 환경을 만들고 활성화합니다.

작성자 별 코드

이 프로젝트에 필요한 종속성을 설치하려면 제공된 requirements.txt 파일을 활용하세요.

작성자 별 코드

마지막으로 아래 코드를 사용하여 모델을 로드할 수 있습니다.

작성자 별 코드

결론적으로 Meta AI의 DINOv2 모델 출시는 중요한 이정표를 세웠습니다. DINOv2 모델에서 사용하는 자기 지도 학습 접근 방식은 많은 양의 레이블이 지정된 데이터 없이 머신 러닝 모델을 교육할 수 있는 강력한 방법을 제공합니다. 미세 조정 없이 높은 정확도를 달성할 수 있는 이 모델은 다양한 컴퓨터 비전 작업 및 애플리케이션에 적합합니다. 또한 DINOv2는 다양한 이미지 모음에서 학습할 수 있으며 명시적 교육 없이도 깊이 추정과 같은 기능에서 학습할 수 있습니다. DINOv2를 오픈 소스 모델로 사용할 수 있게 되면서 연구원과 개발자는 컴퓨터 비전 작업 및 애플리케이션에서 새로운 가능성을 탐색할 수 있는 문이 열립니다.