Bing Image Creator의 이미지
Meta AI는 방금 오픈 소스를 출시했습니다. DINOv2 모델 자기 지도 학습을 사용하여 컴퓨터 비전 모델을 훈련시키는 첫 번째 방법입니다. DINOv2 모델은 현장의 표준 접근 방식 및 모델과 일치하거나 더 나은 결과를 얻습니다.
이 모델은 미세 조정할 필요 없이 강력한 성능을 달성하여 다양한 컴퓨터 비전 작업 및 애플리케이션에 완벽한 선택이 되었습니다. DINOv2는 자체 지도 학습 방식 덕분에 명시적인 학습 없이 다양한 이미지 모음과 깊이 추정과 같은 기능을 통해 학습할 수 있습니다.
그림 1: DINOv2: Meta AI의 자체 감독 컴퓨터 비전 모델
1.1. 미세 조정이 필요하지 않습니다
자기 지도 학습은 많은 양의 레이블이 지정된 데이터 없이 기계 학습 모델을 훈련하는 데 사용되는 강력한 방법입니다. DINOv2 모델은 관련 메타데이터, 특정 해시태그 또는 이미지 캡션 없이 이미지 말뭉치에서 훈련할 수 있습니다. DinoV2 모델은 최근의 여러 자기 지도 학습 접근 방식과 달리 미세 조정이 필요하지 않으므로 다양한 컴퓨터 비전 응용 프로그램을 위한 고성능 기능을 생성합니다.
1.2. 사람의 주석 한계 극복
지난 몇 년 동안, 이미지-텍스트 사전 훈련 다양한 컴퓨터 비전 응용 분야에서 우세한 방법이 되었습니다. 그러나 이미지의 의미론적 의미를 학습하기 위해 사람이 라벨을 붙인 캡션에 의존하기 때문입니다. 이 접근 방식은 해당 캡션에 명시적으로 포함되지 않은 중요한 정보를 간과하는 경우가 많습니다. 예를 들어 노란색 방에 있는 빨간색 테이블 사진의 휴먼 레이블 캡션은 "A red wooden table"일 수 있습니다. 이 캡션은 테이블의 배경, 위치 및 크기에 대한 몇 가지 중요한 정보를 놓치게 됩니다. 이로 인해 현지 정보에 대한 이해가 부족하고 상세한 현지화 정보가 필요한 작업에서 성능이 저하됩니다.
또한 사람이 레이블을 지정하고 주석을 추가해야 하므로 모델 학습을 위해 수집할 수 있는 데이터의 양이 제한됩니다. 예를 들어 셀에 주석을 추가하려면 필요한 규모에서 사용할 수 없는 특정 수준의 인간 전문 지식이 필요합니다. 셀룰러 이미지에 대한 자기 감독 교육 방식을 사용하면 보다 기초적인 모델을 위한 길이 열리므로 결과적으로 개선될 것입니다. 생물학적 발견. 의 추정과 유사한 고급 필드에 동일하게 적용됩니다. 동물 밀도.
DINO에서 DINOv2로 이동하려면 다음과 같은 몇 가지 문제를 극복해야 했습니다.
- 선별된 대규모 교육 데이터 세트 만들기
- 학습 알고리즘 및 구현 개선
- 기능성 증류 파이프라인 설계.
그림 2: 분할 정밀도의 DINO v1 대 v2 비교
2.1. 대규모의 선별된 다양한 이미지 데이터 세트 생성
DINOv2를 구축하는 주요 단계 중 하나는 더 큰 아키텍처와 모델을 훈련하여 모델의 성능을 향상시키는 것입니다. 그러나 모델이 클수록 효율적으로 훈련하려면 큰 데이터 세트가 필요합니다. 요구 사항을 충족하는 대용량 데이터 세트가 없었기 때문에 연구자들은 공개적으로 크롤링된 웹 데이터를 활용하고 다음과 같이 유용한 데이터만 선택하는 파이프라인을 구축했습니다. 원자 램프.
그러나 이러한 데이터 세트를 사용하려면 두 가지 주요 작업을 수행해야 합니다.
- 서로 다른 개념 및 작업 간에 데이터 균형 조정
- 관련 없는 이미지 제거
이 작업은 수동으로 수행할 수 있으므로 약 25개의 타사 데이터 세트에서 일련의 시드 이미지를 선별하고 해당 시드 이미지와 밀접하게 관련된 이미지를 가져와 확장했습니다. 이 접근 방식을 통해 142억 개의 이미지 중 총 1.2억 XNUMX만 개의 이미지로 구성된 관련 데이터 세트를 생성할 수 있었습니다.
2.2. 알고리즘 및 기술 개선
더 큰 모델과 데이터 세트를 사용하면 더 나은 결과를 얻을 수 있지만 큰 문제가 따릅니다. 주요 과제 중 두 가지는 잠재적인 불안정성과 훈련 중에 다루기 쉬운 상태를 유지하는 것입니다. 교육을 보다 안정적으로 만들기 위해 DINOv2에는 유사성 검색 및 분류 문학.
DINOv2의 교육 프로세스는 최첨단에서 제공하는 최신 혼합 정밀도 및 분산 교육 구현을 통합합니다. 파이토치 2. 이를 통해 코드를 더 빠르게 구현할 수 있었고 DINO 모델 교육에 동일한 하드웨어를 사용하여 데이터 및 모델 크기를 확장할 수 있는 속도는 두 배, 메모리 사용량은 XNUMX분의 XNUMX로 줄었습니다.
2.3. 모델 증류를 사용하여 추론 시간 감소
추론에서 대형 모델을 실행하려면 다양한 사용 사례에 대한 방법의 실제 사용을 제한하는 강력한 하드웨어가 필요합니다. 이 문제를 극복하기 위해 연구자들은 모델 증류를 사용하여 큰 모델의 지식을 더 작은 모델로 압축했습니다. 연구원들은 이 접근 방식을 활용하여 무시할 수 있는 성능 비용으로 고성능 아키텍처를 더 작은 아키텍처로 압축할 수 있었습니다. 그 결과 강력한 ViT-Small, ViT-Base 및 ViT-Large 모델이 탄생했습니다.
교육 및 평가 코드에는 PyTorch 2.0 및 xFormers 0.0.18 뿐만 아니라 다른 많은 타사 패키지와 코드도 Linux 환경을 예상합니다. 다음 지침에서는 교육 및 평가 목적으로 필요한 모든 종속성을 구성하는 방법을 간략하게 설명합니다.
- 지침을 사용하여 PyTorch를 설치합니다. 여기에서 지금 확인해 보세요.. CUDA를 지원하는 PyTorch를 설치하는 것이 좋습니다.
- 다운로드 콘도
- 다음 명령을 사용하여 DINOv2 리포지토리를 복제합니다.
작성자 별 코드
- 제공된 환경 정의를 사용하여 "dinov2"라는 Conda 환경을 만들고 활성화합니다.
작성자 별 코드
- 이 프로젝트에 필요한 종속성을 설치하려면 제공된 requirements.txt 파일을 활용하세요.
작성자 별 코드
- 마지막으로 아래 코드를 사용하여 모델을 로드할 수 있습니다.
작성자 별 코드
결론적으로 Meta AI의 DINOv2 모델 출시는 중요한 이정표를 세웠습니다. DINOv2 모델에서 사용하는 자기 지도 학습 접근 방식은 많은 양의 레이블이 지정된 데이터 없이 머신 러닝 모델을 교육할 수 있는 강력한 방법을 제공합니다. 미세 조정 없이 높은 정확도를 달성할 수 있는 이 모델은 다양한 컴퓨터 비전 작업 및 애플리케이션에 적합합니다. 또한 DINOv2는 다양한 이미지 모음에서 학습할 수 있으며 명시적 교육 없이도 깊이 추정과 같은 기능에서 학습할 수 있습니다. DINOv2를 오픈 소스 모델로 사용할 수 있게 되면서 연구원과 개발자는 컴퓨터 비전 작업 및 애플리케이션에서 새로운 가능성을 탐색할 수 있는 문이 열립니다.
참고자료
유세프 라파트 컴퓨터 비전 연구원 및 데이터 과학자입니다. 그의 연구는 의료 응용 프로그램을 위한 실시간 컴퓨터 비전 알고리즘 개발에 중점을 둡니다. 또한 마케팅, 재무 및 의료 분야에서 3년 이상 데이터 과학자로 근무했습니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoAiStream. Web3 데이터 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 미래 만들기 w Adryenn Ashley. 여기에서 액세스하십시오.
- PREIPO®로 PRE-IPO 회사의 주식을 사고 팔 수 있습니다. 여기에서 액세스하십시오.
- 출처: https://www.kdnuggets.com/2023/05/dinov2-selfsupervised-computer-vision-models-meta-ai.html?utm_source=rss&utm_medium=rss&utm_campaign=dinov2-self-supervised-computer-vision-models-by-meta-ai
- :있다
- :이다
- :아니
- 1
- 1.2 억
- 3rd
- a
- 능력
- 할 수 있는
- 소개
- 달성
- 달성
- 달성
- 가로질러
- 추가
- 많은
- AI
- 연산
- 알고리즘
- 알고리즘
- All
- 또한
- 양
- 금액
- an
- 및
- 동물
- 어플리케이션
- 접근
- 구혼
- 대략
- 있군요
- AS
- At
- 유효성
- 가능
- 배경
- BE
- 가
- 된다
- 이하
- 더 나은
- 억원
- 빙
- 건물
- 내장
- by
- CAN
- 자막
- 가지 경우
- 원인
- 어떤
- 과제
- 선택
- 면밀히
- 암호
- 수집
- 컬렉션
- 제공
- 비교
- 컴퓨터
- 컴퓨터 비전
- 컴퓨터 비전 애플리케이션
- 개념
- 결론
- 비용
- 만들
- 만들기
- 결정적인
- 기획
- 데이터
- 데이터 과학자
- 데이터 세트
- 수요
- 의존
- 깊이
- 상세한
- 개발자
- 개발
- 다른
- 분산
- 분산 교육
- 몇몇의
- do
- 도메인
- 한
- 문
- 더블
- 두
- ...동안
- 효율적으로
- 강화
- 환경
- 에테르 (ETH)
- 평가
- 조차
- 예
- 확대하는
- ~을 기대하는
- 전문적 지식
- 탐험
- 페이스북
- 빠른
- 특징
- 를
- 들
- Fields
- 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에
- 재원
- 먼저,
- 집중
- 수행원
- 럭셔리
- 에
- 기능의
- 지프
- 하드웨어
- 해시 태그
- he
- 건강 관리
- 높은
- 고성능
- 그의
- 방법
- How To
- 그러나
- HTML
- HTTPS
- 사람의
- 영상
- 형상
- 이행
- 중대한
- in
- 포함
- 포함
- 정보
- 영감
- 불안정
- 설치
- 명령
- 통합
- 으로
- IT
- 그
- 다만
- 너 겟츠
- 지식
- 라벨
- 레이블
- 결핍
- 넓은
- 큰
- 최근
- 리드
- 배우다
- 배우기
- 레벨
- 제한
- 링크드인
- 리눅스
- 문학
- 하중
- 지방의
- 현지화
- 기계
- 기계 학습
- 본관
- 주요한
- 확인
- 제작
- 수동으로
- .
- 마케팅
- 경기
- 의미
- 소개
- 메모리
- 메타
- 메타 데이터
- 방법
- 방법
- 수도
- 획기적 사건
- 백만
- 모델
- 모델
- 배우기
- 또한
- 많은
- 이름
- 필요한
- 필요
- 신제품
- 아니
- of
- 자주
- on
- 사람
- 만
- 오픈 소스
- 열립니다
- or
- 기타
- 아웃
- 개요
- 극복하다
- 패키지
- 파티
- 과거
- 완전한
- 성능
- PHP
- .
- 관로
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 가난한
- 위치
- 가능성
- 가능성
- 강한
- 실용적인
- 문제
- 방법
- 생산
- 프로젝트
- 제공
- 제공
- 공개적으로
- 목적
- 파이 토치
- 실시간
- 최근
- 빨간색
- 관련
- 공개
- 출시
- 나머지
- 저장소
- 필요
- 필수
- 요구조건 니즈
- 필요
- 연구
- 연구원
- 연구원
- 결과
- 결과
- 방
- s
- 같은
- 규모
- 스케일링
- 과학자
- 씨
- 분할
- 세트
- 몇몇의
- 영상을
- 상당한
- 비슷한
- 이후
- 크기
- 작은
- 일부
- 구체적인
- 속도
- 안정된
- 표준
- 단계
- 강한
- 이러한
- 적당한
- SUPPORT
- 테이블
- 태스크
- 작업
- 테크니컬
- 보다
- 감사
- 그
- XNUMXD덴탈의
- 그들
- 그곳에.
- Bowman의
- 그들
- 제삼
- 타사
- 이
- 그
- 시간
- 에
- 금액
- Train
- 훈련 된
- 트레이닝
- 두
- 이해
- 같지 않은
- 용법
- 사용
- 익숙한
- 사용
- 활용
- 활용
- v1
- 여러
- 시력
- vs
- 방법..
- we
- 웹
- 잘
- 했다
- 어느
- 의지
- 과
- 없이
- 목재
- 일
- 년
- 당신
- 제퍼 넷