Hình ảnh từ Trình tạo hình ảnh Bing
Meta AI vừa phát hành mã nguồn mở mô hình DINOv2 phương pháp đầu tiên sử dụng phương pháp học tự giám sát để huấn luyện các mô hình thị giác máy tính. Các mô hình DINOv2 đạt được kết quả phù hợp hoặc thậm chí tốt hơn so với phương pháp và mô hình tiêu chuẩn trong lĩnh vực này.
Các mô hình đạt được hiệu suất mạnh mẽ mà không cần tinh chỉnh, đây là sự lựa chọn hoàn hảo cho nhiều tác vụ và ứng dụng thị giác máy tính khác nhau. DINOv2 có thể học hỏi từ các bộ sưu tập hình ảnh và tính năng khác nhau, chẳng hạn như ước tính độ sâu mà không cần đào tạo rõ ràng nhờ phương pháp đào tạo tự giám sát.
Hình 1: DINOv2: Các mô hình thị giác máy tính tự giám sát của Meta AI
1.1. Không cần tinh chỉnh
Học tự giám sát là một phương pháp mạnh mẽ được sử dụng để đào tạo các mô hình học máy mà không cần một lượng lớn dữ liệu được dán nhãn. Các mô hình DINOv2 có thể được đào tạo trên kho hình ảnh mà không cần siêu dữ liệu liên quan, thẻ bắt đầu bằng # cụ thể hoặc chú thích hình ảnh. Các mô hình DinoV2, không giống như một số phương pháp học tập tự giám sát gần đây, không cần tinh chỉnh, do đó tạo ra các tính năng hiệu suất cao cho các ứng dụng thị giác máy tính khác nhau.
1.2. Vượt qua giới hạn chú thích của con người
Trong vài năm qua, đào tạo trước văn bản hình ảnh đã trở thành phương pháp chiếm ưu thế cho các ứng dụng thị giác máy tính khác nhau. Tuy nhiên, do phụ thuộc vào chú thích do con người dán nhãn để tìm hiểu ngữ nghĩa của hình ảnh. Cách tiếp cận này thường bỏ qua thông tin quan trọng không được đưa vào các chú thích đó một cách rõ ràng. Ví dụ: chú thích nhãn người của hình ảnh chiếc bàn màu đỏ trong căn phòng màu vàng có thể là “Một chiếc bàn gỗ màu đỏ”. Chú thích này sẽ bỏ lỡ một số thông tin quan trọng về nền, vị trí và kích thước của bảng. Điều này sẽ gây ra sự thiếu hiểu biết về thông tin bản địa hóa và sẽ dẫn đến hiệu suất kém đối với các tác vụ yêu cầu thông tin bản địa hóa chi tiết.
Ngoài ra, nhu cầu về nhãn và chú thích của con người sẽ giới hạn lượng dữ liệu mà chúng tôi có thể thu thập để huấn luyện các mô hình. Điều này trở nên khó khăn hơn nhiều đối với một số ứng dụng, chẳng hạn như chú thích một ô đòi hỏi trình độ chuyên môn nhất định của con người sẽ không khả dụng ở quy mô cần thiết. Sử dụng phương pháp đào tạo tự giám sát trên hình ảnh tế bào sẽ mở đường cho một mô hình cơ bản hơn và kết quả là sẽ cải thiện khám phá sinh học. Điều tương tự cũng áp dụng cho các trường nâng cao tương tự như ước tính của mật độ động vật.
Chuyển từ DINO sang DINOv2 yêu cầu vượt qua một số thách thức như
- Tạo một tập dữ liệu đào tạo lớn và được quản lý
- Cải thiện thuật toán đào tạo và triển khai
- Thiết kế một đường ống chưng cất chức năng.
Hình 2: So sánh DINO v1 Vs v2 về độ chính xác của phân đoạn
2.1. Tạo tập dữ liệu hình ảnh lớn, được sắp xếp và đa dạng
One of the main steps to building the DINOv2 is to train larger architectures and models to enhance the model’s performance. However, larger models require large datasets to be efficiently trained. Since there were no large datasets available that meet the requirements researchers leveraged publicly crawled web data and built a pipeline to select only useful data as in LASER.
Tuy nhiên, hai nhiệm vụ chính cần được thực hiện để có thể sử dụng các bộ dữ liệu này:
- Cân bằng dữ liệu giữa các khái niệm và nhiệm vụ khác nhau
- Xóa hình ảnh không liên quan
Vì tác vụ này có thể được thực hiện thủ công nên họ đã tuyển chọn một tập hợp các hình ảnh gốc từ khoảng 25 bộ dữ liệu của bên thứ ba và mở rộng nó bằng cách tìm nạp các hình ảnh có liên quan chặt chẽ với các hình ảnh gốc đó. Cách tiếp cận này cho phép họ tạo ra một bộ dữ liệu liên quan gồm tổng cộng 142 triệu hình ảnh trong số 1.2 tỷ hình ảnh.
2.2. Cải tiến thuật toán và kỹ thuật
Mặc dù sử dụng các mô hình và bộ dữ liệu lớn hơn sẽ dẫn đến kết quả tốt hơn nhưng nó đi kèm với những thách thức lớn. Hai trong số những thách thức chính là sự mất ổn định tiềm ẩn và khả năng duy trì trong quá trình đào tạo. Để làm cho quá trình đào tạo ổn định hơn, DINOv2 bao gồm các phương pháp chuẩn hóa bổ sung được lấy cảm hứng từ tìm kiếm sự tương đồng và phân loại văn chương.
Quá trình đào tạo của DINOv2 tích hợp các triển khai đào tạo phân tán và độ chính xác hỗn hợp mới nhất được cung cấp bởi PyTorch 2. Điều này cho phép triển khai mã nhanh hơn và sử dụng cùng một phần cứng để đào tạo các mô hình DINO dẫn đến tốc độ tăng gấp đôi và một phần ba mức sử dụng bộ nhớ, cho phép thay đổi quy mô dữ liệu và kích thước mô hình.
2.3. Giảm thời gian suy luận bằng cách sử dụng mô hình chưng cất
Việc chạy các mô hình lớn trong suy luận đòi hỏi phần cứng mạnh mẽ, điều này sẽ hạn chế việc sử dụng thực tế các phương pháp cho các trường hợp sử dụng khác nhau. Để khắc phục vấn đề này, các nhà nghiên cứu đã sử dụng phương pháp chắt lọc mô hình để nén kiến thức của các mô hình lớn thành các mô hình nhỏ hơn. Bằng cách sử dụng phương pháp này, các nhà nghiên cứu có thể cô đọng các kiến trúc hiệu năng cao thành các kiến trúc nhỏ hơn với chi phí hiệu năng không đáng kể. Điều này dẫn đến các mẫu ViT-Small, ViT-Base và ViT-Large mạnh mẽ.
Mã đào tạo và đánh giá yêu cầu PyTorch 2.0 và xFormers 0.0.18 cũng như nhiều gói bên thứ 3 khác và mã cũng mong đợi một môi trường Linux. Các hướng dẫn sau đây phác thảo cách định cấu hình tất cả các phụ thuộc cần thiết cho mục đích đào tạo và đánh giá:
- Cài đặt PyTorch bằng hướng dẫn tại đây. Bạn nên cài đặt PyTorch với sự hỗ trợ của CUDA.
- Tải về chung cư
- Sao chép kho lưu trữ DINOv2 bằng lệnh sau:
Mã của tác giả
- Proceed to create and activate a Conda environment named “dinov2” using the provided environment definition:
Mã của tác giả
- Để cài đặt các phụ thuộc cần thiết cho dự án này, hãy sử dụng tệp tests.txt được cung cấp.
Mã của tác giả
- Cuối cùng, bạn có thể tải các mô hình bằng mã bên dưới:
Mã của tác giả
Tóm lại, việc phát hành các mô hình DINOv2 của Meta AI đánh dấu một cột mốc quan trọng. Phương pháp học tự giám sát được sử dụng bởi các mô hình DINOv2 cung cấp một cách mạnh mẽ để huấn luyện các mô hình máy học mà không cần một lượng lớn dữ liệu được dán nhãn. Với khả năng đạt được độ chính xác cao mà không cần tinh chỉnh, các mẫu này phù hợp với các tác vụ và ứng dụng thị giác máy tính khác nhau. Hơn nữa, DINOv2 có thể học hỏi từ các bộ sưu tập hình ảnh khác nhau và có thể học hỏi từ các tính năng như ước tính độ sâu mà không cần đào tạo rõ ràng. Sự sẵn có của DINOv2 dưới dạng mô hình nguồn mở mở ra cơ hội cho các nhà nghiên cứu và nhà phát triển khám phá những khả năng mới trong các nhiệm vụ và ứng dụng thị giác máy tính.
dự án
Youssef Rafaat là một nhà nghiên cứu thị giác máy tính và nhà khoa học dữ liệu. Nghiên cứu của ông tập trung vào việc phát triển các thuật toán thị giác máy tính thời gian thực cho các ứng dụng chăm sóc sức khỏe. Anh ấy cũng đã làm việc với tư cách là nhà khoa học dữ liệu trong hơn 3 năm trong lĩnh vực tiếp thị, tài chính và chăm sóc sức khỏe.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoAiStream. Thông minh dữ liệu Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Đúc kết tương lai với Adryenn Ashley. Truy cập Tại đây.
- Mua và bán cổ phần trong các công ty PRE-IPO với PREIPO®. Truy cập Tại đây.
- nguồn: https://www.kdnuggets.com/2023/05/dinov2-selfsupervised-computer-vision-models-meta-ai.html?utm_source=rss&utm_medium=rss&utm_campaign=dinov2-self-supervised-computer-vision-models-by-meta-ai
- : có
- :là
- :không phải
- 1
- 1.2 tỷ
- 3rd
- a
- có khả năng
- Có khả năng
- Giới thiệu
- thực hiện
- Đạt được
- đạt được
- ngang qua
- thêm vào
- tiên tiến
- AI
- thuật toán
- thuật toán
- thuật toán
- Tất cả
- Ngoài ra
- số lượng
- số lượng
- an
- và
- động vật
- các ứng dụng
- phương pháp tiếp cận
- cách tiếp cận
- khoảng
- LÀ
- AS
- At
- sẵn có
- có sẵn
- lý lịch
- BE
- trở nên
- trở thành
- phía dưới
- Hơn
- Tỷ
- Bing
- Xây dựng
- xây dựng
- by
- CAN
- chú thích
- trường hợp
- Nguyên nhân
- nhất định
- thách thức
- sự lựa chọn
- chặt chẽ
- mã
- thu thập
- bộ sưu tập
- đến
- sự so sánh
- máy tính
- Tầm nhìn máy tính
- Ứng dụng Thị giác Máy tính
- khái niệm
- phần kết luận
- Chi phí
- tạo
- Tạo
- quan trọng
- lưu trữ
- dữ liệu
- nhà khoa học dữ liệu
- bộ dữ liệu
- Nhu cầu
- phụ thuộc
- chiều sâu
- chi tiết
- phát triển
- phát triển
- khác nhau
- phân phối
- đào tạo phân tán
- khác nhau
- do
- miền
- thực hiện
- cửa ra vào
- tăng gấp đôi
- hai
- suốt trong
- hiệu quả
- nâng cao
- Môi trường
- Ether (ETH)
- đánh giá
- Ngay cả
- ví dụ
- mở rộng
- kỳ vọng
- chuyên môn
- khám phá
- nhanh hơn
- Tính năng
- vài
- lĩnh vực
- Lĩnh vực
- Tập tin
- tài chính
- Tên
- tập trung
- tiếp theo
- Trong
- từ
- chức năng
- gif
- phần cứng
- gắn thẻ (hashtag)
- he
- chăm sóc sức khỏe
- Cao
- hiệu suất cao
- của mình
- Độ đáng tin của
- Hướng dẫn
- Tuy nhiên
- HTML
- HTTPS
- Nhân loại
- hình ảnh
- hình ảnh
- thực hiện
- quan trọng
- in
- bao gồm
- bao gồm
- thông tin
- lấy cảm hứng từ
- bất ổn
- cài đặt, dựng lên
- hướng dẫn
- Tích hợp
- trong
- IT
- ITS
- chỉ
- Xe đẩy
- kiến thức
- nhãn
- Nhãn
- Thiếu sót
- lớn
- lớn hơn
- mới nhất
- dẫn
- LEARN
- học tập
- Cấp
- LIMIT
- linux
- văn chương
- tải
- địa phương
- Nội địa hóa
- máy
- học máy
- Chủ yếu
- chính
- làm cho
- LÀM CHO
- thủ công
- nhiều
- Marketing
- Trận đấu
- có nghĩa là
- Gặp gỡ
- Bộ nhớ
- Siêu dữ liệu
- Siêu dữ liệu
- phương pháp
- phương pháp
- Might
- sự kiện quan trọng
- triệu
- kiểu mẫu
- mô hình
- chi tiết
- Hơn thế nữa
- nhiều
- Được đặt theo tên
- cần thiết
- Cần
- Mới
- Không
- of
- thường
- on
- những
- có thể
- mã nguồn mở
- mở ra
- or
- Nền tảng khác
- ra
- đề cương
- Vượt qua
- gói
- bên
- qua
- hoàn hảo
- hiệu suất
- PHP
- hình ảnh
- đường ống dẫn
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- người nghèo
- vị trí
- khả năng
- tiềm năng
- mạnh mẽ
- Thực tế
- Vấn đề
- quá trình
- sản xuất
- dự án
- cung cấp
- cung cấp
- công khai
- mục đích
- ngọn đuốc
- thời gian thực
- gần đây
- đỏ
- liên quan
- phát hành
- phát hành
- còn lại
- kho
- yêu cầu
- cần phải
- Yêu cầu
- đòi hỏi
- nghiên cứu
- nhà nghiên cứu
- nhà nghiên cứu
- kết quả
- Kết quả
- Phòng
- s
- tương tự
- Quy mô
- mở rộng quy mô
- Nhà khoa học
- hạt giống
- phân khúc
- định
- một số
- nên
- có ý nghĩa
- tương tự
- kể từ khi
- Kích thước máy
- nhỏ hơn
- một số
- riêng
- tốc độ
- ổn định
- Tiêu chuẩn
- Các bước
- mạnh mẽ
- như vậy
- phù hợp
- hỗ trợ
- bàn
- Nhiệm vụ
- nhiệm vụ
- Kỹ thuật
- hơn
- cảm ơn
- việc này
- Sản phẩm
- Them
- Đó
- Kia là
- họ
- Thứ ba
- của bên thứ ba
- điều này
- những
- thời gian
- đến
- Tổng số:
- Train
- đào tạo
- Hội thảo
- hai
- sự hiểu biết
- không giống
- Sử dụng
- sử dụng
- đã sử dụng
- sử dụng
- sử dụng
- Bằng cách sử dụng
- v1
- khác nhau
- tầm nhìn
- vs
- Đường..
- we
- web
- TỐT
- là
- cái nào
- sẽ
- với
- không có
- gỗ
- làm việc
- năm
- bạn
- zephyrnet