Зображення з Bing Image Creator
Meta AI щойно випустив відкритий код Моделі DINOv2 перший метод, який використовує самоконтрольоване навчання для навчання моделей комп’ютерного зору. Моделі DINOv2 досягають результатів, які збігаються або навіть перевищують стандартний підхід і моделі в цій галузі.
Моделі досягли високої продуктивності без необхідності тонкого налаштування, що є ідеальним вибором для багатьох різних завдань і програм комп’ютерного зору. DINOv2 може навчатися з різних колекцій зображень і таких функцій, як оцінка глибини, без необхідності спеціального навчання завдяки методу самоконтролю.
Малюнок 1: DINOv2: моделі комп’ютерного зору з самоконтролем від Meta AI
1.1. Тонке налаштування не потрібно
Самоконтрольоване навчання — це потужний метод, який використовується для навчання моделей машинного навчання без потреби у великих обсягах позначених даних. Моделі DINOv2 можна навчити на корпусі зображень без необхідності пов’язаних метаданих, конкретного хештегу чи підпису до зображення. Моделі DinoV2, на відміну від кількох останніх підходів до самоконтролю, не вимагають тонкого налаштування, таким чином створюючи високопродуктивні функції для різних програм комп’ютерного зору.
1.2. Подолання людських обмежень анотації
За останні кілька років зображення-текст попередня підготовка стала переважаючим методом для різноманітних програм комп’ютерного зору. Однак через його залежність від позначених людиною підписів для вивчення семантичного значення зображень. Цей підхід часто пропускає важливу інформацію, яка явно не включена в ці підписи. Наприклад, людський підпис до зображення червоного столу в жовтій кімнаті може бути «Червоний дерев’яний стіл». У цьому підписі буде втрачена важлива інформація про фон, положення та розмір столу. Це призведе до нерозуміння локальної інформації та призведе до низької продуктивності завдань, які потребують детальної інформації про локалізацію.
Крім того, потреба в людських мітках і анотаціях обмежить кількість даних, які ми можемо зібрати для навчання моделей. Це стає набагато складніше для певних програм, наприклад, анотування комірки вимагає певного рівня людського досвіду, який буде недоступний у необхідному масштабі. Використання підходу до самоконтролю для навчання клітинних зображень відкриває шлях для більш фундаментальної моделі та, як наслідок, покращить біологічне відкриття. Те саме стосується подібних розширених полів, як оцінка тваринна щільність.
Перехід від DINO до DINOv2 вимагав подолання кількох проблем, таких як
- Створення великого та підібраного набору навчальних даних
- Удосконалення алгоритму навчання та впровадження
- Проектування функціонального дистиляційного трубопроводу.
Рисунок 2: Порівняння точності сегментації DINO v1 і v2
2.1. Створення великого, підібраного та різноманітного набору даних зображень
Одним із основних кроків створення DINOv2 є навчання більших архітектур і моделей для підвищення продуктивності моделі. Однак більші моделі вимагають великих наборів даних для ефективного навчання. Оскільки не було доступних великих наборів даних, які б відповідали вимогам, дослідники використали загальнодоступні веб-дані та створили конвеєр для вибору лише корисних даних, як у LASER.
Однак, щоб мати можливість використовувати ці набори даних, необхідно виконати два основних завдання:
- Збалансуйте дані між різними концепціями та завданнями
- Видаліть невідповідні зображення
Оскільки це завдання можна виконати вручну, вони підібрали набір початкових зображень із приблизно 25 сторонніх наборів даних і розширили його, отримавши зображення, тісно пов’язані з цими початковими зображеннями. Цей підхід дозволив їм створити відповідний набір даних із 142 мільйонів зображень із 1.2 мільярда зображень.
2.2. Алгоритмічні та технічні вдосконалення
Хоча використання більших моделей і наборів даних призведе до кращих результатів, воно супроводжується серйозними проблемами. Двома основними проблемами є потенційна нестабільність і збереження податливості під час навчання. Щоб зробити навчання більш стабільним, DINOv2 включає додаткові методи регулярізації, які були натхненні пошук подібності та класифікація література.
Процес навчання DINOv2 інтегрує найновіші реалізації змішаної точності та розподіленого навчання, надані передовими PyTorch 2. Це дозволило швидше впроваджувати коди, а використання того самого апаратного забезпечення для навчання моделей DINO призвело до подвоєння швидкості та третини використання пам’яті, що дозволило масштабувати дані та розмір моделі.
2.3. Зменшення часу висновку за допомогою дистиляції моделей
Запуск великих моделей у висновках вимагає потужного апаратного забезпечення, яке обмежить практичне використання методів для різних випадків використання. Щоб подолати цю проблему, дослідники використовували дистиляцію моделей, щоб стиснути знання великих моделей у менші. Використовуючи цей підхід, дослідники змогли конденсувати високопродуктивні архітектури в менші з незначними витратами на продуктивність. Результатом цього стали потужні моделі ViT-Small, ViT-Base і ViT-Large.
Для коду навчання та оцінювання потрібен PyTorch 2.0 і xFormers 0.0.18, а також багато інших пакетів сторонніх розробників, а також код передбачає середовище Linux. У наведених нижче інструкціях описано, як налаштувати всі необхідні залежності для цілей навчання та оцінки:
- Встановіть PyTorch за інструкцією тут. Рекомендується встановити PyTorch з підтримкою CUDA.
- Завантажити Конда
- Клонуйте репозиторій DINOv2 за допомогою такої команди:
Код за автором
- Перейдіть до створення та активації середовища Conda під назвою «dinov2», використовуючи надане визначення середовища:
Код за автором
- Щоб установити залежності, необхідні для цього проекту, скористайтеся наданим файлом requirements.txt.
Код за автором
- Нарешті, ви можете завантажити моделі за допомогою коду нижче:
Код за автором
Підсумовуючи, випуск моделей DINOv2 від Meta AI знаменує собою важливу віху. Підхід до самоконтрольованого навчання, який використовується моделями DINOv2, забезпечує потужний спосіб навчання моделей машинного навчання без потреби у великих обсягах позначених даних. Завдяки здатності досягати високої точності без потреби в тонкому налаштуванні, ці моделі підходять для різноманітних завдань і програм комп’ютерного зору. Крім того, DINOv2 може навчатися з різних колекцій зображень і може навчатися з таких функцій, як оцінка глибини без явного навчання. Доступність DINOv2 як моделі з відкритим вихідним кодом відкриває двері для дослідників і розробників для вивчення нових можливостей у задачах і програмах комп’ютерного зору.
посилання
Юсеф Рафаат є дослідником комп’ютерного зору та науковцем з даних. Його дослідження зосереджені на розробці алгоритмів комп’ютерного зору в режимі реального часу для програм охорони здоров’я. Він також понад 3 роки працював спеціалістом з обробки даних у сфері маркетингу, фінансів та охорони здоров’я.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoAiStream. Web3 Data Intelligence. Розширення знань. Доступ тут.
- Карбування майбутнього з Адріенн Ешлі. Доступ тут.
- Купуйте та продавайте акції компаній, які вийшли на IPO, за допомогою PREIPO®. Доступ тут.
- джерело: https://www.kdnuggets.com/2023/05/dinov2-selfsupervised-computer-vision-models-meta-ai.html?utm_source=rss&utm_medium=rss&utm_campaign=dinov2-self-supervised-computer-vision-models-by-meta-ai
- : має
- :є
- : ні
- 1
- 1.2 млрд штук.
- 3rd
- a
- здатність
- Здатний
- МЕНЮ
- виконано
- Achieve
- досягнутий
- через
- Додатковий
- просунутий
- AI
- алгоритм
- алгоритмічний
- алгоритми
- ВСІ
- Також
- кількість
- суми
- an
- та
- тварина
- застосування
- підхід
- підходи
- приблизно
- ЕСТЬ
- AS
- At
- наявність
- доступний
- фон
- BE
- ставати
- стає
- нижче
- Краще
- Мільярд
- Bing
- Створюємо
- побудований
- by
- CAN
- Підписи
- випадків
- Викликати
- певний
- проблеми
- вибір
- тісно
- код
- збирати
- Колекції
- приходить
- порівняння
- комп'ютер
- Комп'ютерне бачення
- Програми комп'ютерного зору
- поняття
- висновок
- витрати
- створювати
- створення
- вирішальне значення
- Куратор
- дані
- вчений даних
- набори даних
- Попит
- залежність
- глибина
- докладно
- розробників
- розвивається
- різний
- розподілений
- розподілене навчання
- Різне
- do
- домен
- зроблений
- Двері
- подвійний
- два
- під час
- продуктивно
- підвищувати
- Навколишнє середовище
- Ефір (ETH)
- оцінка
- Навіть
- приклад
- розширений
- чекає
- експертиза
- дослідити
- швидше
- риси
- кілька
- поле
- Поля
- філе
- фінансування
- Перший
- фокусується
- після
- для
- від
- функціональний
- GIF
- апаратні засоби
- хештег
- he
- охорона здоров'я
- Високий
- висока продуктивність
- його
- Як
- How To
- Однак
- HTML
- HTTPS
- людина
- зображення
- зображень
- реалізація
- важливо
- in
- включені
- includes
- інформація
- натхненний
- нестабільність
- встановлювати
- інструкції
- Інтеграція
- в
- IT
- ЙОГО
- просто
- KDnuggets
- знання
- етикетка
- етикетки
- відсутність
- великий
- більше
- останній
- вести
- УЧИТЬСЯ
- вивчення
- рівень
- МЕЖА
- Linux
- літератури
- загрузка
- місцевий
- Локалізація
- машина
- навчання за допомогою машини
- головний
- основний
- зробити
- РОБОТИ
- вручну
- багато
- Маркетинг
- матч
- сенс
- Зустрічатися
- пам'ять
- Meta
- метадані
- метод
- методика
- може бути
- віха
- мільйона
- модель
- Моделі
- більше
- Більше того
- багато
- Названий
- необхідно
- Необхідність
- Нові
- немає
- of
- часто
- on
- ті,
- тільки
- з відкритим вихідним кодом
- Відкриється
- or
- Інше
- з
- план
- Подолати
- пакети
- партія
- Минуле
- ідеальний
- продуктивність
- PHP
- картина
- трубопровід
- plato
- Інформація про дані Платона
- PlatoData
- бідні
- положення
- можливостей
- потенціал
- потужний
- Практичний
- Проблема
- процес
- виробляти
- проект
- за умови
- забезпечує
- публічно
- цілей
- піторх
- реального часу
- останній
- червоний
- пов'язаний
- звільнити
- випущений
- решті
- Сховище
- вимагати
- вимагається
- Вимога
- Вимагається
- дослідження
- дослідник
- Дослідники
- результат
- результати
- Кімната
- s
- то ж
- шкала
- Масштабування
- вчений
- насіння
- сегментація
- комплект
- кілька
- Повинен
- значний
- аналогічний
- з
- Розмір
- менше
- деякі
- конкретний
- швидкість
- стабільний
- standard
- заходи
- сильний
- такі
- підходящий
- підтримка
- таблиця
- Завдання
- завдання
- технічний
- ніж
- Дякую
- Що
- Команда
- Їх
- Там.
- Ці
- вони
- третій
- третя сторона
- це
- ті
- час
- до
- Усього:
- поїзд
- навчений
- Навчання
- два
- розуміння
- на відміну від
- Використання
- використання
- використовуваний
- використання
- використовувати
- використовує
- v1
- різний
- бачення
- vs
- шлях..
- we
- Web
- ДОБРЕ
- були
- який
- волі
- з
- без
- дерев'яний
- працював
- років
- ви
- зефірнет