Автоматизуйте мультимодальні, паралельні робочі процеси маркування даних за допомогою Amazon SageMaker Ground Truth і покрокових функцій AWS

Перевидано Платоном

читають: 0

Це перша серія з двох частин про Основна правда Amazon SageMaker ієрархічний робочий процес маркування та інформаційні панелі. У частині 1 ми розглянемо створення багатоетапних робочих процесів маркування для ієрархічних таксономій міток за допомогою Функції кроку AWS. У частині 2 (незабаром) ми розглянемо, як побудувати інформаційні панелі для аналізу анотацій наборів даних і показників продуктивності працівників на озерах даних, створених як вихід із складних робочих процесів, і отримати інформацію.

Позначення даних часто вимагає, щоб один об’єкт даних включав кілька типів анотацій, або багатотипні, наприклад 2D-рамки (обмежувальні рамки), лінії та маски сегментації, все на одному зображенні. Крім того, щоб створити високоякісні моделі машинного навчання (ML) з використанням мічених даних, вам потрібен спосіб контролювати якість міток. Ви можете зробити це, створивши робочий процес, у якому позначені дані перевіряються та коригуються за потреби. У цій публікації представлено рішення для вирішення обох цих проблем маркування за допомогою автомобільного набору даних, і ви можете розширити це рішення для використання з будь-яким типом набору даних.

Для нашого випадку використання припустимо, що у вас є велика кількість автомобільних відеоданих, знятих під одним або кількома кутами на рухомому транспортному засобі (наприклад, деякі Сцени відстеження кількох об’єктів (MOT).), і ви хочете додати анотації до даних за допомогою кількох типів анотацій. Ви плануєте використовувати ці дані для навчання алгоритму круїз-контролю, утримання смуги руху. Враховуючи поставлене завдання, необхідно використовувати високоякісні етикетки для навчання моделі.

По-перше, ви повинні визначити типи анотацій, які ви хочете додати до своїх відеокадрів. Одними з найважливіших об’єктів для позначення в цьому варіанті використання є інші транспортні засоби в кадрі, межі доріг і смуги. Для цього ви визначаєте a ієрархічна таксономія міток, який визначає тип міток, які потрібно додати до кожного відео, і порядок, у якому потрібно додати мітки. The Робота з маркування відео відстеження Ground Truth підтримує обмежувальні рамки, полілінію, багатокутник і анотації ключових точок. У цьому випадку транспортні засоби анотуються за допомогою двовимірних коробок або обмежувальні рамки, а межі та криві доріг анотуються серією гнучких сегментів ліній, які називаються полілінії.

По-друге, вам потрібно створити робочий процес, щоб забезпечити якість етикетки. Для цього ви можете створити робочий процес аудиту, щоб переконатися, що мітки, згенеровані вашим конвеєром, достатньо високої якості, щоб бути корисними для навчання моделі. У цьому робочому процесі аудиту ви можете значно підвищити точність мітки, побудувавши багатоетапний конвеєр рецензування, який дає змогу перевіряти анотації та, якщо необхідно, коригувати другий рецензент, який може бути експертом із предмету.

Виходячи з розміру набору даних і об’єктів даних, ви також повинні враховувати час і ресурси, необхідні для створення та підтримки цього конвеєра. В ідеалі, ви хочете, щоб ця серія завдань маркування запускалася автоматично, вимагаючи лише роботи людини для визначення вхідних даних і робочого процесу.

Рішення, використане в цій публікації, використовує Ground Truth, AWS CloudFormation, Покрокові функції та Amazon DynamoDB створити ряд завдань маркування, які виконуються паралельно та ієрархічно. Ви використовуєте ієрархічну таксономію міток для створення завдань маркування різних модальностей (полілінії та обмежувальні прямокутники), а також додаєте вторинні кроки перегляду людьми, щоб покращити якість анотації та кінцеві результати.

У цій публікації ми демонструємо рішення в контексті автомобільного простору, але ви можете легко застосувати цей загальний конвеєр для маркування конвеєрів із зображеннями, відео, текстом тощо. Крім того, ми демонструємо розширюваний робочий процес, що дозволяє зменшити загальну кількість кадрів, які потребують перевірки людиною, додаючи автоматичну перевірку якості та підтримуючи якість даних у масштабі. У цьому випадку ми використовуємо ці перевірки, щоб знайти аномалії в даних часових рядів MOT, як-от анотації відстеження відеооб’єктів.

Ми розглянемо варіант використання, у якому ми створюємо кілька типів анотацій для автомобільної сцени. Зокрема, ми виконуємо чотири завдання маркування для кожного вхідного відеокліпу: початкове маркування транспортних засобів, початкове маркування смуг, а потім завдання коригування для кожного початкового завдання з окремою робочою силою із забезпечення якості.

Ми демонструємо різні точки розширення в нашому робочому процесі Step Function, які можуть дозволити вам запускати автоматизовані перевірки якості. Це дозволяє фільтрувати кліпи між і після завершення завдань, що може призвести до високоякісних анотацій за незначну частину вартості.

Для реалізації цього рішення використовуються служби AWS

Це рішення створює та керує завданнями маркування Ground Truth для позначення відеокадрів за допомогою кількох типів анотацій. Ground Truth має вбудовану підтримку наборів відеоданих через відеокадр тип завдання відстеження об'єкта.

Цей тип завдань дозволяє працівникам створювати анотації для серії відеокадрів, надаючи інструменти для прогнозування наступного розташування обмежувальної рамки в наступних кадрах. Він також підтримує кілька типів анотацій, таких як обмежувальні рамки або полілінії файли конфігурації категорії етикетки надається під час створення робочого місця. Ми використовуємо ці інструменти в цьому підручнику, виконуючи завдання для обмежувальних рамок транспортних засобів і завдання для поліліній смуги.

Ми використовуємо функції кроку для керування завданням маркування. Це рішення абстрагує створення завдань маркування, щоб ви вказали загальний робочий процес, який потрібно запустити, використовуючи таксономію ієрархічної мітки, а все керування завданнями обробляється функціями кроку.

Рішення реалізовано за допомогою шаблонів CloudFormation, які можна розгорнути у своєму обліковому записі AWS. Інтерфейсом рішення є API, яким керує API -шлюз Amazon, що надає можливість подавати завдання анотації до рішення, які потім перекладаються на завдання маркування Ground Truth.

Орієнтовні витрати

Розгортаючи та користуючись цим рішенням, ви несете максимальні витрати в розмірі приблизно 20 доларів США, крім витрат на маркування людини, оскільки воно використовує повністю керовані обчислювальні ресурси лише на вимогу. Служба простого зберігання Amazon (Amazon S3), AWS Lambda, Amazon SageMaker, API-шлюз, Служба простих сповіщень Amazon (Amazon SNS), Служба простої черги Amazon (Amazon SQS), Клей AWS, і крокові функції включені в Безкоштовний рівень AWS, з оплатою за додаткове користування. Для отримання додаткової інформації див. наступні сторінки з цінами:

Ціна Ground Truth залежить від типу робочої сили, яку ви використовуєте. Якщо ви новий користувач Ground Truth, ми пропонуємо вам використовувати приватну робочу силу та включити себе як працівника, щоб перевірити конфігурацію вашої роботи з маркування. Додаткову інформацію див Ціни Amazon SageMaker Ground Truth.

Огляд рішення

У цій серії, що складається з двох частин, ми обговорюємо шаблон архітектури, який дозволяє вам побудувати конвеєр для організації багатоетапних робочих процесів маркування даних, у яких працівники паралельно додають різні типи анотацій за допомогою Ground Truth. Ви також дізнаєтеся, як можна аналізувати анотації набору даних, створені робочим процесом, а також продуктивність працівників. Перша публікація охоплює робочий процес «Крокові функції», який автоматизує розширені робочі процеси маркування даних ML із використанням Ground Truth для ланцюгів та ієрархічних таксономій міток. У другому дописі описано, як створити озера даних на анотаціях набору даних із Ground Truth і метрик працівників і використовувати ці озера даних для отримання уявлень або аналізу ефективності ваших працівників і якості анотацій набору даних за допомогою розширеної аналітики.

На наступній схемі зображено ієрархічний робочий процес, який можна використовувати для виконання груп завдань маркування послідовними кроками, або рівні, в якому кожне завдання маркування на одному рівні виконується паралельно.

Рішення складається з двох основних частин:

Використовуйте API, щоб запустити робочий процес оркестрування.
Виконайте окремі кроки робочого процесу, щоб досягти конвеєру маркування.

Запустіть робочий процес оркестрування за допомогою API

Шаблон CloudFormation, запущений у цьому рішенні, використовує шлюз API, щоб надати кінцеву точку для запуску завдань пакетного маркування. Після того, як ви надіслали запит на публікацію до кінцевої точки шлюзу API, він запускає лямбда-функцію, щоб запустити робочий процес.

Наступна таблиця містить два основних API, призначених для користувача, що мають відношення до запуску пакету, який представляє багаторівневі завдання маркування.

URL	Тип запиту	Опис
{endpointUrl}/batch/create	POST	API запускає нову партію завдань маркування
{endpointUrl}/batch/show	GET	API описують поточний стан виконання пакетного завдання

Запустіть робочий процес

Для оркестрування кроків ми використовуємо функції кроків як кероване рішення. Коли запускається API створення пакетного завдання, лямбда-функція запускає робочий процес крокових функцій, як показано нижче. Це розпочинає обробку введення анотації.

Давайте обговоримо кроки більш детально.

Крок трансформації

Першим кроком є попередня обробка даних. Поточна реалізація перетворює вхідні дані ноутбука в тип даних внутрішнього файлу маніфесту спільне для кількох кроків. Наразі цей крок не виконує ніякої складної обробки, але ви можете додатково налаштувати цей крок, додавши до цієї функції власну логіку попередньої обробки даних. Наприклад, якщо ваш набір даних був закодований у необроблених відео, ви можете виконати поділ кадрів і генерацію маніфесту в рамках трансформації, а не в окремому блокноті. Крім того, якщо ви використовуєте це рішення для створення конвеєру маркування 3D хмари точок, ви можете додати логіку для вилучення даних про пози у світовій системі координат за допомогою камери та зовнішніх матриць LiDAR.

Тригер LabelingFirstLevel

Коли попередня обробка даних завершена, операція Ground Truth API CreateLabelingJob використовується для запуску завдань маркування. Ці завдання маркування відповідають за анотування наборів даних, які прив’язані до першого рівня.

CheckForFirstLevelComplete

Цей крок чекає на FIRST_LEVEL Завдання маркування Ground Truth запускаються з TriggerLabelingFirstStep. Коли тригер завдання завершено, цей крок чекає на завершення всіх створених завдань маркування. Лямбда-функція зовнішнього прослуховувача відстежує стан завдань маркування, і коли всі очікуючі завдання маркування виконані, вона запускає sendTokenSucess API для сигналізації цього стану, щоб перейти до наступного кроку. Випадки збою обробляються за допомогою відповідних пропозицій про помилки та тайм-аутів у визначенні кроку.

SendSecondLevelSNSAandCheckResponse

На цьому етапі виконується постобробка результату завдання першого рівня. Наприклад, якщо ваші вимоги передбачають надсилання лише 10% кадрів на завдання коригування, ви можете реалізувати цю логіку тут, відфільтрувавши набір вихідних даних з першого завдання.

TriggerLabelingSecondLevel

Після завершення постобробки даних першого рівня, CreateLabelingJobs використовується для запуску завдань маркування для завершення анотацій на другому рівні. На цьому етапі приватні працівники перевіряють якість анотацій завдань маркування першого рівня та за потреби оновлюють анотації.

CheckForSecondLevelComplete

Цей крок є таким же кроком очікування CheckForFirstLevelComplete, але цей крок просто чекає на робочі місця, які створюються з другого рівня.

SendThirdLevelSNSAandCheckResponse

Цей крок є таким же етапом постобробки, що і SendSecondLevelSNSAndCheckResponse, але цей крок виконує постобробку вихідних даних другого рівня та подає як вхідні дані для завдання маркування третього рівня.

TriggerLabelingThirdLevel

Це та ж логіка, що і TriggerLabelingSecondLevel, але запускаються завдання маркування, які позначаються як третій рівень. На цьому етапі приватні працівники оновлюють анотації щодо якості роботи маркування другого рівня.

CopyLogsAndSendBatchCompleted

Ця функція Lambda веде журнали та надсилає повідомлення SNS, щоб сповістити користувачів про завершення пакету. Це також заповнювач для будь-якої логіки постобробки, яку ви можете запустити. Звичайна постобробка включає перетворення мічених даних у формат, сумісний із форматом даних, специфічним для клієнта.

Передумови

Перш ніж почати, переконайтеся, що у вас є такі передумови:

An Обліковий запис AWS.
Блокнот Управління ідентифікацією та доступом AWS (IAM) з дозволами, необхідними для виконання цього покрокового керівництва. Ваша роль IAM повинна мати необхідні дозволи. Якщо вам не потрібен детальний дозвіл, додайте такі керовані політики AWS:
- AmazonS3FullAccess
- AmazonAPIGatewayInvokeFullAccess
- AmazonSageMakerFullAccess
Знайомство з Ground Truth, AWS CloudFormation та функціями Step.
SageMaker трудові ресурси. Для цієї посади ми використовуємо приватну робочу силу. Ви можете створити робочу силу на консолі SageMaker. Зверніть увагу на Амазонка Когніто ідентифікатор пулу користувачів та ідентифікатор клієнта програми після створення вашої робочої сили. Ви використовуєте ці значення, щоб вказати розгортанню стека CloudFormation, яку робочу силу створювати робочі групи, які представляють групу етикеток. Ви можете знайти ці значення в Резюме приватної робочої сили розділ на консолі після створення робочої сили або під час дзвінка Опишіть робочу команду.

Наступний GIF демонструє, як створити приватну робочу силу. Покрокові інструкції див Створіть робочу силу Amazon Cognito за допомогою сторінки Маркування робочих сил.

Запустіть стек CloudFormation

Тепер, коли ми побачили структуру рішення, ми розгортаємо його в нашому обліковому записі, щоб ми могли запустити приклад робочого процесу. Усіми нашими кроками розгортання керує AWS CloudFormation — він створює ресурси в Lambda, Step Functions, DynamoDB та API Gateway для вас.

Ви можете запустити стек в регіоні AWS us-east-1 на консолі CloudFormation, вибравши Запустити стек:

На консолі CloudFormation виберіть Далі, а потім змініть наведені нижче параметри шаблону, щоб налаштувати рішення.

Ви можете знайти CognitoUserPoolClientId і CognitoUserPoolId на консолі SageMaker.

CognitoUserPoolClientId: Ідентифікатор клієнта програми вашої приватної робочої сили.
CognitoUserPoolId: Ідентифікатор пулу користувачів, пов’язаного з вашою приватною робочою силою.

Щоб знайти ці значення в консолі:

Відкрийте консоль SageMaker за адресою https://console.aws.amazon.com/sagemaker/
Select Маркування робочої сили у навігаційній панелі.
Вибір приватний
Використовуйте значення в Приватний робочий колектив резюме Використовувати Клієнт програми для CognitoUserPoolClientId та використайте Пул користувачів Amazon Cognito для CognitoUserPoolId.

Для цього підручника ви можете використовувати значення за замовчуванням для наступних параметрів.

GlueJobTriggerCron: Вираз Cron для використання під час планування звітів AWS Glue cron. Результати анотацій, згенерованих за допомогою SageMaker Ground Truth, і показники продуктивності працівників використовуються для створення інформаційної панелі в Amazon QuickSight. Це буде детально пояснено у другій частині. Результати анотацій SageMaker і показники продуктивності працівників відображаються в запитах Athena після обробки даних за допомогою AWS Glue. За замовчуванням завдання cron AWS Glue виконуються щогодини.
JobCompletionTimeout: Кількість секунд для очікування, перш ніж вважати завдання маркування невдаленим і перейти до стану BatchError.
Рівень реєстрації: Це використовується внутрішньо і може бути проігноровано. Рівень ведення журналів, щоб змінити детальність журналів. Приймає значення DEBUG і PROD.

Приставка: Префікс, який використовується під час іменування ресурсів, що використовуються для створення та керування маркуванням завдань і показників працівників.

Щоб запустити стек в іншому регіоні AWS, скористайтеся інструкціями в README GitHub сховище.

Після розгортання рішення дві нові робочі групи будуть у приватній робочій силі, яку ви створили раніше: smgt-workflow-first-level та smgt-workflow-second-level. Це робочі групи за замовчуванням, які використовуються рішенням, якщо не вказано перевизначення, і smgt-workflow-second-level робочий колектив використовується для маркування робіт другого та третього рівнів. Ви повинні додати себе до обох робочих груп, щоб побачити завдання позначення, створені рішенням. Щоб дізнатися, як додати себе до приватної робочої групи, див Додати або видалити працівників.

Вам також потрібно перейти на консоль API Gateway і знайти розгорнутий API з префіксом smgt-workflow і зазначте його ідентифікатор. Блокнот має посилатися на цей ідентифікатор, щоб він міг визначити URL-адресу API для виклику.

Запустіть блокнот

Після розгортання рішення у своєму обліковому записі ви готові запустити блокнот, щоб взаємодіяти з ним і розпочати нові робочі процеси. У цьому розділі ми проходимо наступні кроки:

Налаштуйте екземпляр блокнота та отримайте доступ до нього.
Отримайте приклад набору даних.
Підготуйте вхідні файли Ground Truth.

Налаштуйте екземпляр блокнота SageMaker

У цьому прикладі блокнота ви дізнаєтеся, як зіставити просту таксономію, що складається з класу транспортного засобу та класу смуги, у файли конфігурації категорії мітки Ground Truth. Файл конфігурації категорії міток використовується для визначення міток, які працівники використовують для анотації ваших зображень. Далі ви дізнаєтеся, як запустити та налаштувати рішення, яке запускає конвеєр, за допомогою шаблону CloudFormation. Ви також можете додатково налаштувати цей код, наприклад, налаштувавши виклик API створення пакетів для виконання міток для іншої комбінації типів завдань.

Щоб створити екземпляр блокнота та отримати доступ до блокнота, який використовується в цій публікації, виконайте такі дії:

Створіть екземпляр блокнота з такими параметрами:
1. Використовуйте ml.t2.medium, щоб запустити екземпляр ноутбука.
2. Збільште обсяг сховища ML принаймні до 10 ГБ.
3. Виберіть роль IAM блокнота, описану в попередніх вимогах. Ця роль дозволяє вашому ноутбуку завантажувати набір даних в Amazon S3 і викликати API рішення.
Відкрийте Jupyter Lab або Jupyter для отримати доступ до екземплярів блокнота.
У Jupyter виберіть Приклади SageMaker У Jupyter Lab виберіть значок SageMaker.
Вибирати Вакансії з маркування наземної правди а потім виберіть роботу sagemaker_ground_truth_workflows.ipynb.
Якщо ви використовуєте Jupyter, виберіть Скористайтесь скопіювати блокнот у свій екземпляр і запустити його. Якщо ви знаходитесь у лабораторії Jupyter, виберіть Створіть копію.

Отримайте приклад набору даних

Щоб налаштувати набір даних, виконайте наведені нижче дії.

Завантажте MOT17.zip за допомогою Завантажити набір даних розділ зошита.

Це завантаження становить приблизно 5 ГБ і займає кілька хвилин.

Розпакуйте файл MOT17.zip за допомогою ноутбука Розпакуйте набір даних
Відповідно до Скопіюйте дані в S3 заголовку, запустіть клітинку, щоб скопіювати один набір даних відеокадрів до Amazon S3.

Підготуйте вхідні файли Ground Truth

Щоб використовувати рішення, нам потрібно створити файл маніфесту. Цей файл повідомляє Ground Truth, де знаходиться ваш набір даних. Нам також потрібні два файли конфігурації категорій міток, щоб описати імена наших міток, і інструмент маркування для кожного (обмежувальна рамка або полілінія).

Запустіть клітинки під Створити маніфест щоб отримати список кадрів у відео з набору даних. Для прикладу візьмемо 150 кадрів при половині частоти кадрів відео.
Продовжуйте виконувати клітинки під Створити маніфест щоб створити файл послідовності, що описує наші відеокадри, а потім створити файл маніфесту з посиланням на наш файл послідовності.
Запустіть клітинку під Створення файлів конфігурації категорії міток щоб створити два нових файли: файл конфігурації мітки транспортного засобу (який використовує інструмент обмежувальної рамки) і файл конфігурації міток смуги руху (який використовує інструмент полілінії).
Скопіюйте файл маніфесту та позначте файли конфігурації категорій на Amazon S3, запустивши файл Надішліть дані на S3

На цьому етапі ви підготували всі вхідні дані для завдань маркування і готові почати роботу з рішенням.

Щоб дізнатися більше про завдання позначення та з’єднання відеокадрів Ground Truth, перегляньте такі посилання:

Запустіть приклад робочого процесу

У цьому розділі ми розглянемо кроки для запуску прикладу робочого процесу для автомобільного набору даних. Ми створюємо багатомодальний робочий процес, виконуємо початкове та аудиторське маркування, а потім переглядаємо готові анотації.

Створіть пакет робочого процесу

Це рішення організовує робочий процес завдань маркування Ground Truth для виконання завдань обмежувального прямокутника відстеження відеооб’єктів і завдань полілінії, а також автоматичного створення завдань коригування після початкового маркування. Цей пакет робочого процесу налаштовується за допомогою batch_create API доступний для рішення.

Запустіть клітинку під Демонстрація створення пакетів у зошиті. Це передає ваш вхідний маніфест і URI конфігурації категорії міток S3 URI в новий пакет робочого процесу.

Комірка повинна вивести ідентифікатор щойно створеного пакета робочого процесу, наприклад:

Batch processor successfully triggered with BatchId : nb-ccb0514c

Виконайте перший раунд завдань з маркування

Щоб імітувати робітників, які завершують маркування, ми входимо в систему як працівник робочої групи першого рівня Ground Truth і виконуємо завдання маркування.

Запустіть клітинку під Вхід на портал робітників щоб отримати посилання для входу на робочий портал.

Запрошення вже було надіслано на вашу електронну адресу, якщо ви запросили себе до робочих груп першого та другого рівнів, створених рішенням.

Увійдіть і дочекайтеся, поки завдання з’являться на робочому порталі.

Мають бути доступні два завдання, одне із закінченням на vehicle і одна закінчується на lane, що відповідає двом завданням, які ми створили під час пакетного створення робочого процесу.

Відкрийте кожне завдання та додайте кілька фіктивних міток, вибираючи й перетягуючи рамки зображення.
Вибирати Надіслати на кожне завдання.

Виконайте другий раунд завдань з маркування

Наш робочий процес вказував, що ми хочемо, щоб завдання коригування автоматично запускалися для кожного завдання першого рівня. Тепер ми завершили другий раунд завдань з маркування.

Все ще в робочому порталі, чекайте завдань з vehicle-audit та lane-audit з'явитися.
Відкрийте кожне завдання на робочому порталі, зауваживши, що мітки попереднього рівня все ще видно.

Ці завдання з налаштування може виконуватися більш висококваліфікованою групою забезпечення якості в іншій робочій команді.

Внесіть корективи за бажанням і виберіть Проходити or Невдача на кожній анотації.
Коли ви закінчите, виберіть Надіслати.

Перегляньте заповнені анотації

Ми можемо переглянути деталі про завершений пакет робочого процесу, запустивши API пакетного шоу.

Запустіть клітинку під Пакетна демонстрація шоу.

Це запитує базу даних рішення для всіх повних пакетів виконання робочого процесу та має вивести ваш ідентифікатор пакета, коли ваш пакет буде завершено.

Ми можемо отримати більш конкретні відомості про пакет, запустивши клітинку під Пакетна детальна демонстрація показу.

Це бере ідентифікатор пакета в системі та повертає інформацію про стан і розташування всіх вхідних і вихідних маніфестів для кожного створеного завдання.

Скопіюйте та введіть поле jobOutputS3Url для будь-якого з завдань і переконайтеся, що файл маніфесту для цього завдання завантажено.

Цей файл містить посилання на вашу послідовність вхідних даних, а також S3 URI вихідних анотацій для кожної послідовності.

Остаточні результати

Коли всі завдання маркування в конвеєрі завершені, на сайті публікується повідомлення SNS Тема SNS зі статусом за замовчуванням. Ви можна підписатися на теми SNS використання електронної адреси для перевірки функціональності рішення. Повідомлення містить ідентифікатор пакету, використаний під час створення пакету, повідомлення про завершення пакету та ту саму інформацію, що batch/show API надає під а batchInfo ключ. Ви можете проаналізувати це повідомлення, щоб отримати метадані про завершені завдання маркування на другому рівні конвеєра.

{ "batchId": "nb-track-823f6d3e", "message": "Batch processing has completed successfully.", "batchInfo": { "batchId": "nb-track-823f6d3e", "status": "COMPLETE", "inputLabelingJobs": [ { "jobName": "nb-track-823f6d3e-vehicle", "taskAvailabilityLifetimeInSeconds": "864000", "inputConfig": { "inputManifestS3Uri": "s3://smgt-workflow-1-322552456788-us-west-2-batch-input/tracking_manifests/MOT17-13-SDP.manifest" }, "jobModality": "VideoObjectTracking", "taskTimeLimitInSeconds": "604800", "maxConcurrentTaskCount": "100", "workteamArn": "arn:aws:sagemaker:us-west-2:322552456788:workteam/private-crowd/smgt-workflow-1-first-level", "jobType": "BATCH", "jobLevel": "1", "labelCategoryConfigS3Uri": "s3://smgt-workflow-1-322552456788-us-west-2-batch-input/tracking_manifests/vehicle_label_category.json" }, { "jobName": "nb-track-823f6d3e-lane", "taskAvailabilityLifetimeInSeconds": "864000", "inputConfig": { "inputManifestS3Uri": "s3://smgt-workflow-1-322552456788-us-west-2-batch-input/tracking_manifests/MOT17-13-SDP.manifest" }, "jobModality": "VideoObjectTracking", "taskTimeLimitInSeconds": "604800", "maxConcurrentTaskCount": "100", "workteamArn": "arn:aws:sagemaker:us-west-2:322552456788:workteam/private-crowd/smgt-workflow-1-first-level", "jobType": "BATCH", "jobLevel": "1", "labelCategoryConfigS3Uri": "s3://smgt-workflow-1-322552456788-us-west-2-batch-input/tracking_manifests/lane_label_category.json" }, { "jobName": "nb-track-823f6d3e-vehicle-audit", "taskAvailabilityLifetimeInSeconds": "864000", "inputConfig": { "chainFromJobName": "nb-track-823f6d3e-vehicle" }, "jobModality": "VideoObjectTrackingAudit", "taskTimeLimitInSeconds": "604800", "maxConcurrentTaskCount": "100", "workteamArn": "arn:aws:sagemaker:us-west-2:322552456788:workteam/private-crowd/smgt-workflow-1-first-level", "jobType": "BATCH", "jobLevel": "2" }, { "jobName": "nb-track-823f6d3e-lane-audit", "taskAvailabilityLifetimeInSeconds": "864000", "inputConfig": { "chainFromJobName": "nb-track-823f6d3e-lane" }, "jobModality": "VideoObjectTrackingAudit", "taskTimeLimitInSeconds": "604800", "maxConcurrentTaskCount": "100", "workteamArn": "arn:aws:sagemaker:us-west-2:322552456788:workteam/private-crowd/smgt-workflow-1-first-level", "jobType": "BATCH", "jobLevel": "2" } ], "firstLevel": { "status": "COMPLETE", "numChildBatches": "2", "numChildBatchesComplete": "2", "jobLevels": [ { "batchId": "nb-track-823f6d3e-first_level-nb-track-823f6d3e-lane", "batchStatus": "COMPLETE", "labelingJobName": "nb-track-823f6d3e-lane", "labelAttributeName": "nb-track-823f6d3e-lane-ref", "labelCategoryS3Uri": "s3://smgt-workflow-1-322552456788-us-west-2-batch-input/tracking_manifests/lane_label_category.json", "jobInputS3Uri": "s3://smgt-workflow-1-322552456788-us-west-2-batch-input/tracking_manifests/MOT17-13-SDP.manifest", "jobInputS3Url": "https://smgt-workflow-1-322552456788-us-west-2-batch-input.s3.amazonaws.com/tracking_manifests/MOT17-13-SDP.manifest?...", "jobOutputS3Uri": "s3://smgt-workflow-1-322552456788-us-west-2-batch-processing/batch_manifests/VideoObjectDetection/nb-track-823f6d3e-first_level-nb-track-823f6d3e-lane/output/nb-track-823f6d3e-lane/manifests/output/output.manifest", "jobOutputS3Url": "https://smgt-workflow-1-322552456788-us-west-2-batch-processing.s3.amazonaws.com/batch_manifests/VideoObjectDetection/nb-track-823f6d3e-first_level-nb-track-823f6d3e-lane/output/nb-track-823f6d3e-lane/manifests/output/output.manifest?..." }, { "batchId": "nb-track-823f6d3e-first_level-nb-track-823f6d3e-vehicle", "batchStatus": "COMPLETE", "labelingJobName": "nb-track-823f6d3e-vehicle", "labelAttributeName": "nb-track-823f6d3e-vehicle-ref", "labelCategoryS3Uri": "s3://smgt-workflow-1-322552456788-us-west-2-batch-input/tracking_manifests/vehicle_label_category.json", "jobInputS3Uri": "s3://smgt-workflow-1-322552456788-us-west-2-batch-input/tracking_manifests/MOT17-13-SDP.manifest", "jobInputS3Url": "https://smgt-workflow-1-322552456788-us-west-2-batch-input.s3.amazonaws.com/tracking_manifests/MOT17-13-SDP.manifest?...", "jobOutputS3Uri": "s3://smgt-workflow-1-322552456788-us-west-2-batch-processing/batch_manifests/VideoObjectTracking/nb-track-823f6d3e-first_level-nb-track-823f6d3e-vehicle/output/nb-track-823f6d3e-vehicle/manifests/output/output.manifest", "jobOutputS3Url": "https://smgt-workflow-1-322552456788-us-west-2-batch-processing.s3.amazonaws.com/batch_manifests/VideoObjectTracking/nb-track-823f6d3e-first_level-nb-track-823f6d3e-vehicle/output/nb-track-823f6d3e-vehicle/manifests/output/output.manifest?..." } ] }, "secondLevel": { "status": "COMPLETE", "numChildBatches": "2", "numChildBatchesComplete": "2", "jobLevels": [ { "batchId": "nb-track-823f6d3e-second_level-nb-track-823f6d3e-vehicle-audit", "batchStatus": "COMPLETE", "labelingJobName": "nb-track-823f6d3e-vehicle-audit", "labelAttributeName": "nb-track-823f6d3e-vehicle-audit-ref", "labelCategoryS3Uri": "s3://smgt-workflow-1-322552456788-us-west-2-batch-processing/label_category_input/nb-track-823f6d3e-second_level-nb-track-823f6d3e-vehicle-audit/category-file.json", "jobInputS3Uri": "s3://smgt-workflow-1-322552456788-us-west-2-batch-processing/batch_manifests/VideoObjectTracking/nb-track-823f6d3e-first_level-nb-track-823f6d3e-vehicle/output/nb-track-823f6d3e-vehicle/manifests/output/output.manifest", "jobInputS3Url": "https://smgt-workflow-1-322552456788-us-west-2-batch-processing.s3.amazonaws.com/batch_manifests/VideoObjectTracking/nb-track-823f6d3e-first_level-nb-track-823f6d3e-vehicle/output/nb-track-823f6d3e-vehicle/manifests/output/output.manifest?...", "jobOutputS3Uri": "s3://smgt-workflow-1-322552456788-us-west-2-batch-processing/batch_manifests/VideoObjectTrackingAudit/nb-track-823f6d3e-second_level-nb-track-823f6d3e-vehicle-audit/output/nb-track-823f6d3e-vehicle-audit/manifests/output/output.manifest", "jobOutputS3Url": "https://smgt-workflow-1-322552456788-us-west-2-batch-processing.s3.amazonaws.com/batch_manifests/VideoObjectTrackingAudit/nb-track-823f6d3e-second_level-nb-track-823f6d3e-vehicle-audit/output/nb-track-823f6d3e-vehicle-audit/manifests/output/output.manifest?..." }, { "batchId": "nb-track-823f6d3e-second_level-nb-track-823f6d3e-lane-audit", "batchStatus": "COMPLETE", "labelingJobName": "nb-track-823f6d3e-lane-audit", "labelAttributeName": "nb-track-823f6d3e-lane-audit-ref", "labelCategoryS3Uri": "s3://smgt-workflow-1-322552456788-us-west-2-batch-processing/label_category_input/nb-track-823f6d3e-second_level-nb-track-823f6d3e-lane-audit/category-file.json", "jobInputS3Uri": "s3://smgt-workflow-1-322552456788-us-west-2-batch-processing/batch_manifests/VideoObjectDetection/nb-track-823f6d3e-first_level-nb-track-823f6d3e-lane/output/nb-track-823f6d3e-lane/manifests/output/output.manifest", "jobInputS3Url": "https://smgt-workflow-1-322552456788-us-west-2-batch-processing.s3.amazonaws.com/batch_manifests/VideoObjectDetection/nb-track-823f6d3e-first_level-nb-track-823f6d3e-lane/output/nb-track-823f6d3e-lane/manifests/output/output.manifest?...", "jobOutputS3Uri": "s3://smgt-workflow-1-322552456788-us-west-2-batch-processing/batch_manifests/VideoObjectDetectionAudit/nb-track-823f6d3e-second_level-nb-track-823f6d3e-lane-audit/output/nb-track-823f6d3e-lane-audit/manifests/output/output.manifest", "jobOutputS3Url": "https://smgt-workflow-1-322552456788-us-west-2-batch-processing.s3.amazonaws.com/batch_manifests/VideoObjectDetectionAudit/nb-track-823f6d3e-second_level-nb-track-823f6d3e-lane-audit/output/nb-track-823f6d3e-lane-audit/manifests/output/output.manifest?..." } ] }, "thirdLevel": { "status": "COMPLETE", "numChildBatches": "0", "numChildBatchesComplete": "0", "jobLevels": [] } }, "token": "arn:aws:states:us-west-2:322552456788:execution:smgt-workflow-1-batch-process:nb-track-823f6d3e-8432b929", "status": "SUCCESS" }

У кожному об’єкті метаданих завдання a jobOutputS3Url поле містить попередньо підписану URL-адресу для доступу до вихідного маніфесту цього конкретного завдання. Вихідний маніфест містить результати маркування даних у форматі розширеного маніфесту, який ви можете проаналізувати для отримання анотацій, індексуючи об’єкт JSON за допомогою <jobName>-ref. Це поле вказує на розташування S3, що містить усі анотації для даного відеокліпу.

{ "source-ref": "s3://smgt-workflow-1-322552456788-us-west-2-batch-input/tracking_manifests/MOT17-13-SDP_seq.json", "nb-track-93aa7d01-vehicle-ref": "s3://smgt-workflow-1-322552456788-us-west-2-batch-processing/batch_manifests/VideoObjectTracking/nb-track-93aa7d01-first_level-nb-track-93aa7d01-vehicle/output/nb-track-93aa7d01-vehicle/annotations/consolidated-annotation/output/0/SeqLabel.json", "nb-track-93aa7d01-vehicle-ref-metadata": { "class-map": {"0": "Vehicle"}, "job-name": "labeling-job/nb-track-93aa7d01-vehicle", "human-annotated": "yes", "creation-date": "2021-04-05T17:43:02.469000", "type": "groundtruth/video-object-tracking", }, "nb-track-93aa7d01-vehicle-audit-ref": "s3://smgt-workflow-1-322552456788-us-west-2-batch-processing/batch_manifests/VideoObjectTrackingAudit/nb-track-93aa7d01-second_level-nb-track-93aa7d01-vehicle-audit/output/nb-track-93aa7d01-vehicle-audit/annotations/consolidated-annotation/output/0/SeqLabel.json", "nb-track-93aa7d01-vehicle-audit-ref-metadata": { "class-map": {"0": "Vehicle"}, "job-name": "labeling-job/nb-track-93aa7d01-vehicle-audit", "human-annotated": "yes", "creation-date": "2021-04-05T17:55:33.284000", "type": "groundtruth/video-object-tracking", "adjustment-status": "unadjusted", }, }

Наприклад, для завдань обмежувальної рамки SeqLabel.json файл містить анотації обмежувальної рамки для кожного анотованого кадру (у цьому випадку анотується лише перший кадр):

{ "tracking-annotations": [ { "annotations": [ { "height": 66, "width": 81, "top": 547, "left": 954, "class-id": "0", "label-category-attributes": {}, "object-id": "3c02d0f0-9636-11eb-90fe-6dd825b8de95", "object-name": "Vehicle:1" }, { "height": 98, "width": 106, "top": 545, "left": 1079, "class-id": "0", "label-category-attributes": {}, "object-id": "3d957ee0-9636-11eb-90fe-6dd825b8de95", "object-name": "Vehicle:2" } ], "frame-no": "0", "frame": "000001.jpg", "frame-attributes": {} } ] }

Оскільки повідомлення SNS про завершення пакету містить усі вихідні файли маніфесту із завдань, запущених паралельно, ви можете виконати будь-яку подальшу обробку своїх анотацій на основі цього повідомлення. Наприклад, якщо у вас є певний формат серіалізації для цих анотацій, який поєднує рамки для транспортних засобів і анотації смуги руху, ви можете отримати вихідний маніфест завдання смуги, а також завдання транспортного засобу, а потім об’єднати на основі номера кадру та перетворити на потрібний остаточний формат.

Щоб дізнатися більше про формати вихідних даних Ground Truth, див Вихідні дані.

Прибирати

Щоб уникнути стягнення плати в майбутньому, запустіть Прибирати розділ блокнота, щоб видалити всі ресурси, включаючи об’єкти S3 та стек CloudFormation. Після завершення видалення обов’язково зупиніть і видаліть екземпляр блокнота, на якому розміщено поточний сценарій блокнота.

Висновок

Ця серія з двох частин надає вам еталонну архітектуру для створення розширеного робочого процесу маркування даних, що складається з багатоетапного конвеєра маркування даних, завдань коригування та озер даних для відповідних анотацій наборів даних і показників працівників, а також оновлених інформаційних панелей.

У цій публікації ви дізналися, як отримати дані кадру відео та запустити робочий процес для виконання кількох завдань маркування Ground Truth, генеруючи два різних типи анотацій (обмежувальні прямокутники та полілінії). Ви також дізналися, як можна розширити конвеєр для аудиту та перевірки позначеного набору даних і як отримати результати перевірки. Нарешті, ви побачили, як посилатися на поточний прогрес пакетних завдань за допомогою BatchShow API.

Щоб отримати додаткову інформацію про озеро даних для анотацій набору даних Ground Truth і показників працівників із Ground Truth, перейдіть на сторінку Блог Ground Truth для другої публікації в блозі з цієї серії (невдовзі).

Спробуйте ноутбук і налаштуйте його для своїх вхідних наборів даних, додавши додаткові завдання або кроки аудиту, або змінивши модальність даних завдань. Подальше налаштування рішення може включати, але не обмежуючись,:

Додавання додаткових типів анотацій, таких як маски семантичної сегментації або ключові точки
Додавання автоматичного забезпечення якості та фільтрації до робочого процесу Step Functions, щоб надсилати лише анотації низької якості на наступний рівень перевірки
Додавання третього або четвертого рівнів перевірки якості для додаткових, більш спеціалізованих типів оглядів

Це рішення створено з використанням безсерверних технологій на додаток до крокових функцій, що робить його легко настроюваним і застосовним для широкого спектру додатків.

Про авторів

Від'я Сагар Равіпаті є архітектором глибокого навчання в Лабораторія рішень Amazon ML, де він використовує свій величезний досвід у широкомасштабних розподілених системах та свою пристрасть до машинного навчання, щоб допомогти клієнтам AWS у різних галузевих галузях пришвидшити прийняття ШІ та хмарних технологій. Раніше він був інженером машинного навчання у службі підключення в Amazon, який допомагав створювати платформи персоналізації та інтелектуального обслуговування.

Джеремі Фелтракко - інженер із розробки програмного забезпечення з лабораторії рішень Amazon ML у веб -службах Amazon. Він використовує свій досвід у галузі комп’ютерного зору, робототехніки та машинного навчання, щоб допомогти клієнтам AWS прискорити впровадження ШІ.

Дже Сон Чанг є інженером з розробки програмного забезпечення. Його пристрасть полягає в автоматизації ручного процесу з використанням рішень AI та технологій оркестрування для забезпечення виконання бізнесу.

Талія Чопра є технічним письменником в AWS, що спеціалізується на машинному навчанні та штучному інтелекті. Вона працює з кількома командами в AWS, щоб створити технічну документацію та навчальні посібники для клієнтів, які використовують Amazon SageMaker, MxNet і AutoGluon.

Джерело: https://aws.amazon.com/blogs/machine-learning/automate-multi-modality-parallel-data-labeling-workflows-with-amazon-sagemaker-ground-truth-and-aws-step-functions/

Часова мітка: Травень 5, 2021

Часова мітка: Червень 10, 2021