Не трогайте набор данных, не задав эти 10 вопросов

Теги: Datasets, Распределение, Выбросы, Политика, Стандартизация

Выбор правильного набора данных имеет решающее значение для успеха вашего проекта ИИ.

By Сандип Уттамчандани, доктор философии, Разработчик продуктов / программного обеспечения (вице-президент Engg) и руководитель корпоративных инициатив в области данных / искусственного интеллекта (CDO)

Исследование данных

Данные — это сердце продукта ИИ. Все больше внимания уделяется настройке данных, а не настройке моделей, как это придумал Эндрю Нг. ИИ, ориентированный на данные. По моему опыту, успех или провал проекта ИИ можно предсказать по используемым наборам данных.

Если вы специалист по данным/инженер ИИ, желающий создать новую модель, или инженер данных, работающий над созданием пайплайнов для проекта ИИ, для каждого набора данных, который вы отбираете, задавайте следующие вопросы, чтобы избежать головной боли и нереализованных ожиданий на более позднем этапе жизненного цикла ИИ.

1. Документировано ли значение атрибутов набора данных?

До эры больших данных данные перед добавлением в центральное хранилище данных подвергались курированию. Это называется схемой при записи. Сегодня подход с озерами данных заключается в том, чтобы сначала агрегировать данные, а затем сделать вывод о значении данных во время потребления. Это называется схемой при чтении.

Атрибуты данных редко правильно документируются или обновляются. Хотя наличие документации можно рассматривать как шаг, который замедляет проект, на самом деле это становится чрезвычайно важным во время отладки модели. Определите распорядителя данных, которому принадлежит набор данных, и убедитесь, что он может предоставить наиболее точную документацию.

2. Стандартизированы ли совокупные/производные показатели в наборе данных?

Производные данные или показатели могут иметь несколько источников достоверности и бизнес-определений. Убедитесь, что показатели имеют четкое документированное бизнес-определение (иногда неявное в ETL).

3. Соответствует ли набор данных положениям о правах на данные (таким как GDPR, CCPA и т. д.)

Регулирование прав на данные в настоящее время становится критически важным — важно отслеживать и обеспечивать их соблюдение во время обучения и переобучения моделей. Растет число нормативных актов о правах на данные, таких как GDPR, CCPA, Общий закон о защите данных Бразилии, Закон о защите персональных данных в Индии и ряд других, как показано на рисунке. Эти законы требуют, чтобы данные клиентов собирались, использовались и удалялись в зависимости от их предпочтений. Есть разные аспекты прав на данные, а именно: сбор прав на данные, использование прав на данные, удаление прав на данные, доступ к правам на данные.

4. Существует ли четкий процесс управления изменениями, позволяющий уведомлять об изменениях схемы/определения набора данных всех потребителей?

Очень часто изменения схемы в источнике не координируются с последующей обработкой. Изменения могут варьироваться от изменений схемы (нарушение существующих конвейеров) до трудно обнаруживаемых сематических изменений атрибутов данных. Кроме того, при изменении бизнес-показателей отсутствует версионность определений.

5. В каком контексте был собран набор данных?

Наборы данных редко отражают истину в последней инстанции со статистической точки зрения. Они фиксируют только те атрибуты, которые необходимы владельцам приложений в то время для их варианта использования. Важно анализировать наборы данных на предмет систематической ошибки и отброшенных данных. Понимание контекста набора данных является сверхкритическим.

6. Данные IID?

Ассоциация неявное предположение обучения модели заключается в том, что данные IID (независимые и одинаково распределенные). Кроме того, данные имеют срок годности. Записи о поведении клиентов 10-летней давности могут быть нерепрезентативными.

7. Проверен ли набор данных на наличие систематических ошибок при сборе данных?

Если ошибки в наборе данных случайны, они менее вредны для обучения модели. Но если есть ошибка, из-за которой конкретная строка или столбец систематически отсутствуют, это может привести к смещению в наборе данных. Например, из-за ошибки для категории пользователей отсутствуют сведения об устройстве кликов клиентов, и набор данных не будет отражать реальность.

8. Отслеживается ли набор данных на предмет внезапных изменений распределения?

Наборы данных постоянно развиваются. Анализ распределения данных не является разовым действием, необходимым только в момент создания модели. Вместо этого необходимо постоянно отслеживать наборы данных на предмет дрейфа, особенно для онлайн-обучения.

9. Как обрабатываются выбросы в наборе данных?

Выбросы не обязательно плохи и иногда необходимы для правильного построения модели. Важно понимать, фильтруются ли выбросы во время сбора и какова логика/критерии.

10. Есть ли у набора данных назначенный распорядитель данных? (применимо для больших команд)

Наборы данных бесполезны, если их нельзя понять. Попытка реконструировать значение столбцов часто приводит к «проигрышной битве». Ключевым моментом является обеспечение наличия Data Steward, ответственного за набор данных для обновления и развития деталей документации.

По моему опыту, ответы на эти вопросы помогают заранее выявить известные известные, известные неизвестные и неизвестные неизвестные в наборе данных. Не важно, чтобы на каждый из вопросов был положительный ответ. Скорее, учет этих ответов может ускорить жизненный цикл ИИ и помочь избежать слепых зон.

Bio: Сандип Уттамчандани, доктор философии: Data + AI / ML - Разработчик продуктов / программного обеспечения (вице-президент Engg) и лидер в реализации корпоративных инициатив в области данных / AI (CDO) | Автор книги О'Рейли | Основатель - DataForHumanity (некоммерческая организация)

Связанный: