Может ли управление данными решить проблему усталости ИИ? - KDnuggets

Переиздано Платоном

Читают: 0

Может ли управление данными решить проблему усталости ИИ?
Изображение по автору

Управление данными и усталость ИИ кажутся двумя разными понятиями, но между ними существует внутренняя связь. Чтобы лучше понять это, давайте начнем с их определения.

В течение долгого времени это было основным направлением деятельности индустрии данных.

Google хорошо формулирует это: «Управление данными — это все, что вы делаете, чтобы гарантировать, что данные безопасны, конфиденциальны, точны, доступны и пригодны для использования. Это предполагает установление внутренних стандартов — политик данных — которые применяются к тому, как данные собираются, хранятся, обрабатываются и удаляются».

Как подчеркивается в этом определении, управление данными — это управление данными, а именно движущая сила моделей ИИ.

Теперь, когда начали проявляться первые признаки связи между управлением данными и ИИ, давайте свяжем это с усталостью ИИ. Хотя название выдает это, выделение причин, приводящих к такой усталости, обеспечивает последовательное использование этого термина на протяжении всего поста.

Усталость от ИИ возникает из-за неудач и проблем, с которыми сталкиваются организации, разработчики или команды, что часто приводит к неудачной реализации ценностей или внедрению систем ИИ.

Чаще всего все начинается с нереалистичных ожиданий относительно того, на что способен ИИ. В случае сложных технологий, таких как ИИ, ключевые заинтересованные стороны должны учитывать не только возможности и возможности ИИ, но также его ограничения и риски.

Говоря о рисках, этику часто считают второстепенной мыслью, которая приводит к отказу от несоответствующих инициатив в области ИИ.

Вы, должно быть, задаетесь вопросом о роли управления данными в возникновении усталости ИИ – предпосылка этой статьи.

Вот куда мы направляемся дальше.

Усталость ИИ можно в общих чертах разделить на период до и после развертывания. Давайте сначала сосредоточимся на предварительном развертывании.

Перед развертыванием

На переход от проверки концепции (PoC) к развертыванию способствуют различные факторы, такие как:

Что мы пытаемся решить?
Почему сейчас так сложно расставить приоритеты?
Какие данные доступны?
Решаема ли она вообще с помощью ML?
Имеют ли данные закономерность?
Повторяемо ли явление?
Какие дополнительные данные повысят производительность модели?

Может ли управление данными решить проблему усталости ИИ?
Изображение из Freepik

Как только мы пришли к выводу, что проблему лучше всего решить с помощью алгоритмов ML, группа по науке о данных выполняет исследовательский анализ данных. На этом этапе обнаруживаются многие основные закономерности данных, что показывает, богаты ли данные данными сигналом. Это также помогает создавать инженерные функции для ускорения процесса обучения алгоритма.

Затем команда строит первую базовую модель, часто обнаруживая, что она не работает на приемлемом уровне. Модель, производительность которой так же хороша, как подбрасывание монеты, не добавляет никакой ценности. Это одна из первых неудач, или уроков, при построении моделей ML.

Организации могут переходить от одной бизнес-задачи к другой, вызывая утомление. Тем не менее, если базовые данные не несут полноценного сигнала, ни один алгоритм ИИ не сможет на нем основываться. Модель должна изучить статистические ассоциации на основе обучающих данных, чтобы обобщать невидимые данные.

После развертывания

Несмотря на то, что обученная модель показывает многообещающие результаты на проверочном наборе в соответствии с квалификационными бизнес-критериями, такими как точность 70%, усталость все равно может возникнуть, если модель не работает должным образом в производственной среде.

Этот тип усталости ИИ называется фазой после развертывания.

Множество причин могут привести к ухудшению производительности, при этом низкое качество данных является наиболее распространенной проблемой, от которой страдает модель. Это ограничивает способность модели точно предсказывать целевой ответ при отсутствии важных атрибутов.

Представьте себе, что одна из основных функций, которая отсутствовала только в 10% обучающих данных, теперь становится нулевой в 50% случаев в производственных данных, что приводит к ошибочным прогнозам. Такие итерации и усилия по обеспечению стабильного функционирования моделей вызывают утомление специалистов по данным и бизнес-команд, тем самым подрывая доверие к конвейерам данных и подвергая риску инвестиции, вложенные в проект.

Надежные меры управления данными имеют решающее значение в борьбе с обоими типами усталости ИИ. Учитывая, что данные лежат в основе моделей ML, для успеха проекта ML необходимы насыщенные сигналами, безошибочные и высококачественные данные. Для решения проблемы усталости ИИ необходимо уделять пристальное внимание управлению данными. Поэтому мы должны усердно работать, чтобы обеспечить правильное качество данных, закладывая основу для создания современных моделей и предоставления достоверной бизнес-информации.

Качество данных

Качество данных, ключ к эффективному управлению данными, является важнейшим фактором успеха алгоритмов машинного обучения. Организации должны инвестировать в качество данных, например, публикуя отчеты для потребителей данных. В проектах по науке о данных подумайте о том, что происходит, когда в модели попадают данные плохого качества, что может привести к снижению производительности.

Только в ходе анализа ошибок команды смогут выявить проблемы с качеством данных, которые при отправке на исправление в исходную версию в конечном итоге вызывают усталость среди команд.

Очевидно, что дело не только в затраченных усилиях, но и в потере большого количества времени, пока не начнут поступать нужные данные.

Следовательно, всегда рекомендуется исправлять проблемы с данными в источнике, чтобы предотвратить такие трудоемкие итерации. В конце концов, опубликованные отчеты о качестве данных намекают на то, что команда специалистов по обработке данных (или, если уж на то пошло, любые другие последующие пользователи и потребители данных) понимают приемлемое качество входящих данных.

Без качества данных и мер управления ученые, работающие с данными, были бы перегружены проблемами с данными, что способствовало бы созданию неудачных моделей, приводящих к усталости ИИ.

В сообщении были освещены два этапа, на которых наступает усталость ИИ, и показано, как меры управления данными, такие как отчеты о качестве данных, могут способствовать созданию заслуживающих доверия и надежных моделей.

Создав прочную основу посредством управления данными, организации могут построить дорожную карту для успешной и беспрепятственной разработки и внедрения ИИ, вселяя энтузиазм.

Чтобы обеспечить целостный обзор различных способов решения проблемы усталости от ИИ, я также подчеркиваю роль организационной культуры, которая в сочетании с другими передовыми практиками, такими как управление данными, позволит командам специалистов по обработке и анализу данных быстрее и эффективнее вносить значимый вклад в ИИ. Быстрее.

Видхи Чаг — специалист по стратегии искусственного интеллекта и лидер цифровой трансформации, работающий на стыке продуктов, науки и техники для создания масштабируемых систем машинного обучения. Она является отмеченным наградами лидером инноваций, автором и международным спикером. Она поставила перед собой задачу демократизировать машинное обучение и сломать жаргон, чтобы каждый мог принять участие в этой трансформации.