Чи може управління даними подолати втому ШІ? - KDnuggets

Перевидано Платоном

читають: 0

Чи може управління даними подолати втому ШІ?
Зображення автора

Управління даними та втома ШІ звучать як дві різні концепції, але між ними існує внутрішній зв’язок. Щоб краще це зрозуміти, почнемо з їх визначення.

Це був основний фокус індустрії даних протягом тривалого часу.

Google добре формулює це: «Управління даними — це все, що ви робите, щоб забезпечити безпеку, конфіденційність, точність, доступність і придатність до використання. Це передбачає встановлення внутрішніх стандартів — політики щодо даних — які стосуються того, як дані збираються, зберігаються, обробляються та утилізуються».

Як підкреслює це визначення, управління даними стосується керування даними – саме механізмом, що керує моделями ШІ.

Тепер, коли почали з’являтися перші ознаки зв’язку між управлінням даними та ШІ, давайте пов’яжемо це з втомою ШІ. Хоча назва видає це, висвітлення причин, що призводять до такої втоми, забезпечує послідовне використання цього терміну в усьому дописі.

Втома від штучного інтелекту виникає через невдачі та проблеми, з якими стикаються організації, розробники або команди, що часто призводить до невдалої реалізації цінностей або впровадження систем штучного інтелекту.

Здебільшого все починається з нереалістичних очікувань щодо того, на що здатний ШІ. Для складних технологій, таких як штучний інтелект, ключовим зацікавленим сторонам потрібно узгодити не лише можливості та можливості штучного інтелекту, але й його обмеження та ризики.

Говорячи про ризики, етику часто вважають запізнілою думкою, яка призводить до скасування невідповідних ініціатив ШІ.

Ви, мабуть, задаєтеся питанням про роль управління даними у спричиненні втоми ШІ – передумови цієї публікації.

Ось куди ми прямуємо далі.

Втому штучного інтелекту можна загалом класифікувати як перед розгортанням і після розгортання. Давайте спочатку зосередимося на попередньому розгортанні.

Попереднє розгортання

Різні фактори сприяють переходу підтвердження концепції (PoC) до розгортання, наприклад:

Що ми намагаємося вирішити?
Чому визначити пріоритети зараз стає важливою проблемою?
Які дані доступні?
Чи можна це розв’язати за допомогою ML?
Чи є у даних шаблон?
Чи повторюється явище?
Які додаткові дані підвищать ефективність моделі?

Чи може управління даними подолати втому ШІ?
Зображення з Freepik

Після того, як ми визначили, що проблему можна найкраще вирішити за допомогою алгоритмів машинного навчання, команда аналізу даних проводить дослідницький аналіз даних. На цьому етапі розкривається багато базових шаблонів даних, що підкреслює, чи надані дані багаті сигналом. Це також допомагає створювати інженерні функції для прискорення процесу навчання алгоритму.

Далі команда створює першу базову модель, часто виявляючи, що вона не працює на прийнятному рівні. Модель, продуктивність якої така ж хороша, як підкидання монети, не додає жодної цінності. Це одна з перших невдач, або уроків, під час створення моделей ML.

Організації можуть переходити від однієї бізнес-проблеми до іншої, викликаючи втому. Проте, якщо базові дані не містять насиченого сигналу, жоден алгоритм штучного інтелекту не зможе на них побудуватися. Модель повинна вивчити статистичні асоціації з навчальних даних, щоб узагальнити невидимі дані.

Після розгортання

Незважаючи на те, що навчена модель демонструє багатообіцяючі результати під час перевірки, відповідно до кваліфікаційних бізнес-критеріїв, таких як точність 70%, все одно може виникнути втома, якщо модель не працює належним чином у виробничому середовищі.

Цей тип втоми ШІ називається фазою після розгортання.

Безліч причин може призвести до погіршення продуктивності, де найпоширенішою проблемою моделі є низька якість даних. Це обмежує здатність моделі точно передбачати цільову реакцію за відсутності важливих атрибутів.

Подумайте про те, коли одна з важливих функцій, яка була відсутня лише на 10% у навчальних даних, тепер стає нульовою у 50% випадків у виробничих даних, що призводить до помилкових прогнозів. Подібні ітерації та спроби забезпечити безперебійну роботу моделей викликають втому в дослідників даних і бізнес-команд, тим самим підриваючи довіру до каналів даних і ризикуючи інвестиціями, зробленими в проект.

Надійні заходи управління даними мають вирішальне значення для боротьби з обома типами втоми ШІ. З огляду на те, що дані є основою моделей ML, насичені сигналами, безпомилкові та високоякісні дані є обов’язковими для успіху проекту ML. Для вирішення проблеми втоми штучного інтелекту необхідно зосередитися на управлінні даними. Отже, ми повинні наполегливо працювати над забезпеченням належної якості даних, закладаючи основу для побудови найсучасніших моделей і надання достовірної інформації про бізнес.

Якість даних

Якість даних, ключ до успішного управління даними, є критично важливим фактором успіху для алгоритмів машинного навчання. Організації повинні інвестувати в якість даних, наприклад, публікувати звіти для споживачів даних. У проектах з вивчення даних подумайте, що відбувається, коли дані поганої якості потрапляють до моделей, що може призвести до низької продуктивності.

Лише під час аналізу помилок команди можуть виявити проблеми з якістю даних, які, коли їх надсилають на виправлення, викликають втому серед команд.

Зрозуміло, що це не просто витрачені зусилля, але й багато часу, поки не почнуть надходити потрібні дані.

Тому завжди рекомендується виправляти проблеми з даними в джерелі, щоб запобігти таким трудомістким ітераціям. Зрештою, опубліковані звіти про якість даних посилаються на команду з вивчення даних (або, якщо на те пішло, на будь-яких інших подальших користувачів і споживачів даних) із розумінням прийнятної якості вхідних даних.

Без заходів із забезпечення якості даних і управління науковці будуть перевантажені проблемами з даними, що призведе до невдалих моделей, що призведе до втоми ШІ.

У публікації висвітлено два етапи, на яких виникає втома ШІ, і показано, як заходи управління даними, такі як звіти про якість даних, можуть сприяти створенню надійних і надійних моделей.

Встановивши міцну основу за допомогою управління даними, організації можуть побудувати дорожню карту для успішної та безперебійної розробки та впровадження штучного інтелекту, вселяючи ентузіазм.

Щоб переконатися, що публікація дає цілісний огляд різноманітних способів вирішення проблеми втоми ШІ, я також наголошую на ролі організаційної культури, яка в поєднанні з іншими передовими практиками, як-от керування даними, дозволить і розширить можливості команд з вивчення даних робити суттєвий внесок ШІ швидше та швидше.

Відхі Чуг є стратегом штучного інтелекту та лідером цифрової трансформації, який працює на стику продуктів, науки та інженерії для створення масштабованих систем машинного навчання. Вона є визнаним лідером інновацій, автором і міжнародним доповідачем. Вона прагне демократизувати машинне навчання та позбутися жаргону, щоб кожен міг стати частиною цієї трансформації.