Проектування генеративних робочих навантажень ШІ для стійкості

Перевидано Платоном

читають: 0

Стійкість відіграє ключову роль у розвитку будь-якого робочого навантаження генеративний ШІ навантаження нічим не відрізняються. Під час проектування генеративних робочих навантажень штучного інтелекту через призму стійкості існують унікальні міркування. Розуміння та визначення пріоритетів стійкості має вирішальне значення для генеративних робочих навантажень ШІ, щоб відповідати вимогам організаційної доступності та безперервності бізнесу. У цій публікації ми обговорюємо різні стеки генеративного робочого навантаження ШІ та те, якими мають бути ці міркування.

ШІ, що генерує повний стек

Незважаючи на те, що велика частина ажіотажу навколо генеративного штучного інтелекту зосереджена на моделях, повне рішення включає людей, навички та інструменти з кількох областей. Розглянемо наведене нижче зображення, яке представляє AWS вигляд нового стека додатків a16z для великих мовних моделей (LLM).

Таксономія стеку програм LLM на AWS

У порівнянні з більш традиційним рішенням, побудованим на основі штучного інтелекту та машинного навчання (ML), генеративне рішення штучного інтелекту тепер передбачає наступне:

Нові ролі – Ви повинні враховувати тюнерів моделей, а також розробників моделей та інтеграторів моделей
Нові інструменти – Традиційний стек MLOps не поширюється на тип відстеження експерименту або спостережуваність, необхідну для оперативного проектування або агентів, які викликають інструменти для взаємодії з іншими системами

Міркування агента

На відміну від традиційних моделей штучного інтелекту, Retrieval Augmented Generation (RAG) дозволяє отримувати більш точні та відповідні контексту відповіді за рахунок інтеграції зовнішніх джерел знань. Нижче наведено деякі зауваження під час використання RAG:

Встановлення відповідних тайм-аутів є важливим для взаємодії з клієнтом. Ніщо не говорить про погану взаємодію з користувачем більше, ніж перебування посеред чату та відключення.
Обов’язково перевірте вхідні дані підказки та розмір введення підказки для виділених обмежень символів, визначених вашою моделлю.
Якщо ви виконуєте оперативне проектування, ви повинні зберігати свої підказки в надійному сховищі даних. Це захистить ваші підказки в разі випадкової втрати або як частину вашої загальної стратегії аварійного відновлення.

Конвеєри даних

У випадках, коли вам потрібно надати контекстні дані базовій моделі за допомогою шаблону RAG, вам потрібен конвеєр даних, який може отримувати вихідні дані, перетворювати їх на вектори вбудовування та зберігати вектори вбудовування у векторній базі даних. Цей конвеєр може бути пакетним, якщо ви готуєте контекстні дані заздалегідь, або конвеєром із низькою затримкою, якщо ви додаєте нові контекстні дані на льоту. У пакетному випадку є кілька проблем порівняно з типовими конвеєрами даних.

Джерелами даних можуть бути PDF-документи у файловій системі, дані із системи програмного забезпечення як послуги (SaaS), як-от інструмент CRM, або дані з існуючої вікі чи бази знань. Передача з цих джерел відрізняється від типових джерел даних, таких як дані журналу в Служба простого зберігання Amazon (Amazon S3) сегмент або структуровані дані з реляційної бази даних. Рівень паралелізму, якого ви можете досягти, може бути обмежений вихідною системою, тому вам потрібно враховувати дроселювання та використовувати методи відстрочки. Деякі з вихідних систем можуть бути крихкими, тому вам потрібно вбудувати обробку помилок і логіку повторних спроб.

Модель вбудовування може бути вузьким місцем продуктивності, незалежно від того, запускаєте ви її локально в конвеєрі чи викликаєте зовнішню модель. Вбудовані моделі — це основні моделі, які працюють на графічних процесорах і не мають необмеженої ємності. Якщо модель працює локально, вам потрібно призначити роботу на основі потужності GPU. Якщо модель працює зовнішньо, вам потрібно переконатися, що ви не насичуєте зовнішню модель. У будь-якому випадку рівень паралелізму, якого ви можете досягти, буде продиктований моделлю вбудовування, а не об’ємом ЦП і оперативної пам’яті, доступних у системі пакетної обробки.

У випадку з низькою затримкою вам потрібно врахувати час, потрібний для створення векторів вбудовування. Викликаюча програма має викликати конвеєр асинхронно.

Векторні бази даних

Векторна база даних має дві функції: зберігати вбудовані вектори та виконувати пошук схожості, щоб знайти найближчий k відповідає новому вектору. Існує три загальні типи векторних баз даних:

Спеціальні варіанти SaaS, наприклад Pinecone.
Функції векторної бази даних, вбудовані в інші служби. Це включає власні сервіси AWS, такі як Служба Amazon OpenSearch та Амазонська Аврора.
Параметри в пам’яті, які можна використовувати для тимчасових даних у сценаріях із низькою затримкою.

У цій публікації ми не розглядаємо детально можливості пошуку подібності. Хоча вони важливі, вони є функціональним аспектом системи і безпосередньо не впливають на стійкість. Замість цього ми зосереджуємося на аспектах стійкості векторної бази даних як системи зберігання:

Затримка – Чи може векторна база даних добре працювати проти високого або непередбачуваного навантаження? Якщо ні, програма, що викликає, повинна обробити обмеження швидкості, відстрочку та повторити спробу.
масштабованість – Скільки векторів може вмістити система? Якщо ви перевищите ємність векторної бази даних, вам доведеться шукати шардинг або інші рішення.
Висока доступність і аварійне відновлення – Вбудовані вектори є цінними даними, і їх відтворення може бути дорогим. Чи доступна ваша векторна база даних в одному регіоні AWS? Чи має він можливість копіювати дані в інший регіон для цілей аварійного відновлення?

Рівень програми

Під час інтеграції генеративних рішень штучного інтелекту існує три унікальні міркування щодо рівня додатків:

Потенційно висока затримка – Основні моделі часто працюють на великих екземплярах GPU і можуть мати обмежену ємність. Обов’язково використовуйте передові практики щодо обмеження швидкості, відстрочки та повторних спроб, а також зменшення навантаження. Використовуйте асинхронні конструкції, щоб висока затримка не заважала основному інтерфейсу програми.
Охоронна поза – Якщо ви використовуєте агенти, інструменти, плагіни чи інші методи підключення моделі до інших систем, приділіть особливу увагу своїй безпеці. Моделі можуть намагатися взаємодіяти з цими системами несподіваним чином. Дотримуйтеся звичайної практики доступу з найменшими привілеями, наприклад, обмежте вхідні підказки від інших систем.
Фреймворки, що швидко розвиваються – Фреймворки з відкритим кодом, такі як LangChain, швидко розвиваються. Використовуйте підхід до мікросервісів, щоб ізолювати інші компоненти від цих менш зрілих інфраструктур.

потужність

Ми можемо думати про спроможність у двох контекстах: логічний висновок і конвеєри даних моделі навчання. Ємність — це питання, коли організації будують власні конвеєри. Вимоги до процесора та пам’яті є двома найбільшими вимогами при виборі екземплярів для виконання робочих навантажень.

Примірники, які можуть підтримувати генеративні робочі навантаження штучного інтелекту, може бути складніше отримати, ніж звичайний тип примірника загального призначення. Гнучкість екземпляра може допомогти з плануванням потужності та потужністю. Залежно від того, у якому регіоні AWS ви виконуєте своє робоче навантаження, доступні різні типи екземплярів.

Для критично важливих шляхів користувача організації захочуть розглянути або резервування, або попереднє надання типів екземплярів, щоб забезпечити доступність у разі потреби. Цей шаблон забезпечує статично стабільну архітектуру, що є найкращою практикою стійкості. Щоб дізнатися більше про статичну стабільність у опорі надійності AWS Well-Architected Framework, зверніться до Використовуйте статичну стабільність, щоб запобігти бімодальній поведінці.

Спостережливість

Окрім показників ресурсів, які ви зазвичай збираєте, як-от використання процесора та оперативної пам’яті, вам потрібно уважно стежити за використанням графічного процесора, якщо ви розміщуєте модель на Amazon SageMaker or Обчислювальна хмара Amazon Elastic (Amazon EC2). Використання GPU може несподівано змінитися, якщо змінюється базова модель або вхідні дані, а брак пам’яті GPU може призвести до нестабільного стану системи.

На вищому рівні ви також захочете відстежувати потік викликів через систему, фіксуючи взаємодію між агентами та інструментами. Оскільки інтерфейс між агентами та інструментами менш формально визначений, ніж контракт API, ви повинні контролювати ці трасування не лише для продуктивності, але й для виявлення нових сценаріїв помилок. Щоб контролювати модель або агент на наявність будь-яких ризиків і загроз безпеці, ви можете використовувати такі інструменти, як Вартовий обов'язок Amazon.

Ви також повинні зафіксувати базові лінії вбудовування векторів, підказок, контексту та виводу, а також взаємодії між ними. Якщо вони змінюються з часом, це може означати, що користувачі використовують систему по-новому, що довідкові дані не охоплюють простір питань однаковим чином або що вихідні дані моделі раптово відрізняються.

Аварійного відновлення

Наявність плану безперервності бізнесу зі стратегією аварійного відновлення є обов’язковою умовою для будь-якого робочого навантаження. Генеративне робоче навантаження ШІ нічим не відрізняється. Розуміння режимів збоїв, застосовних до вашого робочого навантаження, допоможе визначити вашу стратегію. Якщо ви використовуєте керовані служби AWS для свого робочого навантаження, наприклад Amazon Bedrock і SageMaker, переконайтеся, що послуга доступна у вашому регіоні відновлення AWS. На момент написання цієї статті ці сервіси AWS не підтримують реплікацію даних між регіонами AWS, тому вам потрібно подумати про стратегії керування даними для аварійного відновлення, а також, можливо, знадобиться тонке налаштування в кількох регіонах AWS.

Висновок

У цьому дописі описано, як враховувати стійкість під час створення генеративних рішень ШІ. Хоча генеративні додатки штучного інтелекту мають деякі цікаві нюанси, існуючі шаблони стійкості та найкращі практики все ще застосовуються. Це лише питання оцінки кожної частини генеративної програми ШІ та застосування відповідних найкращих практик.

Для отримання додаткової інформації про генеративний штучний інтелект та його використання зі службами AWS зверніться до таких ресурсів:

Про авторів

Дженніфер Моран є старшим спеціалістом із забезпечення стійкості AWS, архітектором рішень із Нью-Йорка. Вона має різноманітний досвід, працювала в багатьох технічних дисциплінах, включаючи розробку програмного забезпечення, гнучке лідерство та DevOps, і є захисником жінок у техніці. Їй подобається допомагати клієнтам розробляти стійкі рішення для покращення стійкості, і публічно говорить про всі теми, пов’язані зі стійкістю.

Ренді ДеФо є старшим головним архітектором рішень в AWS. Він має ступінь MSEE Мічиганського університету, де працював над комп’ютерним зором для автономних транспортних засобів. Він також має ступінь магістра ділового адміністрування в Університеті штату Колорадо. Ренді обіймав різні посади в технологічному просторі, починаючи від розробки програмного забезпечення та закінчуючи управлінням продуктами. Він увійшов у простір великих даних у 2013 році та продовжує досліджувати цю сферу. Він активно працює над проектами у сфері машинного навчання та виступає з доповідями на численних конференціях, зокрема Strata та GlueCon.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/designing-generative-ai-workloads-for-resilience/

Часова мітка: 1 Лютого, 2024

Часова мітка: Березень 23, 2022

Перевидано Платоном

Інтегруйте платформи SaaS з Amazon SageMaker, щоб увімкнути додатки на основі ML | Веб-сервіси Amazon

Багатомовний переклад служби підтримки клієнтів став простим у Salesforce Service Cloud за допомогою Amazon Translate

Використовуйте послуги AWS AI та ML, щоб сприяти доступності та включенню людей із вадами зору чи комунікації

Автоматизація візуальної перевірки за допомогою Amazon SageMaker JumpStart

AWS пропонує нові посібники зі штучного інтелекту, машинного навчання та генеративного штучного інтелекту для планування вашої стратегії ШІ | Веб-сервіси Amazon

Як xarvio Digital Farming Solutions прискорює свій розвиток за допомогою геопросторових можливостей Amazon SageMaker

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки