Стійкість відіграє ключову роль у розвитку будь-якого робочого навантаження генеративний ШІ навантаження нічим не відрізняються. Під час проектування генеративних робочих навантажень штучного інтелекту через призму стійкості існують унікальні міркування. Розуміння та визначення пріоритетів стійкості має вирішальне значення для генеративних робочих навантажень ШІ, щоб відповідати вимогам організаційної доступності та безперервності бізнесу. У цій публікації ми обговорюємо різні стеки генеративного робочого навантаження ШІ та те, якими мають бути ці міркування.
ШІ, що генерує повний стек
Незважаючи на те, що велика частина ажіотажу навколо генеративного штучного інтелекту зосереджена на моделях, повне рішення включає людей, навички та інструменти з кількох областей. Розглянемо наведене нижче зображення, яке представляє AWS вигляд нового стека додатків a16z для великих мовних моделей (LLM).
У порівнянні з більш традиційним рішенням, побудованим на основі штучного інтелекту та машинного навчання (ML), генеративне рішення штучного інтелекту тепер передбачає наступне:
- Нові ролі – Ви повинні враховувати тюнерів моделей, а також розробників моделей та інтеграторів моделей
- Нові інструменти – Традиційний стек MLOps не поширюється на тип відстеження експерименту або спостережуваність, необхідну для оперативного проектування або агентів, які викликають інструменти для взаємодії з іншими системами
Міркування агента
На відміну від традиційних моделей штучного інтелекту, Retrieval Augmented Generation (RAG) дозволяє отримувати більш точні та відповідні контексту відповіді за рахунок інтеграції зовнішніх джерел знань. Нижче наведено деякі зауваження під час використання RAG:
- Встановлення відповідних тайм-аутів є важливим для взаємодії з клієнтом. Ніщо не говорить про погану взаємодію з користувачем більше, ніж перебування посеред чату та відключення.
- Обов’язково перевірте вхідні дані підказки та розмір введення підказки для виділених обмежень символів, визначених вашою моделлю.
- Якщо ви виконуєте оперативне проектування, ви повинні зберігати свої підказки в надійному сховищі даних. Це захистить ваші підказки в разі випадкової втрати або як частину вашої загальної стратегії аварійного відновлення.
Конвеєри даних
У випадках, коли вам потрібно надати контекстні дані базовій моделі за допомогою шаблону RAG, вам потрібен конвеєр даних, який може отримувати вихідні дані, перетворювати їх на вектори вбудовування та зберігати вектори вбудовування у векторній базі даних. Цей конвеєр може бути пакетним, якщо ви готуєте контекстні дані заздалегідь, або конвеєром із низькою затримкою, якщо ви додаєте нові контекстні дані на льоту. У пакетному випадку є кілька проблем порівняно з типовими конвеєрами даних.
Джерелами даних можуть бути PDF-документи у файловій системі, дані із системи програмного забезпечення як послуги (SaaS), як-от інструмент CRM, або дані з існуючої вікі чи бази знань. Передача з цих джерел відрізняється від типових джерел даних, таких як дані журналу в Служба простого зберігання Amazon (Amazon S3) сегмент або структуровані дані з реляційної бази даних. Рівень паралелізму, якого ви можете досягти, може бути обмежений вихідною системою, тому вам потрібно враховувати дроселювання та використовувати методи відстрочки. Деякі з вихідних систем можуть бути крихкими, тому вам потрібно вбудувати обробку помилок і логіку повторних спроб.
Модель вбудовування може бути вузьким місцем продуктивності, незалежно від того, запускаєте ви її локально в конвеєрі чи викликаєте зовнішню модель. Вбудовані моделі — це основні моделі, які працюють на графічних процесорах і не мають необмеженої ємності. Якщо модель працює локально, вам потрібно призначити роботу на основі потужності GPU. Якщо модель працює зовнішньо, вам потрібно переконатися, що ви не насичуєте зовнішню модель. У будь-якому випадку рівень паралелізму, якого ви можете досягти, буде продиктований моделлю вбудовування, а не об’ємом ЦП і оперативної пам’яті, доступних у системі пакетної обробки.
У випадку з низькою затримкою вам потрібно врахувати час, потрібний для створення векторів вбудовування. Викликаюча програма має викликати конвеєр асинхронно.
Векторні бази даних
Векторна база даних має дві функції: зберігати вбудовані вектори та виконувати пошук схожості, щоб знайти найближчий k відповідає новому вектору. Існує три загальні типи векторних баз даних:
- Спеціальні варіанти SaaS, наприклад Pinecone.
- Функції векторної бази даних, вбудовані в інші служби. Це включає власні сервіси AWS, такі як Служба Amazon OpenSearch та Амазонська Аврора.
- Параметри в пам’яті, які можна використовувати для тимчасових даних у сценаріях із низькою затримкою.
У цій публікації ми не розглядаємо детально можливості пошуку подібності. Хоча вони важливі, вони є функціональним аспектом системи і безпосередньо не впливають на стійкість. Замість цього ми зосереджуємося на аспектах стійкості векторної бази даних як системи зберігання:
- Затримка – Чи може векторна база даних добре працювати проти високого або непередбачуваного навантаження? Якщо ні, програма, що викликає, повинна обробити обмеження швидкості, відстрочку та повторити спробу.
- масштабованість – Скільки векторів може вмістити система? Якщо ви перевищите ємність векторної бази даних, вам доведеться шукати шардинг або інші рішення.
- Висока доступність і аварійне відновлення – Вбудовані вектори є цінними даними, і їх відтворення може бути дорогим. Чи доступна ваша векторна база даних в одному регіоні AWS? Чи має він можливість копіювати дані в інший регіон для цілей аварійного відновлення?
Рівень програми
Під час інтеграції генеративних рішень штучного інтелекту існує три унікальні міркування щодо рівня додатків:
- Потенційно висока затримка – Основні моделі часто працюють на великих екземплярах GPU і можуть мати обмежену ємність. Обов’язково використовуйте передові практики щодо обмеження швидкості, відстрочки та повторних спроб, а також зменшення навантаження. Використовуйте асинхронні конструкції, щоб висока затримка не заважала основному інтерфейсу програми.
- Охоронна поза – Якщо ви використовуєте агенти, інструменти, плагіни чи інші методи підключення моделі до інших систем, приділіть особливу увагу своїй безпеці. Моделі можуть намагатися взаємодіяти з цими системами несподіваним чином. Дотримуйтеся звичайної практики доступу з найменшими привілеями, наприклад, обмежте вхідні підказки від інших систем.
- Фреймворки, що швидко розвиваються – Фреймворки з відкритим кодом, такі як LangChain, швидко розвиваються. Використовуйте підхід до мікросервісів, щоб ізолювати інші компоненти від цих менш зрілих інфраструктур.
потужність
Ми можемо думати про спроможність у двох контекстах: логічний висновок і конвеєри даних моделі навчання. Ємність — це питання, коли організації будують власні конвеєри. Вимоги до процесора та пам’яті є двома найбільшими вимогами при виборі екземплярів для виконання робочих навантажень.
Примірники, які можуть підтримувати генеративні робочі навантаження штучного інтелекту, може бути складніше отримати, ніж звичайний тип примірника загального призначення. Гнучкість екземпляра може допомогти з плануванням потужності та потужністю. Залежно від того, у якому регіоні AWS ви виконуєте своє робоче навантаження, доступні різні типи екземплярів.
Для критично важливих шляхів користувача організації захочуть розглянути або резервування, або попереднє надання типів екземплярів, щоб забезпечити доступність у разі потреби. Цей шаблон забезпечує статично стабільну архітектуру, що є найкращою практикою стійкості. Щоб дізнатися більше про статичну стабільність у опорі надійності AWS Well-Architected Framework, зверніться до Використовуйте статичну стабільність, щоб запобігти бімодальній поведінці.
Спостережливість
Окрім показників ресурсів, які ви зазвичай збираєте, як-от використання процесора та оперативної пам’яті, вам потрібно уважно стежити за використанням графічного процесора, якщо ви розміщуєте модель на Amazon SageMaker or Обчислювальна хмара Amazon Elastic (Amazon EC2). Використання GPU може несподівано змінитися, якщо змінюється базова модель або вхідні дані, а брак пам’яті GPU може призвести до нестабільного стану системи.
На вищому рівні ви також захочете відстежувати потік викликів через систему, фіксуючи взаємодію між агентами та інструментами. Оскільки інтерфейс між агентами та інструментами менш формально визначений, ніж контракт API, ви повинні контролювати ці трасування не лише для продуктивності, але й для виявлення нових сценаріїв помилок. Щоб контролювати модель або агент на наявність будь-яких ризиків і загроз безпеці, ви можете використовувати такі інструменти, як Вартовий обов'язок Amazon.
Ви також повинні зафіксувати базові лінії вбудовування векторів, підказок, контексту та виводу, а також взаємодії між ними. Якщо вони змінюються з часом, це може означати, що користувачі використовують систему по-новому, що довідкові дані не охоплюють простір питань однаковим чином або що вихідні дані моделі раптово відрізняються.
Аварійного відновлення
Наявність плану безперервності бізнесу зі стратегією аварійного відновлення є обов’язковою умовою для будь-якого робочого навантаження. Генеративне робоче навантаження ШІ нічим не відрізняється. Розуміння режимів збоїв, застосовних до вашого робочого навантаження, допоможе визначити вашу стратегію. Якщо ви використовуєте керовані служби AWS для свого робочого навантаження, наприклад Amazon Bedrock і SageMaker, переконайтеся, що послуга доступна у вашому регіоні відновлення AWS. На момент написання цієї статті ці сервіси AWS не підтримують реплікацію даних між регіонами AWS, тому вам потрібно подумати про стратегії керування даними для аварійного відновлення, а також, можливо, знадобиться тонке налаштування в кількох регіонах AWS.
Висновок
У цьому дописі описано, як враховувати стійкість під час створення генеративних рішень ШІ. Хоча генеративні додатки штучного інтелекту мають деякі цікаві нюанси, існуючі шаблони стійкості та найкращі практики все ще застосовуються. Це лише питання оцінки кожної частини генеративної програми ШІ та застосування відповідних найкращих практик.
Для отримання додаткової інформації про генеративний штучний інтелект та його використання зі службами AWS зверніться до таких ресурсів:
Про авторів
Дженніфер Моран є старшим спеціалістом із забезпечення стійкості AWS, архітектором рішень із Нью-Йорка. Вона має різноманітний досвід, працювала в багатьох технічних дисциплінах, включаючи розробку програмного забезпечення, гнучке лідерство та DevOps, і є захисником жінок у техніці. Їй подобається допомагати клієнтам розробляти стійкі рішення для покращення стійкості, і публічно говорить про всі теми, пов’язані зі стійкістю.
Ренді ДеФо є старшим головним архітектором рішень в AWS. Він має ступінь MSEE Мічиганського університету, де працював над комп’ютерним зором для автономних транспортних засобів. Він також має ступінь магістра ділового адміністрування в Університеті штату Колорадо. Ренді обіймав різні посади в технологічному просторі, починаючи від розробки програмного забезпечення та закінчуючи управлінням продуктами. Він увійшов у простір великих даних у 2013 році та продовжує досліджувати цю сферу. Він активно працює над проектами у сфері машинного навчання та виступає з доповідями на численних конференціях, зокрема Strata та GlueCon.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/designing-generative-ai-workloads-for-resilience/
- : має
- :є
- : ні
- :де
- $UP
- 100
- 2013
- 90
- a
- a16z
- здатність
- МЕНЮ
- доступ
- випадковість
- рахунки
- точний
- Achieve
- Досягає
- через
- активно
- просування
- адвокат
- впливати
- проти
- Агент
- агенти
- моторний
- AI
- Моделі AI
- ВСІ
- виділено
- дозволяє
- Також
- хоча
- Amazon
- Amazon EC2
- Amazon Web Services
- an
- та
- Інший
- будь-який
- API
- додаток
- застосовно
- додаток
- застосування
- Застосовувати
- Застосування
- підхід
- відповідний
- архітектура
- ЕСТЬ
- ПЛОЩА
- навколо
- AS
- зовнішній вигляд
- аспекти
- At
- увагу
- збільшено
- автономний
- автономні транспортні засоби
- наявність
- доступний
- середній
- AWS
- фон
- поганий
- база
- заснований
- BE
- оскільки
- буття
- КРАЩЕ
- передового досвіду
- між
- Великий
- Великий даних
- найбільший
- вузьке місце
- будувати
- будівельники
- Створюємо
- побудований
- бізнес
- забезпечення безперервності бізнесу
- але
- by
- call
- покликання
- Виклики
- CAN
- можливості
- потужність
- захоплення
- захопивши
- випадок
- випадків
- проблеми
- зміна
- Зміни
- характер
- чат
- Вибираючи
- Місто
- тісно
- збирати
- Колорадо
- порівняний
- повний
- Компоненти
- обчислення
- комп'ютер
- Комп'ютерне бачення
- конференції
- З'єднувальний
- Вважати
- розгляду
- міркування
- контекст
- контексти
- контекстуальний
- триває
- безперервність
- контракт
- конвертувати
- може
- Пара
- обкладинка
- покриття
- центральний процесор
- критичний
- CRM
- вирішальне значення
- клієнт
- Досвід клієнтів
- Клієнти
- дані
- управління даними
- Database
- базами даних
- певний
- Залежно
- описаний
- дизайн
- проектування
- конструкцій
- деталь
- розробка
- DevOps
- продиктовано
- різний
- важкий
- безпосередньо
- катастрофа
- дисциплін
- відключившись
- обговорювати
- Різне
- do
- документація
- робить
- Ні
- домени
- Не знаю
- кожен
- або
- вбудовування
- з'являються
- Машинобудування
- забезпечувати
- увійшов
- помилка
- Ефір (ETH)
- оцінки
- еволюціонує
- приклад
- перевищувати
- Збудження
- існуючий
- дорогий
- досвід
- експеримент
- дослідити
- продовжити
- зовнішній
- зовні
- додатково
- Провал
- риси
- філе
- знайти
- Гнучкість
- потік
- Сфокусувати
- фокусується
- стежити
- після
- для
- Формально
- фонд
- Рамки
- каркаси
- від
- функціональний
- Функції
- Загальне
- Головна мета
- породжувати
- покоління
- генеративний
- Генеративний ШІ
- отримання
- GPU
- Графічні процесори
- керівництво
- обробляти
- Обробка
- Мати
- має
- he
- Герой
- допомога
- допомогу
- Високий
- дуже
- тримати
- тримає
- господар
- Як
- How To
- HTML
- HTTP
- HTTPS
- if
- важливо
- удосконалювати
- in
- includes
- У тому числі
- Вхідний
- включення
- вказувати
- інформація
- вхід
- екземпляр
- випадки
- замість
- Інтеграція
- взаємодіяти
- Взаємодії
- цікавий
- інтерфейс
- втручатися
- в
- включає в себе
- IT
- Подорожі
- просто
- знання
- мова
- великий
- Затримка
- Керівництво
- УЧИТЬСЯ
- вивчення
- об'єктив
- менше
- рівень
- як
- обмеженою
- обмежуючий
- рамки
- llm
- загрузка
- локально
- журнал
- логіка
- подивитися
- від
- серія
- машина
- навчання за допомогою машини
- головний
- зробити
- вдалося
- управління
- багато
- сірники
- Матерія
- зрілий
- Може..
- MBA
- Зустрічатися
- пам'ять
- методика
- Метрика
- Мічиган
- мікросервіс
- Середній
- ML
- MLOps
- модель
- Моделі
- Режими
- монітор
- більше
- багато
- множинний
- повинен
- рідний
- спочатку
- необхідно
- Необхідність
- необхідний
- потреби
- Нові
- Нью-Йорк
- Нью-Йорк
- немає
- нормальний
- нічого
- зараз
- нюанси
- численний
- отримувати
- of
- часто
- on
- тільки
- відкрити
- з відкритим вихідним кодом
- Опції
- or
- організаційної
- організації
- Інше
- з
- вихід
- над
- загальний
- власний
- частина
- Викрійки
- моделі
- Платити
- Люди
- виконувати
- продуктивність
- виконанні
- картина
- стовп
- трубопровід
- основний
- план
- планування
- plato
- Інформація про дані Платона
- PlatoData
- відіграє
- plugins
- позиції
- пошта
- практика
- практики
- Готувати
- представлений
- запобігати
- Головний
- визначення пріоритетів
- обробка
- Product
- Управління продуктом
- проектів
- підказок
- забезпечувати
- публічно
- цілей
- put
- питання
- ганчіркою
- Оперативна пам'ять
- ранжування
- швидко
- ставка
- швидше
- відновлення
- послатися
- посилання
- Незалежно
- регіон
- райони
- пов'язаний
- доречний
- надійність
- надійний
- копіювання
- Вимога
- пружність
- пружний
- ресурс
- ресурси
- відповіді
- обмежуючий
- пошук
- ризики
- Роль
- прогін
- біг
- пробіжки
- SaaS
- мудрець
- то ж
- говорить
- сценарії
- Пошук
- Грати короля карти - безкоштовно Nijumi логічна гра гри
- безпеку
- ризики для безпеки
- старший
- обслуговування
- Послуги
- кілька
- заточування
- вона
- скидання
- Повинен
- простий
- один
- Розмір
- навички
- So
- Софтвер
- програмне забезпечення як послуга
- розробка програмного забезпечення
- розробка програмного забезпечення
- рішення
- Рішення
- деякі
- Source
- Джерела
- Простір
- Говорить
- спеціаліст
- Стабільність
- стабільний
- стек
- Стеки
- стан
- Як і раніше
- зберігання
- зберігати
- стратегії
- Стратегія
- структурований
- такі
- підтримка
- Переконайтеся
- система
- Systems
- Приймати
- приймає
- систематика
- технології
- технічний
- методи
- Технологія
- ніж
- Що
- Команда
- Джерело
- їх
- Їх
- Там.
- Ці
- вони
- думати
- це
- ті
- загрози
- три
- через
- ярус
- час
- до
- інструмент
- інструменти
- теми
- простежувати
- Відстеження
- традиційний
- Навчання
- намагатися
- два
- тип
- Типи
- типовий
- типово
- розуміння
- Unexpected
- створеного
- університет
- Мічиганський університет
- необмежений
- непередбачуваний
- використання
- використовуваний
- користувач
- User Experience
- користувачі
- використання
- ПЕРЕВІР
- Цінний
- різноманітність
- Транспортні засоби
- вид
- бачення
- хотіти
- шлях..
- способи
- we
- Web
- веб-сервіси
- ДОБРЕ
- Що
- коли
- Чи
- який
- волі
- з
- жінки
- жінки в тех
- Work
- працював
- робочий
- лист
- йорк
- ви
- вашу
- зефірнет