Покрокова розробка продуктів LLM для бізнес-лідерів

Перевидано Платоном

читають: 0

Стек технологій LLMOps

Створено за допомогою Midjourney

Підприємства в усіх галузях і куточках земної кулі поспішають інтегрувати потужність великих мовних моделей (LLM), таких як ChatGPT від OpenAI, Claude від Anthropic і Jurassic від AI12Lab, щоб підвищити продуктивність у широкому діапазоні бізнес-додатків, таких як дослідження ринку, обслуговування клієнтів. і створення вмісту.

Однак створення програми LLM у масштабі підприємства вимагає іншого набору інструментів і розуміння, ніж створення традиційних програм машинного навчання (ML). Бізнес-лідери та керівники, які хочуть зберегти голос бренду та надійну якість послуг, повинні глибше розуміти, як працюють LLM, а також плюси та мінуси різних інструментів у стеку програм LLM.

У цій статті ми ознайомимо вас зі стратегією та інструментами високого рівня, які знадобляться для створення та запуску програми LLM для вашого бізнесу.

Традиційна розробка ML проти додатків LLM

Традиційні моделі машинного навчання були залежними від конкретного завдання, тобто вам потрібно було створювати окрему модель для кожного окремого завдання. Наприклад, якщо ви хочете проаналізувати настрої клієнтів, вам потрібно буде створити одну модель, а якщо ви хочете створити чат-бота служби підтримки клієнтів, вам потрібно буде створити іншу модель.

Цей процес побудови та навчання моделей ML для конкретних завдань займає багато часу та потребує багато даних. Тип наборів даних, необхідних для навчання цих різних моделей ML, також буде відрізнятися залежно від завдання. Щоб навчити модель аналізувати настрої клієнтів, вам знадобиться набір даних відгуків клієнтів, позначених відповідними настроями (позитивні, негативні, нейтральні). Щоб навчити модель створювати чат-бота служби підтримки клієнтів, вам знадобиться набір даних розмов між клієнтами та технічною підтримкою.

Великі мовні моделі змінили це. LLM попередньо навчаються на масивному наборі даних із тексту та коду, що дозволяє їм добре виконувати широкий спектр завдань із коробки, зокрема:

Конспектування тексту
Створення вмісту
Переклад
Вилучення інформації
Відповідь на запитання
Аналіз почуттів
Підтримка клієнтів
Підтримка продажу

Процес розробки програми LLM можна розбити на чотири основні етапи:

Виберіть відповідну модель фундаменту. Це ключовий компонент, який визначає продуктивність вашої програми LLM.
При необхідності налаштуйте модель. Можливо, вам знадобиться налаштувати модель або доповнити її додатковою базою знань для задоволення ваших конкретних потреб.
Налаштуйте інфраструктуру ML. Це включає апаратне та програмне забезпечення, необхідне для роботи вашої програми (тобто напівпровідники, мікросхеми, хмарний хостинг, висновки та розгортання).
Доповніть свою програму додатковими інструментами. Ці інструменти можуть допомогти підвищити ефективність, продуктивність і безпеку вашої програми.

Тепер давайте подивимося на відповідний стек технологій.

Якщо цей поглиблений навчальний зміст вам корисний, підпишіться на наш список розсилки AI щоб отримати попередження, коли ми випускаємо новий матеріал.

Стек програм LLM високого рівня

Програми LLM побудовані на основі кількох ключових компонентів, зокрема:

Модель фундаменту, які можуть потребувати налаштування в конкретних випадках використання.
Інфраструктура ML для достатніх обчислювальних ресурсів через хмарні платформи або власне обладнання компанії.
Додаткові інструменти, як-от конвеєри даних, векторні бази даних, інструменти оркестровки, тонкі налаштування платформ ML, інструменти моніторингу продуктивності моделей тощо.

Ми збираємося коротко ознайомити вас із цими компонентами, щоб ви могли краще зрозуміти набір інструментів, необхідний для створення та розгортання програми LLM.

Що таке моделі основи?

Використання одного попередньо підготовленого LLM може заощадити багато часу та ресурсів. Однак навчання такої моделі з нуля є своєчасним і дорогим процесом, який не під силу більшості компаній, за винятком небагатьох елітних технологічних лідерів.

Кілька компаній і дослідницьких груп навчили ці моделі та дозволили іншим компаніям їх використовувати. Провідні приклади включають ChatGPT, Claude, Llama, Jurassic і T5. Ці публічні моделі називаються базовими моделями. Деякі з них є запатентованими, і до них можна отримати доступ через виклики API за окрему плату. Інші мають відкритий код і можуть використовуватися безкоштовно. Ці моделі попередньо навчені на величезному наборі текстових даних без міток, що дозволяє їм виконувати широкий спектр завдань, від створення креативних рекламних копій до спілкування з вашими клієнтами їхньою рідною мовою від імені компанії.

Існує два основних типи моделей основи: пропрієтарні та з відкритим кодом.

Власні моделі належать одній компанії чи організації та зазвичай доступні лише за плату. Деякі з найпопулярніших прикладів власних моделей включають моделі GPT від OpenAI, моделі Claude від Anthropic і моделі Jurassic від AI21 Labs.

Моделі з відкритим кодом зазвичай доступні безкоштовно для всіх, хто хоче ними скористатися. Однак деякі моделі з відкритим вихідним кодом мають обмеження щодо їх використання, наприклад: (1) доступні лише для дослідницьких цілей, (2) доступні лише для комерційного використання компаніями певного розміру. Спільнота відкритих кодів стверджує, що встановлення таких обмежень не дозволяє моделі кваліфікуватися як «відкритий код». І все ж найвидатніші приклади мовних моделей, які можна використовувати безкоштовно, включають моделі Llama від Meta, моделі Falcon від Інституту технологічних інновацій в Абу-Дабі та моделі StableLM від Stability AI. Докладніше про моделі з відкритим кодом і пов’язані з ними ризики тут.

Тепер давайте обговоримо кілька факторів, які слід враховувати при виборі базової моделі для програми LLM.

Виберіть модель основи

Вибір найкращої базової моделі для програми LLM може бути складним процесом, але ми можемо розбити його на три етапи:

Вибирайте між пропрієтарними та відкритими моделями. Власницькі моделі зазвичай більші та потужніші, ніж моделі з відкритим кодом, але вони можуть бути дорожчими у використанні та менш гнучкими. Крім того, код не такий прозорий, що ускладнює налагодження та усунення проблем із продуктивністю пропрієтарних моделей. З іншого боку, моделі з відкритим кодом зазвичай отримують менше оновлень і менше підтримки від розробників.
Виберіть розмір моделі. Більші моделі зазвичай краще справляються із завданнями, які вимагають багато знань, наприклад відповідати на запитання чи генерувати творчий текст. Однак більші моделі також обходяться дорожче з точки зору обчислень. Ви можете почати з експериментів із більшими моделями, а потім переходити до менших, якщо продуктивність моделі задовільна для вашого випадку використання.
Виберіть конкретну модель. Ви можете почати з перегляду загальних тестів, щоб вибрати моделі для тестування. Потім перейдіть до тестування різних моделей для ваших завдань, що стосуються конкретної програми. Для індивідуального порівняльного аналізу розгляньте обчислення Очки BLEU і ROUGE, показники, які допомагають кількісно визначити кількість виправлень, необхідних для тексту, створеного штучним інтелектом, перед тим, як випускати вихідні дані для додатків, що працюють із людиною.

Щоб краще зрозуміти відмінності між різними мовними моделями, перегляньте наш огляд найпотужніших мовних (LLM) і візуальних мовних моделей (VLM).

Після того, як ви вибрали базову модель для своєї програми, ви можете розглянути, чи потрібно вам налаштовувати модель для ще кращої продуктивності.

Налаштуйте модель основи

У деяких випадках ви можете налаштувати модель базової мови для кращої продуктивності у вашому конкретному випадку використання. Наприклад, ви можете оптимізувати для певного:

Область. Якщо ви працюєте в певних сферах, як-от юридична, фінансова чи охорона здоров’я, ви можете збагатити словниковий запас моделі в цій сфері, щоб вона могла краще розуміти запити кінцевих користувачів і відповідати на них.
Завдання. Наприклад, якщо ви хочете, щоб модель створювала маркетингові кампанії, ви можете надати їй конкретні приклади фірмового маркетингового вмісту. Це допоможе моделі вивчити моделі та стилі, які підходять для вашої компанії та аудиторії.
Тон голос. Якщо вам потрібно, щоб модель використовувала певний тон голосу, ви можете налаштувати модель на наборі даних, який містить приклади ваших цільових мовних зразків.

Є три можливі способи налаштувати модель базової мови:

Тонка настройка: надає моделі набір даних із мітками для конкретного домену, що містить приблизно 100–500 записів. Вагові коефіцієнти моделі оновлюються, що має призвести до кращої продуктивності завдань, представлених цим набором даних.
Адаптація домену: надає моделі немаркований набір даних, який містить великий масив даних із відповідного домену. У цьому випадку вага моделі також оновлюється.
Пошук інформації: доповнює базову модель знаннями в закритій області. Модель не перенавчається, а вага моделі залишається незмінною. Однак моделі дозволено отримувати інформацію з векторної бази даних, що містить відповідні дані.

Перші два підходи вимагають значних обчислювальних ресурсів для перенавчання моделі, що зазвичай можливо лише для великих компаній, які мають відповідний технічний потенціал для керування налаштуваннями. Менші компанії зазвичай використовують більш поширений підхід доповнення моделі знаннями предметної області за допомогою векторної бази даних, про що ми детально розповімо далі в цій статті в розділі про інструменти LLM.

Налаштуйте інфраструктуру ML

Компонент інфраструктури ML ландшафту LLMOps включає хмарні платформи, обчислювальне обладнання та інші ресурси, необхідні для розгортання та запуску LLM. Цей компонент особливо актуальний, якщо ви вирішите використовувати модель із відкритим вихідним кодом або налаштувати модель для своєї програми. У цьому випадку вам можуть знадобитися значні обчислювальні ресурси для точного налаштування моделі, якщо необхідно, і її запуску.

Існує низка хмарних платформ, які пропонують послуги для розгортання LLM, зокрема Google Cloud Platform, Amazon Web Services і Microsoft Azure. Ці платформи надають низку функцій, які полегшують розгортання та запуск LLM, зокрема:

Попередньо навчені моделі, які можна налаштувати для конкретного застосування
Керована інфраструктура, яка піклується про базове апаратне та програмне забезпечення
Інструменти та служби для моніторингу та налагодження ваших LLM

Обсяг обчислювальних ресурсів, який вам потрібен, залежатиме від розміру та складності вашої моделі, завдань, які ви хочете виконувати, і масштабу бізнес-діяльності, де ви хочете розгорнути цю модель.

Доповніть за допомогою інструментів

Додаткові суміжні інструменти LLM можна використовувати для подальшого підвищення продуктивності вашої програми LLM.

Конвеєри даних

Якщо вам потрібно використовувати свої дані у вашому продукті LLM, конвеєр попередньої обробки даних стане важливою опорою вашого нового технологічного стеку, як і в традиційному корпоративному стеку AI. Ці інструменти включають з’єднувачі для прийому даних із будь-якого джерела, рівень перетворення даних і з’єднувачі за потоком. Провідні постачальники конвеєрів даних, такі як Databricks і Snowflake, а також нові програвачі, такі як Unstructured, спрощують розробникам вказувати великі та дуже різнорідні корпуси даних природною мовою (наприклад, тисячі PDF-файлів, презентацій PowerPoint, журналів чатів, скопійованих HTML, тощо) до єдиної точки доступу або навіть до окремого документа, який можна надалі використовувати програмами LLM.

Векторні бази даних

Великі мовні моделі обмежені обробкою кількох тисяч слів за раз, тому вони не можуть самостійно обробляти великі документи. Щоб використовувати можливості великих документів, компаніям потрібно використовувати векторні бази даних.

Векторні бази даних — це системи зберігання, які перетворюють великі документи, які вони отримують через конвеєри даних, у керовані вектори або вбудовування. Потім програми LLM можуть запитувати ці бази даних, щоб точно визначити правильні вектори, вилучаючи лише необхідні фрагменти інформації.

Одними з найвідоміших векторних баз даних, доступних на даний момент, є Pinecone, Chroma та Weaviate.

Інструменти оркестровки

Коли користувач надсилає запит до вашої програми LLM, як-от питання для обслуговування клієнтів, програма повинна створити серію підказок, перш ніж надсилати цей запит до мовної моделі. Остаточний запит до мовної моделі зазвичай складається з жорстко закодованого розробником шаблону підказки, прикладів дійсних результатів, які називаються невеликими прикладами, будь-якої необхідної інформації, отриманої із зовнішніх API, і набору відповідних документів, отриманих із векторної бази даних. . Інструменти оркестровки від таких компаній, як LangChain або LlamaIndex, можуть допомогти спростити цей процес, надаючи готові до використання інфраструктури для керування та виконання підказок.

Тонка настройка

Великі мовні моделі, навчені на масивних наборах даних, можуть створювати граматично правильний і плавний текст. Однак їм може бракувати точності в певних сферах, як-от медицина чи право. Тонке налаштування цих моделей на доменно-спеціальних наборах даних дозволяє їм інтерналізувати унікальні особливості цих областей, покращуючи їх здатність генерувати релевантний текст.

Тонка настройка LLM може бути дорогим процесом для невеликих компаній. Однак рішення від таких компаній, як Weights & Biases і OctoML, можуть допомогти у спрощеному та ефективному тонкому налаштуванні. Ці рішення надають компаніям платформу для тонкого налаштування LLM без необхідності інвестувати у власну інфраструктуру.

Інші інструменти

Є багато інших інструментів, які можуть бути корисними для створення та запуску програм LLM. Наприклад, вам можуть знадобитися інструменти для маркування, якщо ви хочете точно налаштувати модель за допомогою конкретних зразків даних. Ви також можете розгорнути спеціальні інструменти для моніторингу продуктивності вашої програми, оскільки навіть незначні зміни в базовій моделі або запити від клієнтів можуть суттєво вплинути на продуктивність підказок. Нарешті, є інструменти, які контролюють безпеку моделі, щоб допомогти вам уникнути реклами ненависті, небезпечних рекомендацій або упереджень. Необхідність і важливість цих різних інструментів залежатиме від конкретного випадку використання.

Що буде далі в розробці програм LLM?

Чотири етапи розробки продукту LLM, які ми обговорювали тут, є важливою основою генеративної стратегії ШІ будь-якого підприємства, яка використовує великі мовні моделі. Їх важливо зрозуміти нетехнічним керівникам бізнесу, навіть якщо у вас є технічна команда, яка виконує деталі. У майбутньому ми опублікуємо детальніші навчальні посібники про те, як використовувати широкий спектр генеративних інструментів ШІ на ринку. Поки що можете Підпишіться на нашу розсилку щоб отримати останні оновлення.

Ми повідомимо вас, коли випустимо більше таких підсумкових статей, як ця.