Cloudflare дозволяє штучному інтелекту позбутися межі мережі

Cloudflare дозволяє штучному інтелекту позбутися межі мережі

Вихідний вузол: 2906199

Генеративні моделі штучного інтелекту можна навчити у величезних кластерах графічних процесорів, але Cloudflare стверджує, що очевидне місце для їх запуску — не лише на межі, а й у самій мережі.

У середу гігант доставки оголошений набір служб штучного інтелекту, спрямованих на усунення складності розгортання та запуску широкомовних моделей (LLM) та інших алгоритмів машинного навчання (ML), а також досягнення найнижчої можливої ​​затримки.

Ну, фактично, найменшу можливу затримку можна досягти, запустивши робоче навантаження висновків на пристрої користувача. Intel зробила велику справу щодо цього, рекламування зростання покоління ПК зі штучним інтелектом, минулого тижня на Intel Innovation. Але хоча в деяких випадках це може мати сенс, Cloudflare стверджує, що локальні пристрої ще недостатньо потужні.

«Це робить мережу золотою власкою висновків. Не надто далеко, з достатньою обчислювальною потужністю — в самий раз», — пише бізнес.

Безсерверний для GPU

Пакет штучного інтелекту складається з трьох основних сервісів. Перший із них — це розширення безсерверної платформи Workers для підтримки робочих навантажень із прискоренням GPU. Сервіс під назвою Workers AI призначений для спрощення процесу розгортання попередньо навчених моделей.

«Жодного досвіду машинного навчання, ніяких пошуків графічних процесорів. Просто виберіть одну з наданих моделей і вперед», – стверджує Cloudflare.

Нам сказали, що платформа працює на основі графічних процесорів Nvidia, хоча Cloudflare не скаже нам, які саме. «Технологія, створена Cloudflare, може розділити завдання логічного висновку між кількома різними графічним процесором, тому що ми піклуємося про планування та систему, і ми вирішимо, який чіп чи чіпи є найбільш доцільними для цього», – йдеться в повідомленні. Реєстр в заяві.

В інтересах простоти платформа не підтримує — принаймні спочатку — моделі, що надаються клієнтами. Нам сказали, що компанія планує розгорнути це функціонально в майбутньому, але наразі це обмежено шістьма попередньо навченими моделями, які включають:

  • Meta's Llama 2 7B Int8 для генерації тексту
  • Meta's M2m100-1.2 для перекладу
  • Whisper від OpenAI для розпізнавання мовлення
  • Distilbert-sst-2-int8 від Hugging Face для класифікації тексту
  • Resnet-50 Microsoft для класифікації зображень
  • Bge-base-en-v1.5 від Baai для вбудовування

Однак Cloudflare каже, що найближчим часом працює над розширенням цього списку. Як і багато тих, хто сподівається на ШІ, це так просила допомога Hugging Face для оптимізації додаткових моделей для сервісу.

Незрозуміло, чи існує обмеження на розмір моделей, які може підтримувати платформа, але початковий список пропонує деякі підказки. Cloudflare робить семимільярдний параметр Meta Llama 2 LLM доступним для роботи на Int8, для чого знадобиться приблизно 7 ГБ пам’яті GPU. Компанія також зазначає, що «якщо ви хочете запускати версії моделей із сотнями мільярдів параметрів, централізована хмара краще підійде для вашого робочого навантаження».

Cloudflare каже, що після запуску служби клієнти можуть інтегрувати її у свої програми за допомогою REST API або зв’язати її з інтерфейсом веб-сайту Pages.

Встановити все це разом

Оскільки Workers AI підтримує лише висновок на попередньо навчених моделях, Cloudflare каже, що розробив службу векторної бази даних під назвою Vectorize, щоб полегшити моделям ML передачу даних клієнтів користувачам.

Наприклад, для чат-бота клієнт може завантажити свій каталог продуктів у векторну базу даних, з якої модель перетворить його на вбудований ресурс.

Здається, ідея полягає в тому, що, хоча модель Llama 2, запропонована Cloudflare, може не мати конкретних знань про дані клієнта, чат-бот все одно може виводити відповідну інформацію, підключаючись до служби бази даних. За словами Cloudflare, такий підхід робить логічний висновок доступніший, швидший і менш ресурсомісткий, оскільки він відокремлює дані клієнта від самої моделі.

Окрім Workers AI та Vectorize, пакет AI від Cloudflare також включає платформу для моніторингу, оптимізації та керування робочими навантаженнями висновків у масштабі.

Служба під назвою AI Gateway застосовує кілька функцій, які зазвичай пов’язані з мережами доставки контенту та веб-проксі, як-от кешування та обмеження швидкості, до штучного інтелекту, щоб допомогти клієнтам контролювати витрати.

«Кешування відповідей штучного інтелекту, які часто використовуються, зменшує затримку та підвищує надійність системи, а обмеження швидкості забезпечує ефективний розподіл ресурсів, пом’якшуючи проблеми, пов’язані зі зростанням витрат на штучний інтелект», — пояснює компанія в дописі в блозі.

Ціноутворення та доступність

Cloudflare зазначає, що сервіс все ще перебуває на ранніх стадіях розгортання, на сьогодні в мережі працює сім сайтів. Однак компанія розгортає графічні процесори, щоб до кінця року надати послугу 100 точкам присутності, а до кінця 2024 року – «майже всюди».

У зв’язку з цим компанія поки що не рекомендує розгортати робочі програми на Workers AI, описуючи це як «ранню бета-версію».

«Те, що ми опублікували сьогодні, є лише невеликим попереднім переглядом, щоб дати вам зрозуміти, що буде», — йдеться в дописі в блозі.

Як завжди, Cloudflare каже, що не буде виставляти рахунок за послугу в перший день. З огляду на це, він очікує, що стягуватиме близько цента за кожну тисячу «звичайних нейронів скорочення» та 0.125 доларів США за кожну тисячу «нейронів швидкого скорочення». Різниця між ними полягає в тому, що останній пріоритет надає близькості до кінцевого користувача, тоді як менш дорогий з двох працює будь-де, де Cloudflare має надлишкову ємність.

Компанія пояснила, що нейрони — це спосіб вимірювання результатів штучного інтелекту, додавши, що тисяча нейронів підходить для приблизно 130 відповідей LLM, 830 класифікацій зображень або 1,250 вбудовувань®.

Часова мітка:

Більше від Реєстр