Cloudflare pozwala sztucznej inteligencji uwolnić się od krawędzi sieci

Cloudflare pozwala sztucznej inteligencji uwolnić się od krawędzi sieci

Węzeł źródłowy: 2906199

Modele generatywnej sztucznej inteligencji można trenować w ogromnych klastrach procesorów graficznych, ale Cloudflare twierdzi, że oczywistym miejscem do ich uruchomienia nie jest tylko brzeg, ale także sama sieć.

W środę dostawczy gigant ogłosił pakiet usług AI mających na celu uproszczenie wdrażania i uruchamiania modeli wielkojęzycznych (LLM) i innych algorytmów uczenia maszynowego (ML), przy jednoczesnym osiągnięciu możliwie najniższego opóźnienia.

Właściwie najniższe możliwe opóźnienie można osiągnąć, uruchamiając obciążenie wnioskowania na urządzeniu użytkownika. Intel zrobił w tej sprawie wielką aferę, reklamowanie w zeszłym tygodniu na konferencji Intel Innovation poświęconej rozwojowi generacji komputerów PC ze sztuczną inteligencją. Chociaż w niektórych przypadkach może to mieć sens, Cloudflare twierdzi, że urządzenia lokalne nie są jeszcze wystarczająco wydajne.

„To sprawia, że ​​sieć jest złotem wnioskowania. Nie za daleko, z wystarczającą mocą obliczeniową – w sam raz” – pisze biz.

Bezserwerowy dla procesorów graficznych

Pakiet AI obejmuje trzy podstawowe usługi. Pierwszym z nich jest rozszerzenie bezserwerowej platformy Workers o obsługę obciążeń akcelerowanych przez GPU. Usługa, nazwana Workers AI, ma na celu usprawnienie procesu wdrażania wstępnie wyszkolonych modeli.

„Brak wiedzy na temat uczenia maszynowego i szukania procesorów graficznych. Po prostu wybierz jeden z dostarczonych modeli i gotowe” – twierdzi Cloudflare.

Powiedziano nam, że platforma działa na procesorach graficznych Nvidia, chociaż Cloudflare nie powiedział nam, które z nich. „Technologia zbudowana przez Cloudflare może podzielić zadanie wnioskowania na wiele różnych procesorów graficznych, ponieważ zajmujemy się harmonogramem i systemem oraz decydujemy, który chip lub chipy będą najrozsądniejsze, aby to zapewnić” – powiedział. Rejestr w oświadczeniu.

W trosce o prostotę platforma nie obsługuje — przynajmniej nie początkowo — modeli dostarczanych przez klientów. Powiedziano nam, że planuje wdrożyć tę funkcję w przyszłości, ale na razie jest ona ograniczona do sześciu wstępnie wytrenowanych modeli, do których należą:

  • Meta's Llama 2 7B Int8 do generowania tekstu
  • Meta M2m100-1.2 do tłumaczenia
  • Whisper OpenAI do rozpoznawania mowy
  • Distilbert-sst-2-int8 Hugging Face do klasyfikacji tekstu
  • Microsoft Resnet-50 do klasyfikacji obrazów
  • Bge-base-en-v1.5 firmy Baai do osadzania

Cloudflare twierdzi jednak, że pracuje nad rozszerzeniem tej listy w najbliższej przyszłości. Podobnie jak wielu kandydatów na sztuczną inteligencję, tak się stało namawiany pomoc Hugging Face w optymalizacji dodatkowych modeli dla usługi.

Nie jest jasne, czy istnieje ograniczenie rozmiaru modeli obsługiwanych przez platformę, ale początkowa lista zawiera pewne wskazówki. Cloudflare udostępnia siedmimiliardową parametryczną platformę Llama 2 LLM firmy Meta działającą na platformie Int8, co wymagałoby około 7 GB pamięci GPU. Firma zauważa również, że „jeśli chcesz uruchomić wersje modeli o setkach miliardów parametrów, scentralizowana chmura będzie lepiej dostosowana do Twojego obciążenia”.

Cloudflare twierdzi, że klienci mogą zintegrować usługę ze swoimi aplikacjami za pomocą interfejsów API REST lub powiązać ją z interfejsem witryny Pages.

Kładąc wszystko razem

Ponieważ Workers AI obsługuje wnioskowanie tylko na wstępnie wyszkolonych modelach, Cloudflare twierdzi, że opracowało usługę wektorowej bazy danych o nazwie Vectorize, aby ułatwić modelom ML przekazywanie danych klientów użytkownikom

Na przykład w przypadku chatbota klient może przesłać swój katalog produktów do wektorowej bazy danych, z której model przekształci go w osadzony zasób.

Pomysł wydaje się taki, że chociaż model Llama 2 oferowany przez Cloudflare może nie posiadać szczegółowej wiedzy na temat danych klienta, chatbot może nadal wydobywać istotne informacje, łącząc się z usługą bazy danych. Według Cloudflare takie podejście sprawia, że wnioskowanie jest bardziej dostępne, szybsze i mniej zasobochłonne, ponieważ oddziela dane klientów od samego modelu.

Oprócz Workers AI i Vectorize, pakiet AI Cloudflare zawiera również platformę do monitorowania, optymalizacji i zarządzania obciążeniami wnioskowania na dużą skalę.

Usługa, nazwana AI Gateway, wykorzystuje kilka funkcji zwykle kojarzonych z sieciami dostarczania treści i serwerami proxy WWW, takich jak buforowanie i ograniczanie szybkości, do wnioskowania AI, aby pomóc klientom kontrolować koszty.

„Dzięki buforowaniu często używanych odpowiedzi sztucznej inteligencji zmniejsza się opóźnienia i zwiększa niezawodność systemu, a ograniczanie szybkości zapewnia efektywną alokację zasobów, łagodząc wyzwania związane ze spiralnymi kosztami sztucznej inteligencji” – wyjaśnia firma w poście na blogu.

Ceny i dostępność

Cloudflare zauważa, że ​​usługa jest wciąż na wczesnym etapie wdrażania i obecnie dostępnych jest siedem witryn. Firma wdraża jednak procesory graficzne, aby do końca roku usługa była dostępna w 100 punktach, a do końca 2024 r. „prawie wszędzie”.

W związku z tym nie zaleca jeszcze wdrażania aplikacji produkcyjnych na platformie Workers AI, określając ją jako „wczesną wersję beta”.

„To, co dzisiaj opublikowaliśmy, to tylko mała zapowiedź, która daje przedsmak tego, co nadchodzi” – czytamy w poście na blogu.

Jak zwykle Cloudflare twierdzi, że pierwszego dnia nie będzie naliczać opłat za usługę. Mając to na uwadze, spodziewa się pobierać opłatę w wysokości około centa za tysiąc „neuronów szybkokurczliwych” i 0.125 dolara za tysiąc „neuronów szybkokurczliwych”. Różnica między nimi polega na tym, że w tym drugim przypadku priorytetem jest bliskość użytkownika końcowego, podczas gdy tańsza z dwóch działa wszędzie tam, gdzie Cloudflare ma nadmiar mocy.

Firma wyjaśniła, że ​​neurony służą do pomiaru wydajności sztucznej inteligencji, dodając, że tysiąc neuronów wystarcza na około 130 odpowiedzi LLM, 830 klasyfikacji obrazów lub 1,250 osadzania ®.

Znak czasu:

Więcej z Rejestr