Cloudflare pozwala sztucznej inteligencji uwolnić się od krawędzi sieci

Opublikowane ponownie przez Plato

Obserwuje: 0

Modele generatywnej sztucznej inteligencji można trenować w ogromnych klastrach procesorów graficznych, ale Cloudflare twierdzi, że oczywistym miejscem do ich uruchomienia nie jest tylko brzeg, ale także sama sieć.

W środę dostawczy gigant ogłosił pakiet usług AI mających na celu uproszczenie wdrażania i uruchamiania modeli wielkojęzycznych (LLM) i innych algorytmów uczenia maszynowego (ML), przy jednoczesnym osiągnięciu możliwie najniższego opóźnienia.

Właściwie najniższe możliwe opóźnienie można osiągnąć, uruchamiając obciążenie wnioskowania na urządzeniu użytkownika. Intel zrobił w tej sprawie wielką aferę, reklamowanie w zeszłym tygodniu na konferencji Intel Innovation poświęconej rozwojowi generacji komputerów PC ze sztuczną inteligencją. Chociaż w niektórych przypadkach może to mieć sens, Cloudflare twierdzi, że urządzenia lokalne nie są jeszcze wystarczająco wydajne.

„To sprawia, że sieć jest złotem wnioskowania. Nie za daleko, z wystarczającą mocą obliczeniową – w sam raz” – pisze biz.

Bezserwerowy dla procesorów graficznych

Pakiet AI obejmuje trzy podstawowe usługi. Pierwszym z nich jest rozszerzenie bezserwerowej platformy Workers o obsługę obciążeń akcelerowanych przez GPU. Usługa, nazwana Workers AI, ma na celu usprawnienie procesu wdrażania wstępnie wyszkolonych modeli.

„Brak wiedzy na temat uczenia maszynowego i szukania procesorów graficznych. Po prostu wybierz jeden z dostarczonych modeli i gotowe” – twierdzi Cloudflare.

Powiedziano nam, że platforma działa na procesorach graficznych Nvidia, chociaż Cloudflare nie powiedział nam, które z nich. „Technologia zbudowana przez Cloudflare może podzielić zadanie wnioskowania na wiele różnych procesorów graficznych, ponieważ zajmujemy się harmonogramem i systemem oraz decydujemy, który chip lub chipy będą najrozsądniejsze, aby to zapewnić” – powiedział. Rejestr w oświadczeniu.

W trosce o prostotę platforma nie obsługuje — przynajmniej nie początkowo — modeli dostarczanych przez klientów. Powiedziano nam, że planuje wdrożyć tę funkcję w przyszłości, ale na razie jest ona ograniczona do sześciu wstępnie wytrenowanych modeli, do których należą:

Meta's Llama 2 7B Int8 do generowania tekstu
Meta M2m100-1.2 do tłumaczenia
Whisper OpenAI do rozpoznawania mowy
Distilbert-sst-2-int8 Hugging Face do klasyfikacji tekstu
Microsoft Resnet-50 do klasyfikacji obrazów
Bge-base-en-v1.5 firmy Baai do osadzania

Cloudflare twierdzi jednak, że pracuje nad rozszerzeniem tej listy w najbliższej przyszłości. Podobnie jak wielu kandydatów na sztuczną inteligencję, tak się stało namawiany pomoc Hugging Face w optymalizacji dodatkowych modeli dla usługi.

Nie jest jasne, czy istnieje ograniczenie rozmiaru modeli obsługiwanych przez platformę, ale początkowa lista zawiera pewne wskazówki. Cloudflare udostępnia siedmimiliardową parametryczną platformę Llama 2 LLM firmy Meta działającą na platformie Int8, co wymagałoby około 7 GB pamięci GPU. Firma zauważa również, że „jeśli chcesz uruchomić wersje modeli o setkach miliardów parametrów, scentralizowana chmura będzie lepiej dostosowana do Twojego obciążenia”.

Cloudflare twierdzi, że klienci mogą zintegrować usługę ze swoimi aplikacjami za pomocą interfejsów API REST lub powiązać ją z interfejsem witryny Pages.

Kładąc wszystko razem

Ponieważ Workers AI obsługuje wnioskowanie tylko na wstępnie wyszkolonych modelach, Cloudflare twierdzi, że opracowało usługę wektorowej bazy danych o nazwie Vectorize, aby ułatwić modelom ML przekazywanie danych klientów użytkownikom

Na przykład w przypadku chatbota klient może przesłać swój katalog produktów do wektorowej bazy danych, z której model przekształci go w osadzony zasób.

Pomysł wydaje się taki, że chociaż model Llama 2 oferowany przez Cloudflare może nie posiadać szczegółowej wiedzy na temat danych klienta, chatbot może nadal wydobywać istotne informacje, łącząc się z usługą bazy danych. Według Cloudflare takie podejście sprawia, że wnioskowanie jest bardziej dostępne, szybsze i mniej zasobochłonne, ponieważ oddziela dane klientów od samego modelu.

Oprócz Workers AI i Vectorize, pakiet AI Cloudflare zawiera również platformę do monitorowania, optymalizacji i zarządzania obciążeniami wnioskowania na dużą skalę.

Usługa, nazwana AI Gateway, wykorzystuje kilka funkcji zwykle kojarzonych z sieciami dostarczania treści i serwerami proxy WWW, takich jak buforowanie i ograniczanie szybkości, do wnioskowania AI, aby pomóc klientom kontrolować koszty.

„Dzięki buforowaniu często używanych odpowiedzi sztucznej inteligencji zmniejsza się opóźnienia i zwiększa niezawodność systemu, a ograniczanie szybkości zapewnia efektywną alokację zasobów, łagodząc wyzwania związane ze spiralnymi kosztami sztucznej inteligencji” – wyjaśnia firma w poście na blogu.

Ceny i dostępność

Cloudflare zauważa, że usługa jest wciąż na wczesnym etapie wdrażania i obecnie dostępnych jest siedem witryn. Firma wdraża jednak procesory graficzne, aby do końca roku usługa była dostępna w 100 punktach, a do końca 2024 r. „prawie wszędzie”.

W związku z tym nie zaleca jeszcze wdrażania aplikacji produkcyjnych na platformie Workers AI, określając ją jako „wczesną wersję beta”.

„To, co dzisiaj opublikowaliśmy, to tylko mała zapowiedź, która daje przedsmak tego, co nadchodzi” – czytamy w poście na blogu.

Jak zwykle Cloudflare twierdzi, że pierwszego dnia nie będzie naliczać opłat za usługę. Mając to na uwadze, spodziewa się pobierać opłatę w wysokości około centa za tysiąc „neuronów szybkokurczliwych” i 0.125 dolara za tysiąc „neuronów szybkokurczliwych”. Różnica między nimi polega na tym, że w tym drugim przypadku priorytetem jest bliskość użytkownika końcowego, podczas gdy tańsza z dwóch działa wszędzie tam, gdzie Cloudflare ma nadmiar mocy.

Firma wyjaśniła, że neurony służą do pomiaru wydajności sztucznej inteligencji, dodając, że tysiąc neuronów wystarcza na około 130 odpowiedzi LLM, 830 klasyfikacji obrazów lub 1,250 osadzania ®.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://go.theregister.com/feed/www.theregister.com/2023/09/28/cloudflare_ai_edge/

Znak czasu: 28 września 2023 r.

Opublikowane ponownie przez Plato

Wspólna sonda UK-Oz znajduje nowicjusza w dziedzinie rozpoznawania twarzy Clearview AI jest śmieciem dla prywatności

Jak GitHub Copilot może wprowadzić Microsoft w burzę praw autorskich

Przyjazne sztucznej inteligencji prawo patentowe potrzebne „ze względu na bezpieczeństwo narodowe”, mówi były szef USPTO

Biznes zajmujący się kamerami samochodowymi AI Samsara oskarża rywala Motive o kradzież adresu IP

Szef Binance mówi, że oszuści zrobili z niego „głęboki fałszywy hologram”, aby oszukać ofiary

Databricks przejmie Arcion Labs w zakresie narzędzi dostępu do danych

City nie lubi 5,000 nieskoordynowanych, powodujących korki samochodów GM na ulicach

Oparta na sztucznej inteligencji następczyni Meta Wikipedii „może być kolejnym wielkim przełomem w NLP”

Potrzebne są nowe warstwy w generatywnym stosie technologii sztucznej inteligencji, mówi Boffin

Ruch internetowy ChatGPT spada o 10%, wynika z analiz

Czy wizja komputerowa jest lekarstwem na strzelaniny w szkole? Prawdopodobnie nie

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto