Modele generatywnej sztucznej inteligencji można trenować w ogromnych klastrach procesorów graficznych, ale Cloudflare twierdzi, że oczywistym miejscem do ich uruchomienia nie jest tylko brzeg, ale także sama sieć.
W środę dostawczy gigant ogłosił pakiet usług AI mających na celu uproszczenie wdrażania i uruchamiania modeli wielkojęzycznych (LLM) i innych algorytmów uczenia maszynowego (ML), przy jednoczesnym osiągnięciu możliwie najniższego opóźnienia.
Właściwie najniższe możliwe opóźnienie można osiągnąć, uruchamiając obciążenie wnioskowania na urządzeniu użytkownika. Intel zrobił w tej sprawie wielką aferę, reklamowanie w zeszłym tygodniu na konferencji Intel Innovation poświęconej rozwojowi generacji komputerów PC ze sztuczną inteligencją. Chociaż w niektórych przypadkach może to mieć sens, Cloudflare twierdzi, że urządzenia lokalne nie są jeszcze wystarczająco wydajne.
„To sprawia, że sieć jest złotem wnioskowania. Nie za daleko, z wystarczającą mocą obliczeniową – w sam raz” – pisze biz.
Bezserwerowy dla procesorów graficznych
Pakiet AI obejmuje trzy podstawowe usługi. Pierwszym z nich jest rozszerzenie bezserwerowej platformy Workers o obsługę obciążeń akcelerowanych przez GPU. Usługa, nazwana Workers AI, ma na celu usprawnienie procesu wdrażania wstępnie wyszkolonych modeli.
„Brak wiedzy na temat uczenia maszynowego i szukania procesorów graficznych. Po prostu wybierz jeden z dostarczonych modeli i gotowe” – twierdzi Cloudflare.
Powiedziano nam, że platforma działa na procesorach graficznych Nvidia, chociaż Cloudflare nie powiedział nam, które z nich. „Technologia zbudowana przez Cloudflare może podzielić zadanie wnioskowania na wiele różnych procesorów graficznych, ponieważ zajmujemy się harmonogramem i systemem oraz decydujemy, który chip lub chipy będą najrozsądniejsze, aby to zapewnić” – powiedział. Rejestr w oświadczeniu.
W trosce o prostotę platforma nie obsługuje — przynajmniej nie początkowo — modeli dostarczanych przez klientów. Powiedziano nam, że planuje wdrożyć tę funkcję w przyszłości, ale na razie jest ona ograniczona do sześciu wstępnie wytrenowanych modeli, do których należą:
- Meta's Llama 2 7B Int8 do generowania tekstu
- Meta M2m100-1.2 do tłumaczenia
- Whisper OpenAI do rozpoznawania mowy
- Distilbert-sst-2-int8 Hugging Face do klasyfikacji tekstu
- Microsoft Resnet-50 do klasyfikacji obrazów
- Bge-base-en-v1.5 firmy Baai do osadzania
Cloudflare twierdzi jednak, że pracuje nad rozszerzeniem tej listy w najbliższej przyszłości. Podobnie jak wielu kandydatów na sztuczną inteligencję, tak się stało namawiany pomoc Hugging Face w optymalizacji dodatkowych modeli dla usługi.
Nie jest jasne, czy istnieje ograniczenie rozmiaru modeli obsługiwanych przez platformę, ale początkowa lista zawiera pewne wskazówki. Cloudflare udostępnia siedmimiliardową parametryczną platformę Llama 2 LLM firmy Meta działającą na platformie Int8, co wymagałoby około 7 GB pamięci GPU. Firma zauważa również, że „jeśli chcesz uruchomić wersje modeli o setkach miliardów parametrów, scentralizowana chmura będzie lepiej dostosowana do Twojego obciążenia”.
Cloudflare twierdzi, że klienci mogą zintegrować usługę ze swoimi aplikacjami za pomocą interfejsów API REST lub powiązać ją z interfejsem witryny Pages.
Kładąc wszystko razem
Ponieważ Workers AI obsługuje wnioskowanie tylko na wstępnie wyszkolonych modelach, Cloudflare twierdzi, że opracowało usługę wektorowej bazy danych o nazwie Vectorize, aby ułatwić modelom ML przekazywanie danych klientów użytkownikom
Na przykład w przypadku chatbota klient może przesłać swój katalog produktów do wektorowej bazy danych, z której model przekształci go w osadzony zasób.
Pomysł wydaje się taki, że chociaż model Llama 2 oferowany przez Cloudflare może nie posiadać szczegółowej wiedzy na temat danych klienta, chatbot może nadal wydobywać istotne informacje, łącząc się z usługą bazy danych. Według Cloudflare takie podejście sprawia, że wnioskowanie jest bardziej dostępne, szybsze i mniej zasobochłonne, ponieważ oddziela dane klientów od samego modelu.
Oprócz Workers AI i Vectorize, pakiet AI Cloudflare zawiera również platformę do monitorowania, optymalizacji i zarządzania obciążeniami wnioskowania na dużą skalę.
Usługa, nazwana AI Gateway, wykorzystuje kilka funkcji zwykle kojarzonych z sieciami dostarczania treści i serwerami proxy WWW, takich jak buforowanie i ograniczanie szybkości, do wnioskowania AI, aby pomóc klientom kontrolować koszty.
„Dzięki buforowaniu często używanych odpowiedzi sztucznej inteligencji zmniejsza się opóźnienia i zwiększa niezawodność systemu, a ograniczanie szybkości zapewnia efektywną alokację zasobów, łagodząc wyzwania związane ze spiralnymi kosztami sztucznej inteligencji” – wyjaśnia firma w poście na blogu.
Ceny i dostępność
Cloudflare zauważa, że usługa jest wciąż na wczesnym etapie wdrażania i obecnie dostępnych jest siedem witryn. Firma wdraża jednak procesory graficzne, aby do końca roku usługa była dostępna w 100 punktach, a do końca 2024 r. „prawie wszędzie”.
W związku z tym nie zaleca jeszcze wdrażania aplikacji produkcyjnych na platformie Workers AI, określając ją jako „wczesną wersję beta”.
„To, co dzisiaj opublikowaliśmy, to tylko mała zapowiedź, która daje przedsmak tego, co nadchodzi” – czytamy w poście na blogu.
Jak zwykle Cloudflare twierdzi, że pierwszego dnia nie będzie naliczać opłat za usługę. Mając to na uwadze, spodziewa się pobierać opłatę w wysokości około centa za tysiąc „neuronów szybkokurczliwych” i 0.125 dolara za tysiąc „neuronów szybkokurczliwych”. Różnica między nimi polega na tym, że w tym drugim przypadku priorytetem jest bliskość użytkownika końcowego, podczas gdy tańsza z dwóch działa wszędzie tam, gdzie Cloudflare ma nadmiar mocy.
Firma wyjaśniła, że neurony służą do pomiaru wydajności sztucznej inteligencji, dodając, że tysiąc neuronów wystarcza na około 130 odpowiedzi LLM, 830 klasyfikacji obrazów lub 1,250 osadzania ®.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
- PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
- PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
- Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
- Źródło: https://go.theregister.com/feed/www.theregister.com/2023/09/28/cloudflare_ai_edge/
- :ma
- :Jest
- :nie
- $W GÓRĘ
- 1
- 100
- 125
- 2024
- 250
- a
- O nas
- przyśpieszony
- dostępny
- Stosownie
- osiągnięty
- osiągnięcia
- w poprzek
- faktycznie
- dodanie
- Dodatkowy
- AI
- Modele AI
- Usługi AI
- wymierzony
- Algorytmy
- Wszystkie kategorie
- przydział
- również
- an
- i
- nigdzie
- Pszczoła
- pojawia się
- aplikacje
- dotyczy
- podejście
- mobilne i webowe
- SĄ
- Argumentuje
- AS
- kapitał
- powiązany
- At
- dostępny
- z dala
- BE
- bo
- beta
- Ulepsz Swój
- pomiędzy
- Duży
- billing
- biz
- Blog
- wzmocnienia
- przynieść
- wybudowany
- ale
- by
- nazywa
- CAN
- Pojemność
- który
- Etui
- katalog
- cent
- scentralizowane
- wyzwania
- opłata
- chatbot
- żeton
- Frytki
- roszczenia
- jasny
- Chmura
- CloudFlare
- CO
- przyjście
- sukcesy firma
- kompleksowość
- zawiera
- obliczać
- zawartość
- kontrola
- konwertować
- rdzeń
- Koszty:
- klient
- dane klienta
- Klientów
- dane
- Baza danych
- dzień
- sprawa
- zdecydować
- dostarczyć
- dostawa
- wdrażanie
- Wdrożenie
- zaprojektowany
- rozwinięty
- urządzenie
- urządzenia
- różnica
- różne
- robi
- robi
- dubbingowane
- Wcześnie
- łatwiej
- krawędź
- wydajny
- osadzone
- zakończenia
- dość
- zapewnia
- Eter (ETH)
- Każdy
- wszędzie
- przykład
- nadmiar
- Rozszerzać
- oczekuje
- drogi
- ekspertyza
- wyjaśnione
- Objaśnia
- rozbudowa
- Twarz
- daleko
- FAST
- szybciej
- Korzyści
- i terminów, a
- W razie zamówieenia projektu
- często
- od
- frontend
- funkcjonalnie
- przyszłość
- Bramka
- generacja
- gigant
- Dać
- Go
- będzie
- dobry
- GPU
- GPU
- Have
- pomoc
- Jednak
- HTTPS
- pomysł
- if
- obraz
- in
- zawierać
- obejmuje
- Informacja
- początkowy
- początkowo
- Innowacja
- integrować
- Intel
- odsetki
- najnowszych
- ISN
- IT
- JEGO
- samo
- jpg
- właśnie
- wiedza
- Nazwisko
- Utajenie
- nauka
- najmniej
- mniej
- pozwala
- lubić
- LIMIT
- Ograniczony
- Lista
- ll
- Lama
- miejscowy
- poszukuje
- najniższy
- maszyna
- uczenie maszynowe
- zrobiony
- robić
- WYKONUJE
- Dokonywanie
- zarządzający
- wiele
- masywny
- Może..
- zmierzyć
- Pamięć
- Meta
- może
- łagodzenie
- ML
- model
- modele
- monitorowanie
- jeszcze
- większość
- przeniesienie
- wielokrotność
- Blisko
- prawie
- sieć
- sieci
- Neurony
- Nie
- Uwagi
- już dziś
- Nvidia
- oczywista
- of
- oferta
- oferowany
- on
- ONE
- te
- Online
- tylko
- Optymalizacja
- optymalizacji
- or
- zamówienie
- Inne
- na zewnątrz
- wydajność
- stron
- parametr
- przechodzić
- PC
- wybierać
- Miejsce
- plany
- Platforma
- plato
- Analiza danych Platona
- PlatoDane
- zwrotnica
- możliwy
- Post
- power
- mocny
- obecność
- Podgląd
- ustala priorytety
- wygląda tak
- Produkt
- Produkcja
- pod warunkiem,
- proksies
- Kurs
- RE
- polecić
- zmniejsza
- regularny
- wydany
- niezawodność
- wymagać
- Zasób
- Odpowiedzi
- REST
- dalsze
- prawo
- Rosnąć
- Rolka
- run
- bieganie
- działa
- s
- Powiedział
- mówią
- Skala
- szeregowanie
- rozsądek
- Bezserwerowe
- usługa
- Usługi
- siedem
- kilka
- prostota
- Witryny
- SIX
- Rozmiar
- mały
- kilka
- specyficzny
- przemówienie
- dzielić
- etapy
- Zestawienie sprzedaży
- Nadal
- opływowy
- wystarczający
- apartament
- wsparcie
- podpory
- Powierzchnia
- system
- T
- biorąc
- Zadanie
- klucze
- Technologia
- powiedzieć
- XNUMX
- że
- Połączenia
- Przyszłość
- ich
- Im
- Tam.
- Te
- to
- chociaż?
- tysiąc
- trzy
- do
- już dziś
- powiedział
- także
- przeszkolony
- Twitch
- drugiej
- zazwyczaj
- us
- używany
- Użytkownik
- za pomocą
- Droga..
- we
- sieć
- Strona internetowa
- Wednesday
- tydzień
- Co
- który
- Podczas
- Szept
- w
- Wygrał
- pracowników
- pracujący
- by
- nie
- rok
- jeszcze
- ty
- Twój
- zefirnet