Cloudflare lässt die KI vom Netzwerkrand los

Cloudflare lässt die KI vom Netzwerkrand los

Quellknoten: 2906199

Generative KI-Modelle könnten in riesigen Clustern von GPUs trainiert werden, aber Cloudflare argumentiert, dass der offensichtliche Ort für ihre Ausführung nicht nur am Rand, sondern im Netzwerk selbst liegt.

Am Mittwoch der Lieferriese angekündigt Eine Reihe von KI-Diensten, die darauf abzielen, die Komplexität der Bereitstellung und Ausführung von Large-Language-Modellen (LLMs) und anderen Algorithmen für maschinelles Lernen (ML) zu verringern und gleichzeitig die geringstmögliche Latenz zu erreichen.

Nun, tatsächlich würde die geringstmögliche Latenz dadurch erreicht, dass die Inferenz-Workload auf dem Gerät des Benutzers ausgeführt wird. Intel hat hier eine große Sache gemacht, Werbung der Aufstieg der KI-PC-Generation, letzte Woche bei Intel Innovation. Auch wenn dies in manchen Fällen sinnvoll sein mag, argumentiert Cloudflare, dass lokale Geräte noch nicht leistungsstark genug sind.

„Das macht das Netzwerk zum Goldlöckchen der Schlussfolgerung.“ Nicht zu weit, mit ausreichend Rechenleistung – genau richtig“, schreibt das Unternehmen.

Serverlos für GPUs

Die KI-Suite umfasst drei Kerndienste. Die erste davon ist eine Erweiterung seiner serverlosen Workers-Plattform zur Unterstützung GPU-beschleunigter Workloads. Der als Workers AI bezeichnete Dienst soll den Prozess der Bereitstellung vorab trainierter Modelle rationalisieren.

„Keine Fachkenntnisse im Bereich maschinelles Lernen, kein Suchen nach GPUs. Wählen Sie einfach eines der bereitgestellten Modelle aus und legen Sie los“, behauptet Cloudflare.

Uns wurde gesagt, dass die Plattform auf Nvidia-GPUs läuft, Cloudflare wollte uns jedoch nicht sagen, welche. „Die von Cloudflare entwickelte Technologie kann eine Inferenzaufgabe auf mehrere verschiedene GPUs aufteilen, da wir uns um die Planung und das System kümmern und entscheiden, welcher Chip oder welche Chips für die Bereitstellung am sinnvollsten sind“, heißt es darin Das Register in einer Erklärung.

Der Einfachheit halber unterstützt die Plattform – zumindest anfangs – keine vom Kunden bereitgestellten Modelle. Uns wurde mitgeteilt, dass geplant ist, dies in Zukunft funktional einzuführen, aber im Moment ist es auf sechs vorab trainierte Modelle beschränkt, darunter:

  • Meta's Llama 2 7B Int8 zur Textgenerierung
  • Metas M2m100-1.2 zur Übersetzung
  • Whisper von OpenAI zur Spracherkennung
  • Distilbert-sst-2-int8 von Hugging Face zur Textklassifizierung
  • Microsofts Resnet-50 zur Bildklassifizierung
  • Baais bge-base-en-v1.5 für Einbettungen

Allerdings sagt Cloudflare, dass man daran arbeitet, diese Liste in naher Zukunft zu erweitern. Wie viele KI-Anwärter hat es das getan erbeten die Hilfe von Hugging Face, um zusätzliche Modelle für den Dienst zu optimieren.

Es ist nicht klar, ob es eine Grenze für die Größe der Modelle gibt, die die Plattform unterstützen kann, aber die erste Liste bietet einige Hinweise. Cloudflare stellt Metas sieben Milliarden Parameter umfassendes Llama 2 LLM mit Int8 zur Verfügung, was etwa 7 GB GPU-Speicher erfordern würde. Das Unternehmen weist außerdem darauf hin, dass „wenn Sie Hundertmilliarden Parameterversionen von Modellen ausführen möchten, die zentralisierte Cloud besser für Ihre Arbeitslast geeignet ist.“

Nach der Inbetriebnahme können Kunden laut Cloudflare den Dienst mithilfe von REST-APIs oder durch die Einbindung in das Frontend ihrer Pages-Website in ihre Anwendungen integrieren.

Dass sie alle zusammen

Da Workers AI nur Rückschlüsse auf vorab trainierte Modelle unterstützt, hat Cloudflare nach eigenen Angaben einen Vektordatenbankdienst namens Vectorize entwickelt, um den ML-Modellen die Weitergabe von Kundendaten an Benutzer zu erleichtern

Bei einem Chatbot könnte ein Kunde beispielsweise seinen Produktkatalog in die Vektordatenbank hochladen, aus der das Modell ihn in ein eingebettetes Asset umwandeln würde.

Die Idee scheint darin zu bestehen, dass das von Cloudflare angebotene Llama-2-Modell zwar möglicherweise keine spezifischen Kenntnisse über die Daten eines Kunden hat, der Chatbot jedoch durch die Anbindung an den Datenbankdienst dennoch relevante Informationen anzeigen kann. Laut Cloudflare ist dieser Ansatz macht Die Schlussfolgerung ist zugänglicher, schneller und weniger ressourcenintensiv, da Kundendaten vom Modell selbst entkoppelt werden.

Neben Workers AI und Vectorize umfasst die KI-Suite von Cloudflare auch eine Plattform zur Überwachung, Optimierung und Verwaltung von Inferenz-Workloads im großen Maßstab.

Der als AI Gateway bezeichnete Dienst wendet mehrere Funktionen, die typischerweise mit Content-Delivery-Netzwerken und Web-Proxys verbunden sind, wie Caching und Ratenbegrenzung, auf die KI-Inferenz an, um Kunden bei der Kostenkontrolle zu unterstützen.

„Durch das Zwischenspeichern häufig verwendeter KI-Antworten wird die Latenz reduziert und die Systemzuverlässigkeit erhöht, während die Ratenbegrenzung eine effiziente Ressourcenzuweisung gewährleistet und die Herausforderungen steigender KI-Kosten abmildert“, erklärt das Unternehmen im Blogbeitrag.

Preise und Verfügbarkeit

Cloudflare stellt fest, dass sich der Dienst noch im Anfangsstadium der Bereitstellung befindet und heute sieben Websites online sind. Das Unternehmen setzt jedoch GPUs ein, um den Dienst bis Ende des Jahres auf 100 Points of Presence und bis Ende 2024 auf „fast überall“ zu bringen.

Aus diesem Grund empfiehlt es noch nicht, Produktionsanwendungen auf Workers AI bereitzustellen, sondern bezeichnet es als „frühe Beta“.

„Was wir heute veröffentlicht haben, ist nur eine kleine Vorschau, um Ihnen einen Vorgeschmack auf das zu geben, was kommt“, heißt es im Blogbeitrag.

Wie üblich sagt Cloudflare, dass der Dienst am ersten Tag nicht in Rechnung gestellt wird. Vor diesem Hintergrund wird voraussichtlich etwa ein Cent pro tausend „normal zuckende Neuronen“ und 0.125 US-Dollar für alle tausend „schnell zuckenden Neuronen“ berechnet. Der Unterschied zwischen den beiden besteht darin, dass letzteres die Nähe zum Endbenutzer priorisiert, während das kostengünstigere der beiden überall dort läuft, wo Cloudflare überschüssige Kapazität hat.

Neuronen seien eine Möglichkeit, die KI-Ausgabe zu messen, erklärte das Unternehmen und fügte hinzu, dass tausend Neuronen für etwa 130 LLM-Antworten, 830 Bildklassifizierungen oder 1,250 Einbettungen reichen.

Zeitstempel:

Mehr von Das Register