CloudflareはAIをネットワークエッジから解放します

CloudflareはAIをネットワークエッジから解放します

ソースノード: 2906199

生成 AI モデルは GPU の大規模なクラスターでトレーニングされる可能性がありますが、Cloudflare は、生成 AI モデルを実行する明らかな場所はエッジだけではなくネットワーク自体であると主張しています。

水曜日の宅配大手 発表の 大規模言語モデル (LLM) やその他の機械学習 (ML) アルゴリズムのデプロイと実行の複雑さを解消し、同時に可能な限り低いレイテンシーを実現することを目的とした一連の AI サービス。

実際には、ユーザーのデバイス上で推論ワークロードを実行することで、レイテンシーを最小限に抑えることができます。 インテルはこれについて大々的に宣伝しましたが、 宣伝する AI PC 世代の台頭について、先週のインテル イノベーションで講演しました。 しかし、場合によってはこれが理にかなっているかもしれないが、ローカルデバイスはまだ十分強力ではないとCloudflareは主張する。

「これにより、ネットワークは推論の至宝となります。 遠すぎず、十分な計算能力があれば、ちょうどいいです」と業界関係者は書いています。

GPU のサーバーレス

AI スイートは XNUMX つのコア サービスで構成されます。 XNUMX つ目は、GPU で高速化されたワークロードをサポートするためのサーバーレス Workers プラットフォームの拡張です。 Workers AI と呼ばれるこのサービスは、事前トレーニングされたモデルをデプロイするプロセスを合理化するように設計されています。

「機械学習の専門知識はなく、GPU を探し回る必要もありません。 提供されたモデルの XNUMX つを選択するだけです」と Cloudflare は主張します。

このプラットフォームは Nvidia GPU 上で実行されていると言われていますが、Cloudflare はどの GPU を教えてくれませんでした。 「Cloudflareが構築したテクノロジーは、推論タスクを複数の異なるGPUに分割することができます。なぜなら、私たちがスケジューリングとシステムを管理し、それを提供するのに最も合理的なチップを決定するからです」と同社は述べた。 登録 声明インチ

簡素化のため、プラットフォームは、少なくとも最初は、顧客指定のモデルをサポートしていません。 将来的にはこれを機能的に展開する予定であると聞いていますが、現時点では、次のような XNUMX つの事前トレーニング済みモデルに制限されています。

  • Meta の Llama 2 7B Int8 (テキスト生成用)
  • 翻訳用メタのM2m100-1.2
  • OpenAI の音声認識用 Whisper
  • テキスト分類用の Hugging Face の Distilbert-sst-2-int8
  • 画像分類用の Microsoft の Resnet-50
  • 埋め込み用の Baai の bge-base-en-v1.5

ただし、Cloudflareは、近い将来このリストを拡大することに取り組んでいると述べています。 多くの AI 候補者と同様に、それは 勧誘 Hugging Face の助けを借りて、サービス用の追加モデルを最適化します。

プラットフォームがサポートできるモデルのサイズに制限があるかどうかは明らかではありませんが、最初のリストはいくつかの手がかりを提供します。 Cloudflareは、Metaの2億パラメータのLlama 8 LLMをInt7で実行できるようにしていますが、これには約XNUMXGBのGPUメモリが必要です。 同社はまた、「モデルのパラメータ数千億バージョンを実行したい場合は、一元化されたクラウドがワークロードに適している」とも述べています。

Cloudflareによると、顧客は立ち上げて実行すると、REST APIを使用するか、Pages Webサイトのフロントエンドにサービスを結び付けることで、サービスをアプリケーションに統合できるという。

それをすべてまとめる

Workers AI は事前トレーニングされたモデルでの推論のみをサポートしているため、Cloudflare は、ML モデルが顧客データをユーザーに渡しやすくするために、Vectorize と呼ばれるベクター データベース サービスを開発したと述べています。

たとえば、チャットボットの場合、顧客は製品カタログをベクター データベースにアップロードし、そこからモデルがカタログを埋め込み資産に変換します。

Cloudflareが提供するLlama 2モデルは顧客のデータに関する具体的な知識を持たないかもしれないが、チャットボットはデータベースサービスと結び付けることで関連情報を明らかにできる、という考えのようだ。 Cloudflare によると、このアプローチは MAKES 顧客データをモデル自体から切り離すため、推論がよりアクセスしやすく、高速になり、リソースの消費が少なくなります。

Workers AI と Vectorize に加えて、Cloudflare の AI スイートには、推論ワークロードを大規模に監視、最適化、管理するためのプラットフォームも含まれています。

AI ゲートウェイと呼ばれるこのサービスは、顧客のコスト管理を支援するために、キャッシュやレート制限など、コンテンツ配信ネットワークや Web プロキシに通常関連するいくつかの機能を AI 推論に適用します。

「頻繁に使用される AI 応答をキャッシュすることで、レイテンシが短縮され、システムの信頼性が強化されます。一方、レート制限により効率的なリソース割り当てが保証され、AI コストの高騰という課題が軽減されます」と同社はブログ投稿で説明しています。

価格と可用性

Cloudflareは、このサービスはまだ展開の初期段階にあり、現在100つのサイトがオンラインになっていると指摘している。 ただし、同社は GPU を導入して、年末までに 2024 のポイント オブ プレゼンスを実現し、XNUMX 年末までに「ほぼあらゆる場所」にサービスを提供する予定です。

このため、現時点では Workers AI 上に実稼働アプリをデプロイすることは推奨しておらず、これを「初期ベータ版」と説明しています。

「今日リリースしたものは、今後の内容を体験していただくための小さなプレビューにすぎません」とブログ投稿には書かれています。

いつものように、Cloudflareは、初日にはサービスの料金は請求されないと述べている。 そうは言っても、「通常の単収縮ニューロン」0.125個ごとに約XNUMXセント、「高速単収縮ニューロン」XNUMX個ごとにXNUMXドルの請求が予想されます。 XNUMX つの違いは、後者はエンドユーザーへの近さを優先するのに対し、XNUMX つのうちの安価な方は Cloudflare に余剰容量がある場所であればどこでも実行できることです。

ニューロンは AI 出力を測定する方法であると同社は説明し、約 130 個の LLM 応答、830 個の画像分類、または 1,250 個の埋め込み ® には XNUMX 個のニューロンが適していると付け加えました。

タイムスタンプ:

より多くの 登録