Cloudflare により AI がネットワークエッジから解放される

プラトン再発行

フォロワー： 0

生成 AI モデルは GPU の大規模なクラスターでトレーニングされる可能性がありますが、Cloudflare は、生成 AI モデルを実行する明らかな場所はエッジだけではなくネットワーク自体であると主張しています。

水曜日の宅配大手発表の大規模言語モデル (LLM) やその他の機械学習 (ML) アルゴリズムのデプロイと実行の複雑さを解消し、同時に可能な限り低いレイテンシーを実現することを目的とした一連の AI サービス。

実際には、ユーザーのデバイス上で推論ワークロードを実行することで、レイテンシーを最小限に抑えることができます。インテルはこれについて大々的に宣伝しましたが、宣伝する AI PC 世代の台頭について、先週のインテルイノベーションで講演しました。しかし、場合によってはこれが理にかなっているかもしれないが、ローカルデバイスはまだ十分強力ではないとCloudflareは主張する。

「これにより、ネットワークは推論の至宝となります。遠すぎず、十分な計算能力があれば、ちょうどいいです」と業界関係者は書いています。

GPU のサーバーレス

AI スイートは XNUMX つのコアサービスで構成されます。 XNUMX つ目は、GPU で高速化されたワークロードをサポートするためのサーバーレス Workers プラットフォームの拡張です。 Workers AI と呼ばれるこのサービスは、事前トレーニングされたモデルをデプロイするプロセスを合理化するように設計されています。

「機械学習の専門知識はなく、GPU を探し回る必要もありません。提供されたモデルの XNUMX つを選択するだけです」と Cloudflare は主張します。

このプラットフォームは Nvidia GPU 上で実行されていると言われていますが、Cloudflare はどの GPU を教えてくれませんでした。「Cloudflareが構築したテクノロジーは、推論タスクを複数の異なるGPUに分割することができます。なぜなら、私たちがスケジューリングとシステムを管理し、それを提供するのに最も合理的なチップを決定するからです」と同社は述べた。登録声明インチ

簡素化のため、プラットフォームは、少なくとも最初は、顧客指定のモデルをサポートしていません。将来的にはこれを機能的に展開する予定であると聞いていますが、現時点では、次のような XNUMX つの事前トレーニング済みモデルに制限されています。

Meta の Llama 2 7B Int8 (テキスト生成用)
翻訳用メタのM2m100-1.2
OpenAI の音声認識用 Whisper
テキスト分類用の Hugging Face の Distilbert-sst-2-int8
画像分類用の Microsoft の Resnet-50
埋め込み用の Baai の bge-base-en-v1.5

ただし、Cloudflareは、近い将来このリストを拡大することに取り組んでいると述べています。多くの AI 候補者と同様に、それは勧誘 Hugging Face の助けを借りて、サービス用の追加モデルを最適化します。

プラットフォームがサポートできるモデルのサイズに制限があるかどうかは明らかではありませんが、最初のリストはいくつかの手がかりを提供します。 Cloudflareは、Metaの2億パラメータのLlama 8 LLMをInt7で実行できるようにしていますが、これには約XNUMXGBのGPUメモリが必要です。同社はまた、「モデルのパラメータ数千億バージョンを実行したい場合は、一元化されたクラウドがワークロードに適している」とも述べています。

Cloudflareによると、顧客は立ち上げて実行すると、REST APIを使用するか、Pages Webサイトのフロントエンドにサービスを結び付けることで、サービスをアプリケーションに統合できるという。

それをすべてまとめる

Workers AI は事前トレーニングされたモデルでの推論のみをサポートしているため、Cloudflare は、ML モデルが顧客データをユーザーに渡しやすくするために、Vectorize と呼ばれるベクターデータベースサービスを開発したと述べています。

たとえば、チャットボットの場合、顧客は製品カタログをベクターデータベースにアップロードし、そこからモデルがカタログを埋め込み資産に変換します。

Cloudflareが提供するLlama 2モデルは顧客のデータに関する具体的な知識を持たないかもしれないが、チャットボットはデータベースサービスと結び付けることで関連情報を明らかにできる、という考えのようだ。 Cloudflare によると、このアプローチは MAKES 顧客データをモデル自体から切り離すため、推論がよりアクセスしやすく、高速になり、リソースの消費が少なくなります。

Workers AI と Vectorize に加えて、Cloudflare の AI スイートには、推論ワークロードを大規模に監視、最適化、管理するためのプラットフォームも含まれています。

AI ゲートウェイと呼ばれるこのサービスは、顧客のコスト管理を支援するために、キャッシュやレート制限など、コンテンツ配信ネットワークや Web プロキシに通常関連するいくつかの機能を AI 推論に適用します。

「頻繁に使用される AI 応答をキャッシュすることで、レイテンシが短縮され、システムの信頼性が強化されます。一方、レート制限により効率的なリソース割り当てが保証され、AI コストの高騰という課題が軽減されます」と同社はブログ投稿で説明しています。

価格と可用性

Cloudflareは、このサービスはまだ展開の初期段階にあり、現在100つのサイトがオンラインになっていると指摘している。ただし、同社は GPU を導入して、年末までに 2024 のポイントオブプレゼンスを実現し、XNUMX 年末までに「ほぼあらゆる場所」にサービスを提供する予定です。

このため、現時点では Workers AI 上に実稼働アプリをデプロイすることは推奨しておらず、これを「初期ベータ版」と説明しています。

「今日リリースしたものは、今後の内容を体験していただくための小さなプレビューにすぎません」とブログ投稿には書かれています。

いつものように、Cloudflareは、初日にはサービスの料金は請求されないと述べている。そうは言っても、「通常の単収縮ニューロン」0.125個ごとに約XNUMXセント、「高速単収縮ニューロン」XNUMX個ごとにXNUMXドルの請求が予想されます。 XNUMX つの違いは、後者はエンドユーザーへの近さを優先するのに対し、XNUMX つのうちの安価な方は Cloudflare に余剰容量がある場所であればどこでも実行できることです。

ニューロンは AI 出力を測定する方法であると同社は説明し、約 130 個の LLM 応答、830 個の画像分類、または 1,250 個の埋め込み ® には XNUMX 個のニューロンが適していると付け加えました。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://go.theregister.com/feed/www.theregister.com/2023/09/28/cloudflare_ai_edge/

タイムスタンプ： 2023 年 9 月 28 日

プラトン再発行

英国とオズの共同調査により、顔認識の新興企業であるClearviewAIがプライバシーに問題を抱えていることが判明

GitHub Copilot が Microsoft を著作権の嵐に導く方法

「国家安全保障の問題として」AIに優しい特許法が必要、と元USPTO長官は語る

AIドライブレコーダー事業者のサムサラ、知的財産窃盗の動機でライバルを告発

バイナンスの幹部は、詐欺師が犠牲者をだますために彼の「ディープフェイクホログラム」を作成したと述べています

Databricks、データアクセスツールの Arcion Labs を吸収

市は、5,000 台の不規則で交通渋滞の原因となる GM のロボカーが路上を走ることに熱心ではありません

MetaのAIベースのウィキペディアの後継者は「NLPの次の大きなブレークになるかもしれない」

ボフィン氏は、生成型 AI 技術スタックには新しいレイヤーが必要だと語る

ChatGPT Webトラフィックが10%減少、分析結果

コンピュータビジョンは学校の銃撃の治療法ですか？ありそうもない

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー