生成 AI モデルは GPU の大規模なクラスターでトレーニングされる可能性がありますが、Cloudflare は、生成 AI モデルを実行する明らかな場所はエッジだけではなくネットワーク自体であると主張しています。
水曜日の宅配大手 発表の 大規模言語モデル (LLM) やその他の機械学習 (ML) アルゴリズムのデプロイと実行の複雑さを解消し、同時に可能な限り低いレイテンシーを実現することを目的とした一連の AI サービス。
実際には、ユーザーのデバイス上で推論ワークロードを実行することで、レイテンシーを最小限に抑えることができます。 インテルはこれについて大々的に宣伝しましたが、 宣伝する AI PC 世代の台頭について、先週のインテル イノベーションで講演しました。 しかし、場合によってはこれが理にかなっているかもしれないが、ローカルデバイスはまだ十分強力ではないとCloudflareは主張する。
「これにより、ネットワークは推論の至宝となります。 遠すぎず、十分な計算能力があれば、ちょうどいいです」と業界関係者は書いています。
GPU のサーバーレス
AI スイートは XNUMX つのコア サービスで構成されます。 XNUMX つ目は、GPU で高速化されたワークロードをサポートするためのサーバーレス Workers プラットフォームの拡張です。 Workers AI と呼ばれるこのサービスは、事前トレーニングされたモデルをデプロイするプロセスを合理化するように設計されています。
「機械学習の専門知識はなく、GPU を探し回る必要もありません。 提供されたモデルの XNUMX つを選択するだけです」と Cloudflare は主張します。
このプラットフォームは Nvidia GPU 上で実行されていると言われていますが、Cloudflare はどの GPU を教えてくれませんでした。 「Cloudflareが構築したテクノロジーは、推論タスクを複数の異なるGPUに分割することができます。なぜなら、私たちがスケジューリングとシステムを管理し、それを提供するのに最も合理的なチップを決定するからです」と同社は述べた。 登録 声明インチ
簡素化のため、プラットフォームは、少なくとも最初は、顧客指定のモデルをサポートしていません。 将来的にはこれを機能的に展開する予定であると聞いていますが、現時点では、次のような XNUMX つの事前トレーニング済みモデルに制限されています。
- Meta の Llama 2 7B Int8 (テキスト生成用)
- 翻訳用メタのM2m100-1.2
- OpenAI の音声認識用 Whisper
- テキスト分類用の Hugging Face の Distilbert-sst-2-int8
- 画像分類用の Microsoft の Resnet-50
- 埋め込み用の Baai の bge-base-en-v1.5
ただし、Cloudflareは、近い将来このリストを拡大することに取り組んでいると述べています。 多くの AI 候補者と同様に、それは 勧誘 Hugging Face の助けを借りて、サービス用の追加モデルを最適化します。
プラットフォームがサポートできるモデルのサイズに制限があるかどうかは明らかではありませんが、最初のリストはいくつかの手がかりを提供します。 Cloudflareは、Metaの2億パラメータのLlama 8 LLMをInt7で実行できるようにしていますが、これには約XNUMXGBのGPUメモリが必要です。 同社はまた、「モデルのパラメータ数千億バージョンを実行したい場合は、一元化されたクラウドがワークロードに適している」とも述べています。
Cloudflareによると、顧客は立ち上げて実行すると、REST APIを使用するか、Pages Webサイトのフロントエンドにサービスを結び付けることで、サービスをアプリケーションに統合できるという。
それをすべてまとめる
Workers AI は事前トレーニングされたモデルでの推論のみをサポートしているため、Cloudflare は、ML モデルが顧客データをユーザーに渡しやすくするために、Vectorize と呼ばれるベクター データベース サービスを開発したと述べています。
たとえば、チャットボットの場合、顧客は製品カタログをベクター データベースにアップロードし、そこからモデルがカタログを埋め込み資産に変換します。
Cloudflareが提供するLlama 2モデルは顧客のデータに関する具体的な知識を持たないかもしれないが、チャットボットはデータベースサービスと結び付けることで関連情報を明らかにできる、という考えのようだ。 Cloudflare によると、このアプローチは MAKES 顧客データをモデル自体から切り離すため、推論がよりアクセスしやすく、高速になり、リソースの消費が少なくなります。
Workers AI と Vectorize に加えて、Cloudflare の AI スイートには、推論ワークロードを大規模に監視、最適化、管理するためのプラットフォームも含まれています。
AI ゲートウェイと呼ばれるこのサービスは、顧客のコスト管理を支援するために、キャッシュやレート制限など、コンテンツ配信ネットワークや Web プロキシに通常関連するいくつかの機能を AI 推論に適用します。
「頻繁に使用される AI 応答をキャッシュすることで、レイテンシが短縮され、システムの信頼性が強化されます。一方、レート制限により効率的なリソース割り当てが保証され、AI コストの高騰という課題が軽減されます」と同社はブログ投稿で説明しています。
価格と可用性
Cloudflareは、このサービスはまだ展開の初期段階にあり、現在100つのサイトがオンラインになっていると指摘している。 ただし、同社は GPU を導入して、年末までに 2024 のポイント オブ プレゼンスを実現し、XNUMX 年末までに「ほぼあらゆる場所」にサービスを提供する予定です。
このため、現時点では Workers AI 上に実稼働アプリをデプロイすることは推奨しておらず、これを「初期ベータ版」と説明しています。
「今日リリースしたものは、今後の内容を体験していただくための小さなプレビューにすぎません」とブログ投稿には書かれています。
いつものように、Cloudflareは、初日にはサービスの料金は請求されないと述べている。 そうは言っても、「通常の単収縮ニューロン」0.125個ごとに約XNUMXセント、「高速単収縮ニューロン」XNUMX個ごとにXNUMXドルの請求が予想されます。 XNUMX つの違いは、後者はエンドユーザーへの近さを優先するのに対し、XNUMX つのうちの安価な方は Cloudflare に余剰容量がある場所であればどこでも実行できることです。
ニューロンは AI 出力を測定する方法であると同社は説明し、約 130 個の LLM 応答、830 個の画像分類、または 1,250 個の埋め込み ® には XNUMX 個のニューロンが適していると付け加えました。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://go.theregister.com/feed/www.theregister.com/2023/09/28/cloudflare_ai_edge/
- :持っている
- :は
- :not
- $UP
- 1
- 100
- 125
- 2024
- 250
- a
- 私たちについて
- 加速された
- アクセス可能な
- 従った
- 達成
- 達成する
- 越えて
- 実際に
- 追加
- NEW
- AI
- AIモデル
- AIサービス
- 目的としました
- アルゴリズム
- すべて
- 配分
- また
- an
- および
- どこにでも
- API
- 登場する
- 適用
- アプローチ
- アプリ
- です
- 主張する
- AS
- 資産
- 関連する
- At
- 利用できます
- 離れて
- BE
- なぜなら
- ベータ
- より良いです
- の間に
- ビッグ
- 請求
- BIZ
- ブログ
- 支持者
- 持って来る
- 内蔵
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 呼ばれます
- 缶
- 容量
- これ
- 例
- カタログ
- セント
- 集中型の
- 課題
- チャージ
- チャットボット
- チップ
- チップ
- クレーム
- クリア
- クラウド
- CloudFlareの
- CO
- 到来
- 会社
- 複雑さ
- 含む
- 計算
- コンテンツ
- コントロール
- 変換
- 基本
- コスト
- 顧客
- 顧客データ
- Customers
- データ
- データベース
- 中
- 取引
- 決めます
- 配信する
- 配達
- 展開する
- 展開
- 設計
- 発展した
- デバイス
- Devices
- 違い
- 異なります
- ありません
- doesnの
- ダビングされた
- 早い
- 容易
- エッジ(Edge)
- 効率的な
- 埋め込まれた
- end
- 十分な
- 確実に
- エーテル(ETH)
- あらゆる
- 例
- 過剰
- 詳細
- 期待する
- 高価な
- 専門知識
- 説明
- 説明
- 顔
- 遠く
- スピーディー
- 速いです
- 特徴
- 名
- 頻繁に
- から
- フロントエンド
- 機能的に
- 未来
- ゲートウェイ
- 世代
- 巨大な
- 与える
- Go
- 行く
- 良い
- GPU
- GPU
- 持ってる
- 助けます
- しかしながら
- HTTPS
- アイデア
- if
- 画像
- in
- include
- 含ま
- 情報
- 初期
- 当初
- 革新的手法
- 統合する
- インテル
- 関心
- に
- ISN
- IT
- ITS
- 自体
- JPG
- ただ
- 知識
- 姓
- レイテンシ
- 学習
- 最低
- less
- ことができます
- ような
- LIMIT
- 限定的
- リスト
- ll
- ラマ
- ローカル
- 探して
- 最低
- 機械
- 機械学習
- 製
- make
- 作る
- 作成
- 管理する
- 多くの
- 大規模な
- 五月..
- だけど
- メモリ
- Meta
- かもしれない
- 緩和する
- ML
- モデル
- モニタリング
- 他には?
- 最も
- 移動する
- の試合に
- 近く
- ほぼ
- ネットワーク
- ネットワーク
- ニューロン
- いいえ
- ノート
- 今
- Nvidia
- 明白
- of
- 提供
- 提供
- on
- ONE
- もの
- オンライン
- の
- 最適化
- 最適化
- or
- 注文
- その他
- でる
- 出力
- ページ
- パラメーター
- パス
- PC
- 選ぶ
- 場所
- プラン
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポイント
- 可能
- ポスト
- 電力
- 強力な
- プレゼンス
- プレビュー
- 優先する
- プロセス
- プロダクト
- 生産
- 提供
- プロキシ
- レート
- RE
- 推奨する
- 軽減
- レギュラー
- リリース
- 関連した
- 信頼性
- 必要とする
- リソースを追加する。
- 回答
- REST
- 結果
- 右
- 上昇
- ロール
- ラン
- ランニング
- runs
- s
- 前記
- 言う
- 規模
- スケジューリング
- センス
- サーバレス
- サービス
- サービス
- セブン
- いくつかの
- 単純
- サイト
- SIX
- サイズ
- 小さい
- 一部
- 特定の
- スピーチ
- split
- ステージ
- ステートメント
- まだ
- 流線
- 十分な
- スイート
- サポート
- サポート
- 表面
- T
- 取得
- 仕事
- キー
- テクノロジー
- 言う
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- それ
- 未来
- アプリ環境に合わせて
- それら
- そこ。
- ボーマン
- この
- しかし?
- 千
- 三
- 〜へ
- 今日
- 言われ
- あまりに
- 訓練された
- Twitch
- 2
- 一般的に
- us
- 中古
- ユーザー
- 仕方..
- we
- ウェブ
- ウェブサイト
- Wednesday
- 週間
- この試験は
- which
- while
- ウィスパー
- 勝った
- 労働者
- ワーキング
- でしょう
- とんでもない
- 年
- まだ
- 貴社
- あなたの
- ゼファーネット