Cloudflare, yapay zekanın ağ kenarından kurtulmasına izin veriyor

Cloudflare, yapay zekanın ağ kenarından kurtulmasına izin veriyor

Kaynak Düğüm: 2906199

Üretken yapay zeka modelleri devasa GPU kümelerinde eğitilmiş olabilir ancak Cloudflare, bunları çalıştıracak bariz yerin yalnızca uçta değil, ağın kendisi olduğunu savunuyor.

Çarşamba günü teslimat devi açıkladı Geniş dil modellerini (LLM'ler) ve diğer makine öğrenimi (ML) algoritmalarını dağıtma ve çalıştırma karmaşıklığını ortadan kaldırmayı ve aynı zamanda mümkün olan en düşük gecikmeyi sağlamayı amaçlayan bir yapay zeka hizmetleri paketi.

Aslında, mümkün olan en düşük gecikme, çıkarım iş yükünün kullanıcının cihazında çalıştırılmasıyla elde edilebilir. Intel bu konuda büyük bir anlaşma yaptı, teşvik eden AI PC neslinin yükselişi, geçen hafta Intel Innovation'da. Ancak bu bazı durumlarda mantıklı gelse de Cloudflare, yerel cihazların henüz yeterince güçlü olmadığını savunuyor.

"Bu, ağı çıkarımın altın kilitleri haline getiriyor. Çok uzak değil, yeterli bilgi işlem gücüyle - tam olarak doğru," diye yazıyor biz.

GPU'lar için sunucusuz

AI paketi üç temel hizmetten oluşur. Bunlardan ilki, sunucusuz İşçiler platformunun GPU hızlandırmalı iş yüklerini destekleyecek bir uzantısıdır. Workers AI olarak adlandırılan hizmet, önceden eğitilmiş modellerin dağıtılması sürecini kolaylaştırmak için tasarlandı.

“Makine öğrenimi uzmanlığı yok, GPU'ları araştırmak yok. Cloudflare, sunulan modellerden birini seçip yola çıkmanız yeterli” diyor.

Bize platformun Nvidia GPU'lar üzerinde çalıştığı söylendi ancak Cloudflare hangilerinin olduğunu bize söylemedi. "Cloudflare'in geliştirdiği teknoloji, bir çıkarım görevini birden fazla farklı GPU'ya bölebilir, çünkü planlama ve sistemle biz ilgileniyoruz ve bunu sağlamak için hangi çip veya çiplerin en anlamlı olduğuna karar vereceğiz" dedi. Kayıt yaptığı açıklamada.

Basitlik adına platform, en azından başlangıçta müşteri tarafından sağlanan modelleri desteklemiyor. Gelecekte bunu işlevsel olarak kullanıma sunmayı planladığı söylendi, ancak şimdilik bu, aşağıdakileri içeren önceden eğitilmiş altı modelle sınırlı:

  • Metin oluşturma için Meta'nın Llama 2 7B Int8'i
  • Çeviri için Meta'nın M2m100-1.2'si
  • Konuşma tanıma için OpenAI'nin Whisper'ı
  • Metin sınıflandırması için Hugging Face'in Distilbert-sst-2-int8'i
  • Görüntü sınıflandırması için Microsoft'un Resnet-50'si
  • Yerleştirmeler için Baai'nin bge-base-en-v1.5'i

Ancak Cloudflare, yakın gelecekte bu listeyi genişletmek için çalıştığını söylüyor. Pek çok yapay zeka umutlusu gibi, İstenen Hizmet için ek modelleri optimize etmek amacıyla Hugging Face'in yardımıyla.

Platformun destekleyebileceği modellerin boyutunda bir sınır olup olmadığı belli değil ancak ilk liste bazı ipuçları sunuyor. Cloudflare, Meta'nın yaklaşık 2 GB GPU belleği gerektiren yedi milyar parametreli Llama 8 LLM'sini Int7'de çalıştırılabilir hale getiriyor. Şirket ayrıca "modellerin yüz milyar parametreli versiyonlarını çalıştırmak istiyorsanız, merkezi bulutun iş yükünüze daha uygun olacağını" belirtiyor.

Cloudflare, hizmete girdikten sonra müşterilerin hizmeti REST API'lerini kullanarak veya Pages web sitesinin ön ucuna bağlayarak uygulamalarına entegre edebileceklerini söylüyor.

Hepsini bir araya koy

Workers AI yalnızca önceden eğitilmiş modellerde çıkarımı desteklediğinden Cloudflare, ML modellerinin müşteri verilerini kullanıcılara iletmesini kolaylaştırmak için Vectorize adında bir vektör veritabanı hizmeti geliştirdiğini söylüyor

Örneğin, bir sohbet robotu için müşteri, ürün kataloğunu vektör veri tabanına yükleyebilir ve buradan model, onu yerleşik bir varlığa dönüştürebilir.

Buradaki fikir, Cloudflare tarafından sunulan Llama 2 modelinin müşterinin verileri hakkında belirli bir bilgiye sahip olmasa da, chatbot'un veritabanı hizmetine bağlanarak ilgili bilgileri yüzeye çıkarabilmesi gibi görünüyor. Cloudflare'e göre bu yaklaşım yapar çıkarımlar daha erişilebilir, daha hızlı ve daha az kaynak yoğun çünkü müşteri verilerini modelin kendisinden ayırıyor.

Cloudflare'in AI paketi, Workers AI ve Vectorize'ın yanı sıra çıkarım iş yüklerini uygun ölçekte izlemek, optimize etmek ve yönetmek için bir platform da içerir.

AI Gateway olarak adlandırılan hizmet, müşterilerin maliyetleri kontrol etmesine yardımcı olmak için önbelleğe alma ve hız sınırlama gibi tipik olarak içerik dağıtım ağları ve web proxy'leriyle ilişkili çeşitli özellikleri yapay zeka çıkarımına uyguluyor.

Şirket, blog yazısında şöyle açıklıyor: "Sık kullanılan yapay zeka yanıtlarını önbelleğe alarak gecikmeyi azaltır ve sistem güvenilirliğini artırır; hız sınırlama ise verimli kaynak tahsisi sağlar ve giderek artan yapay zeka maliyetlerinin yarattığı zorlukları azaltır."

Fiyatlandırma ve kullanılabilirlik

Cloudflare, bugün yedi sitenin çevrimiçi olmasıyla hizmetin dağıtımının hala ilk aşamalarında olduğunu belirtiyor. Ancak şirket, hizmeti yıl sonuna kadar 100 noktaya ve 2024 sonuna kadar da "neredeyse her yere" ulaştırmak için GPU'ları kullanıyor.

Bunun bir sonucu olarak, üretim uygulamalarının Workers AI üzerinde dağıtılmasını henüz önermiyor ve bunu "erken beta" olarak tanımlıyor.

Blog yazısında, "Bugün yayınladığımız şey, size gelecek olanın tadına varmak için sadece küçük bir ön izlemedir" yazıyor.

Cloudflare her zamanki gibi hizmetin ilk gününde faturalandırılmayacağını söylüyor. Bununla birlikte, her bin "düzenli seğirme nöronu" için yaklaşık bir sent ve her bin "hızlı seğirme nöronu" için 0.125 dolar ücret alınması bekleniyor. İkisi arasındaki fark, ikincisinin son kullanıcıya yakınlığa öncelik vermesi, ikisinden daha ucuz olanının Cloudflare'in fazla kapasiteye sahip olduğu herhangi bir yerde çalıştırılmasıdır.

Şirket, nöronların yapay zeka çıktısını ölçmenin bir yolu olduğunu açıkladı ve bin nöronun yaklaşık 130 LLM yanıtı, 830 görüntü sınıflandırması veya 1,250 yerleştirme ® için iyi olduğunu ekledi.

Zaman Damgası:

Den fazla Kayıt