Cloudflare memungkinkan AI lepas dari keunggulan jaringan

Cloudflare memungkinkan AI lepas dari keunggulan jaringan

Node Sumber: 2906199

Model AI generatif mungkin dilatih dalam kelompok GPU yang sangat besar, namun Cloudflare berpendapat bahwa tempat yang tepat untuk menjalankannya tidak hanya di edge tetapi juga di jaringan itu sendiri.

Pada hari Rabu raksasa pengiriman mengumumkan serangkaian layanan AI yang bertujuan untuk menghilangkan kerumitan dalam penerapan dan menjalankan model bahasa besar (LLM) dan algoritme pembelajaran mesin (ML) lainnya, sekaligus mencapai latensi serendah mungkin.

Sebenarnya, latensi serendah mungkin dapat dicapai dengan menjalankan beban kerja inferensi pada perangkat pengguna. Intel mempermasalahkan hal ini, menggembar-gemborkan kebangkitan generasi PC AI, minggu lalu di Intel Innovation. Meskipun hal ini mungkin masuk akal dalam beberapa kasus, Cloudflare berpendapat bahwa perangkat lokal belum cukup kuat.

“Hal ini menjadikan jaringan sebagai pusat inferensi. Tidak terlalu jauh, dengan daya komputasi yang memadai — tepat,” tulis biz tersebut.

Tanpa server untuk GPU

Rangkaian AI terdiri dari tiga layanan inti. Yang pertama adalah perluasan platform Pekerja tanpa server untuk mendukung beban kerja yang dipercepat GPU. Dijuluki Workers AI, layanan ini dirancang untuk menyederhanakan proses penerapan model terlatih.

“Tidak ada keahlian pembelajaran mesin, tidak perlu mencari-cari GPU. Pilih saja salah satu model yang disediakan dan lanjutkan,” klaim Cloudflare.

Kami diberi tahu bahwa platform tersebut berjalan di atas GPU Nvidia, meskipun Cloudflare tidak memberi tahu kami yang mana. “Teknologi yang dibangun Cloudflare dapat membagi tugas inferensi ke beberapa GPU yang berbeda, karena kami menangani penjadwalan dan sistem, dan kami akan memutuskan chip mana yang paling masuk akal untuk melaksanakannya,” katanya. Pendaftaran dalam sebuah pernyataan.

Demi kesederhanaan, platform ini — setidaknya pada awalnya — tidak mendukung model yang disediakan pelanggan. Kami diberitahu bahwa mereka berencana untuk meluncurkan fungsi ini di masa depan, namun untuk saat ini, model tersebut terbatas pada enam model terlatih, yang meliputi:

  • Llama 2 7B Int8 Meta untuk pembuatan teks
  • M2m100-1.2 Meta untuk terjemahan
  • Bisikan OpenAI untuk pengenalan suara
  • Distilbert-sst-2-int8 Hugging Face untuk klasifikasi teks
  • Resnet-50 Microsoft untuk klasifikasi gambar
  • Bge-base-en-v1.5 Baai untuk penyematan

Namun, Cloudflare mengatakan pihaknya berupaya memperluas daftar ini dalam waktu dekat. Seperti kebanyakan calon AI, hal itu terjadi diminta bantuan Hugging Face untuk mengoptimalkan model tambahan untuk layanan tersebut.

Tidak jelas apakah ada batasan ukuran model yang dapat didukung oleh platform ini, namun daftar awal memberikan beberapa petunjuk. Cloudflare membuat tujuh miliar parameter Llama 2 LLM Meta tersedia berjalan di Int8, yang membutuhkan sekitar 7GB memori GPU. Perusahaan juga mencatat bahwa “jika Anda ingin menjalankan model dengan versi ratusan miliar parameter, cloud terpusat akan lebih cocok untuk beban kerja Anda.”

Setelah aktif dan berjalan, Cloudflare mengatakan pelanggan dapat mengintegrasikan layanan ke dalam aplikasi mereka menggunakan REST API atau dengan mengikatnya ke halaman depan situs web mereka.

Putuskan semuanya

Karena Workers AI hanya mendukung inferensi pada model yang telah dilatih sebelumnya, Cloudflare mengatakan pihaknya mengembangkan layanan database vektor yang disebut Vectorize untuk memudahkan model ML meneruskan data pelanggan ke pengguna.

Misalnya, untuk chatbot, pelanggan mungkin mengunggah katalog produk mereka ke database vektor, yang kemudian akan diubah oleh model menjadi aset yang disematkan.

Idenya adalah, meskipun model Llama 2 yang ditawarkan oleh Cloudflare mungkin tidak memiliki pengetahuan khusus tentang data pelanggan, chatbot masih dapat menampilkan informasi yang relevan dengan menghubungkannya ke layanan database. Menurut Cloudflare, pendekatan ini membuat menyimpulkan lebih mudah diakses, lebih cepat, dan lebih hemat sumber daya karena memisahkan data pelanggan dari model itu sendiri.

Selain Workers AI dan Vectorize, rangkaian AI Cloudflare juga menyertakan platform untuk memantau, mengoptimalkan, dan mengelola beban kerja inferensi dalam skala besar.

Dijuluki AI Gateway, layanan ini menerapkan beberapa fitur yang biasanya terkait dengan jaringan pengiriman konten dan proxy web, seperti caching dan pembatasan tarif, hingga inferensi AI untuk membantu pelanggan mengendalikan biaya.

“Dengan menyimpan respons AI yang sering digunakan dalam cache, hal ini mengurangi latensi dan meningkatkan keandalan sistem, sementara pembatasan kecepatan memastikan alokasi sumber daya yang efisien, mengurangi tantangan kenaikan biaya AI,” perusahaan tersebut menjelaskan dalam postingan blognya.

Harga dan ketersediaan

Cloudflare mencatat bahwa layanan ini masih dalam tahap awal penerapan, dengan tujuh situs online saat ini. Namun, perusahaan menerapkan GPU untuk menjadikan layanan ini mencapai 100 titik kehadiran pada akhir tahun dan “hampir di semua tempat” pada akhir tahun 2024.

Oleh karena itu, mereka belum merekomendasikan penerapan aplikasi produksi pada Workers AI, karena menggambarkannya sebagai “beta awal”.

“Apa yang kami rilis hari ini hanyalah pratinjau kecil untuk memberi Anda gambaran tentang apa yang akan terjadi,” tulis postingan blog tersebut.

Seperti biasa, Cloudflare mengatakan tidak akan menagih layanan pada hari pertama. Oleh karena itu, mereka memperkirakan akan mengenakan biaya sekitar satu sen untuk setiap seribu “neuron kedutan biasa” dan $0.125 untuk setiap seribu “neuron kedutan cepat”. Perbedaan antara keduanya adalah yang terakhir memprioritaskan kedekatan dengan pengguna akhir, sedangkan yang lebih murah dari keduanya berjalan di mana pun Cloudflare memiliki kelebihan kapasitas.

Neuron adalah cara untuk mengukur keluaran AI, jelas perusahaan tersebut, seraya menambahkan bahwa seribu neuron dapat digunakan untuk sekitar 130 respons LLM, 830 klasifikasi gambar, atau 1,250 embeddings ®.

Stempel Waktu:

Lebih dari Pendaftaran