يتيح Cloudflare للذكاء الاصطناعي التخلص من حافة الشبكة

يتيح Cloudflare للذكاء الاصطناعي التخلص من حافة الشبكة

عقدة المصدر: 2906199

قد يتم تدريب نماذج الذكاء الاصطناعي التوليدية في مجموعات ضخمة من وحدات معالجة الرسومات، لكن Cloudflare تقول إن المكان الواضح لتشغيلها ليس فقط على الحافة، بل في الشبكة نفسها.

يوم الاربعاء عملاق التسليم أعلن مجموعة من خدمات الذكاء الاصطناعي تهدف إلى التخلص من تعقيد نشر وتشغيل نماذج اللغات الكبيرة (LLMs) وخوارزميات التعلم الآلي (ML) الأخرى، مع تحقيق أقل زمن وصول ممكن أيضًا.

حسنًا، في الواقع، سيتم تحقيق أقل زمن وصول ممكن عن طريق تشغيل حمل عمل الاستدلال على جهاز المستخدم. لقد قامت إنتل بعقد صفقة كبيرة حول هذا الأمر، يروج صعود جيل أجهزة الكمبيوتر الشخصية المزودة بتقنية الذكاء الاصطناعي، الأسبوع الماضي في معرض Intel Innovation. ولكن على الرغم من أن هذا قد يكون منطقيًا في بعض الحالات، إلا أن Cloudflare تقول إن الأجهزة المحلية ليست قوية بما يكفي حتى الآن.

"وهذا يجعل الشبكة هي الحل الأمثل للاستدلال. ليس بعيدًا جدًا، مع قوة حسابية كافية – تمامًا،” كما كتب بيز.

بدون خادم لوحدات معالجة الرسومات

تضم مجموعة الذكاء الاصطناعي ثلاث خدمات أساسية. أولها هو امتداد لمنصة العمال بدون خادم لدعم أعباء العمل المتسارعة لوحدة معالجة الرسومات. تم تصميم الخدمة التي يطلق عليها اسم Workers AI، لتبسيط عملية نشر النماذج المدربة مسبقًا.

"لا توجد خبرة في التعلم الآلي، ولا بحث عن وحدات معالجة الرسومات. ما عليك سوى اختيار أحد النماذج المتوفرة والانطلاق،" كما تدعي Cloudflare.

قيل لنا أن النظام الأساسي يعمل فوق وحدات معالجة الرسوميات Nvidia، على الرغم من أن Cloudflare لم يخبرنا بأي منها. "التقنية التي صممتها Cloudflare يمكنها تقسيم مهمة الاستدلال عبر عدة وحدات معالجة رسومية مختلفة، لأننا نهتم بالجدولة والنظام، وسنقرر ما هي الشريحة أو الرقائق الأكثر منطقية لتحقيق ذلك،" كما قالت. السجل بالوضع الحالي.

ومن أجل التبسيط، لا تدعم المنصة - على الأقل ليس في البداية - النماذج المقدمة من العملاء. لقد قيل لنا إنها تخطط لطرح هذا الأمر وظيفيًا في المستقبل، ولكن في الوقت الحالي، يقتصر الأمر على ستة نماذج تم تدريبها مسبقًا، والتي تشمل:

  • Meta's Llama 2 7B Int8 لإنشاء النص
  • ميتا M2m100-1.2 للترجمة
  • Whisper من OpenAI للتعرف على الكلام
  • معانقة الوجه Distilbert-sst-2-int8 لتصنيف النص
  • Microsoft Resnet-50 لتصنيف الصور
  • Baai's bge-base-en-v1.5 للتضمين

ومع ذلك، تقول Cloudflare إنها تعمل على توسيع هذه القائمة في المستقبل القريب. مثل العديد من الطامحين في مجال الذكاء الاصطناعي، فقد حدث ذلك طلبت بمساعدة Hugging Face لتحسين نماذج إضافية للخدمة.

ليس من الواضح ما إذا كان هناك حد لحجم النماذج التي يمكن أن تدعمها المنصة، لكن القائمة الأولية تقدم بعض الأدلة. تعمل Cloudflare على إتاحة معلمة Llama 2 LLM الخاصة بـ Meta والتي تبلغ سعتها سبعة مليارات تشغيل على Int8، الأمر الذي يتطلب حوالي 7 جيجابايت من ذاكرة وحدة معالجة الرسومات. وتشير الشركة أيضًا إلى أنه "إذا كنت تتطلع إلى تشغيل إصدارات من النماذج تحتوي على مائة مليار معلمة، فإن السحابة المركزية ستكون أكثر ملاءمة لأعباء عملك."

بمجرد تشغيلها، تقول Cloudflare أنه يمكن للعملاء دمج الخدمة في تطبيقاتهم باستخدام REST APIs أو عن طريق ربطها بالواجهة الأمامية لموقع الويب الخاص بصفحاتهم.

وضع كل ذلك معا

نظرًا لأن Workers AI يدعم فقط الاستدلال على النماذج المدربة مسبقًا، تقول Cloudflare إنها طورت خدمة قاعدة بيانات متجهة تسمى Vectorize لتسهيل على نماذج ML تمرير بيانات العميل إلى المستخدمين

على سبيل المثال، بالنسبة لبرنامج الدردشة الآلية، قد يقوم العميل بتحميل كتالوج منتجاته إلى قاعدة بيانات المتجهات، والتي سيحولها النموذج منها إلى أصل مضمن.

يبدو أن الفكرة هي أنه على الرغم من أن نموذج Llama 2 الذي تقدمه Cloudflare قد لا يكون لديه معرفة محددة ببيانات العميل، إلا أن Chatbot لا يزال بإمكانه عرض المعلومات ذات الصلة عن طريق الارتباط بخدمة قاعدة البيانات. وفقًا لـ Cloudflare، هذا النهج يجعل الاستدلال أكثر سهولة وأسرع وأقل كثافة في استخدام الموارد لأنه يفصل بيانات العميل عن النموذج نفسه.

إلى جانب Workers AI وVectorize، تتضمن مجموعة Cloudflare للذكاء الاصطناعي أيضًا منصة لرصد أعباء العمل الاستدلالية وتحسينها وإدارتها على نطاق واسع.

تطبق الخدمة، التي يطلق عليها اسم AI Gateway، العديد من الميزات المرتبطة عادةً بشبكات توصيل المحتوى ووكلاء الويب، مثل التخزين المؤقت وتحديد المعدل، لاستدلال الذكاء الاصطناعي من أجل مساعدة العملاء على التحكم في التكاليف.

توضح الشركة في منشور المدونة: "من خلال التخزين المؤقت لاستجابات الذكاء الاصطناعي المستخدمة بشكل متكرر، فإنه يقلل من زمن الوصول ويعزز موثوقية النظام، بينما يضمن تحديد المعدل تخصيص الموارد بكفاءة، مما يخفف من تحديات تصاعد تكاليف الذكاء الاصطناعي".

الأسعار والتوافر

تشير Cloudflare إلى أن الخدمة لا تزال في المراحل الأولى من النشر، مع وجود سبعة مواقع على الإنترنت اليوم. ومع ذلك، تقوم الشركة بنشر وحدات معالجة الرسوميات لتوصيل الخدمة إلى 100 نقطة تواجد بحلول نهاية العام و"في كل مكان تقريبًا" بحلول نهاية عام 2024.

ونتيجة لذلك، لا توصي بنشر تطبيقات الإنتاج على Workers AI حتى الآن، واصفة إياها بأنها "نسخة تجريبية مبكرة".

وجاء في منشور المدونة: "ما أصدرناه اليوم هو مجرد معاينة صغيرة لإعطائك لمحة عما هو قادم".

كالعادة، تقول Cloudflare إنها لن تقوم بدفع تكاليف الخدمة في اليوم الأول. ومع ذلك، فإنها تتوقع أن تتقاضى حوالي سنتًا مقابل كل ألف "خلايا عصبية سريعة الارتعاش" و0.125 دولارًا لكل ألف "خلايا عصبية سريعة الارتعاش". الفرق بين الاثنين هو أن الأخير يعطي الأولوية للقرب من المستخدم النهائي، في حين أن الخيار الأقل تكلفة يعمل في أي مكان توجد فيه سعة زائدة لدى Cloudflare.

وأوضحت الشركة أن الخلايا العصبية هي وسيلة لقياس مخرجات الذكاء الاصطناعي، مضيفة أن ألف خلية عصبية مفيدة لنحو 130 استجابة LLM، أو 830 تصنيفًا للصور، أو 1,250 تضمينًا.

الطابع الزمني:

اكثر من السجل