Cloudflare Lets AI Loose Of The Network Edge

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

جنریٹو AI ماڈلز کو GPUs کے بڑے کلسٹرز میں تربیت دی جا سکتی ہے، لیکن Cloudflare کا استدلال ہے کہ انہیں چلانے کی واضح جگہ صرف کنارے پر نہیں بلکہ خود نیٹ ورک میں ہے۔

بدھ کو ڈیلیوری دیو کا اعلان کیا ہے AI خدمات کا ایک مجموعہ جس کا مقصد بڑی زبان کے ماڈلز (LLMs) اور دیگر مشین لرننگ (ML) الگورتھم کو تعینات کرنے اور چلانے کی پیچیدگی کو دور کرنا ہے، جبکہ ممکنہ طور پر کم ترین تاخیر کو بھی حاصل کرنا ہے۔

ٹھیک ہے، اصل میں، کم سے کم ممکنہ تاخیر صارف کے ڈیوائس پر کام کے بوجھ کو چلانے سے حاصل کی جائے گی۔ انٹیل نے اس بارے میں بڑا سودا کیا، touting AI PC جنریشن کا عروج، گزشتہ ہفتے Intel Innovation میں۔ لیکن جب کہ بعض صورتوں میں یہ سمجھ میں آسکتا ہے، Cloudflare کا استدلال ہے کہ مقامی آلات ابھی اتنے طاقتور نہیں ہیں۔

"یہ نیٹ ورک کو تخمینہ کا سنہری لاکس بنا دیتا ہے۔ زیادہ دور نہیں، کافی کمپیوٹ طاقت کے ساتھ - بالکل ٹھیک، "بز لکھتا ہے۔

GPUs کے لیے بغیر سرور

AI سویٹ تین بنیادی خدمات پر مشتمل ہے۔ ان میں سے پہلا GPU تیز رفتار کام کے بوجھ کو سپورٹ کرنے کے لیے اس کے سرور لیس ورکرز پلیٹ فارم کی توسیع ہے۔ ڈبڈ ورکرز اے آئی، سروس کو پہلے سے تربیت یافتہ ماڈلز کی تعیناتی کے عمل کو ہموار کرنے کے لیے ڈیزائن کیا گیا ہے۔

"کوئی مشین لرننگ کی مہارت نہیں، GPUs کے لیے کوئی رمجنگ نہیں۔ صرف فراہم کردہ ماڈلز میں سے ایک کو منتخب کریں اور جائیں،" Cloudflare کا دعویٰ ہے۔

ہمیں بتایا گیا ہے کہ پلیٹ فارم Nvidia GPUs کے اوپر چلتا ہے، حالانکہ Cloudflare ہمیں یہ نہیں بتائے گا کہ کون سا ہے۔ "کلاؤڈ فلیئر نے جو ٹکنالوجی بنائی ہے وہ متعدد مختلف GPUs میں ایک تخمینے کے کام کو تقسیم کر سکتی ہے، کیونکہ ہم شیڈولنگ اور سسٹم کا خیال رکھتے ہیں، اور ہم فیصلہ کریں گے کہ کون سی چپ یا چپس اس کی فراہمی کے لیے سب سے زیادہ معنی رکھتی ہیں،" اس نے بتایا۔ رجسٹر ایک بیان میں.

سادگی کے مفاد میں، پلیٹ فارم - کم از کم ابتدائی طور پر نہیں - کسٹمر کے فراہم کردہ ماڈلز کی حمایت نہیں کرتا ہے۔ ہمیں بتایا گیا ہے کہ وہ مستقبل میں اسے فعال طور پر شروع کرنے کا ارادہ رکھتی ہے، لیکن، فی الحال، یہ چھ پہلے سے تربیت یافتہ ماڈلز تک محدود ہے، جن میں شامل ہیں:

Meta's Llama 2 7B Int8 ٹیکسٹ جنریشن کے لیے
ترجمہ کے لیے میٹا کا M2m100-1.2
تقریر کی شناخت کے لیے اوپن اے آئی کی سرگوشی
متن کی درجہ بندی کے لیے ہگنگ فیس کا Distilbert-sst-2-int8
تصویر کی درجہ بندی کے لیے مائیکروسافٹ کا Resnet-50
ایمبیڈنگز کے لیے Baai's bge-base-en-v1.5

تاہم، Cloudflare کا کہنا ہے کہ وہ مستقبل قریب میں اس فہرست کو بڑھانے کے لیے کام کر رہا ہے۔ بہت سے AI امید مندوں کی طرح، یہ ہے درخواست کی سروس کے لیے اضافی ماڈلز کو بہتر بنانے کے لیے Hugging Face کی مدد۔

یہ واضح نہیں ہے کہ آیا پلیٹ فارم جن ماڈلز کو سپورٹ کر سکتا ہے ان کے سائز کی کوئی حد ہے، لیکن ابتدائی فہرست کچھ اشارے پیش کرتی ہے۔ Cloudflare Meta کے سات بلین پیرامیٹر Llama 2 LLM کو Int8 پر دستیاب کرا رہا ہے، جس کے لیے تقریباً 7GB GPU میموری کی ضرورت ہوگی۔ کمپنی یہ بھی نوٹ کرتی ہے کہ "اگر آپ ماڈلز کے سو بلین پیرامیٹر ورژن چلانا چاہتے ہیں، تو سنٹرلائزڈ کلاؤڈ آپ کے کام کے بوجھ کے لیے زیادہ موزوں ہوگا۔"

ایک بار شروع ہونے اور چلانے کے بعد، Cloudflare کا کہنا ہے کہ صارفین REST APIs کا استعمال کرتے ہوئے یا اسے اپنی پیجز ویب سائٹ کے فرنٹ اینڈ میں باندھ کر سروس کو اپنی ایپلی کیشنز میں ضم کر سکتے ہیں۔

سب ایک ساتھ ڈال

چونکہ ورکرز AI صرف پہلے سے تربیت یافتہ ماڈلز پر ہی اندازہ لگانے کی حمایت کرتا ہے، Cloudflare کا کہنا ہے کہ اس نے ویکٹرائز نامی ایک ویکٹر ڈیٹا بیس سروس تیار کی ہے تاکہ ML ماڈلز کے لیے صارفین کے ڈیٹا کو صارفین تک پہنچانا آسان بنایا جا سکے۔

مثال کے طور پر، چیٹ بوٹ کے لیے، ایک صارف اپنے پروڈکٹ کیٹلاگ کو ویکٹر ڈیٹا بیس میں اپ لوڈ کر سکتا ہے، جہاں سے ماڈل اسے ایمبیڈڈ اثاثہ میں تبدیل کر دے گا۔

خیال ظاہر ہوتا ہے کہ، اگرچہ Cloudflare کی طرف سے پیش کردہ Llama 2 ماڈل میں صارف کے ڈیٹا کے بارے میں کوئی خاص علم نہیں ہو سکتا، چیٹ بوٹ اب بھی ڈیٹا بیس سروس میں منسلک ہو کر متعلقہ معلومات فراہم کر سکتا ہے۔ Cloudflare کے مطابق، یہ نقطہ نظر کرتا ہے زیادہ قابل رسائی، تیز، اور کم وسائل کا اندازہ لگانا کیونکہ یہ ماڈل سے ہی کسٹمر ڈیٹا کو الگ کرتا ہے۔

ورکرز AI اور Vectorize کے ساتھ، Cloudflare کے AI سویٹ میں پیمانے پر کام کے بوجھ کی نگرانی، اصلاح اور انتظام کرنے کا ایک پلیٹ فارم بھی شامل ہے۔

AI گیٹ وے کو ڈب کیا گیا، یہ سروس صارفین کی لاگت کو کنٹرول کرنے میں مدد کرنے کے لیے AI انفرنسنگ پر عام طور پر مواد کی ترسیل کے نیٹ ورکس اور ویب پراکسیز، جیسے کیشنگ اور ریٹ محدود کرنے سے وابستہ کئی خصوصیات کا اطلاق کرتی ہے۔

"کثرت سے استعمال ہونے والے AI ردعمل کو کیش کرنے سے، یہ تاخیر کو کم کرتا ہے اور سسٹم کی وشوسنییتا کو تقویت دیتا ہے، جب کہ شرح کو محدود کرنے سے وسائل کی موثر تقسیم کو یقینی بنایا جاتا ہے، جس سے AI کے بڑھتے ہوئے اخراجات کے چیلنجوں کو کم کیا جاتا ہے،" کمپنی بلاگ پوسٹ میں بتاتی ہے۔

قیمتوں کا تعین اور دستیابی

کلاؤڈ فلیئر نوٹ کرتا ہے کہ سروس ابھی بھی تعیناتی کے ابتدائی مراحل میں ہے، آج سات سائٹس آن لائن ہیں۔ تاہم، کمپنی سال کے آخر تک سروس کی موجودگی کے 100 پوائنٹس تک اور 2024 کے آخر تک "تقریباً ہر جگہ" لانے کے لیے GPUs تعینات کر رہی ہے۔

اس کے نتیجے میں، یہ ابھی تک ورکرز AI پر پروڈکشن ایپس کو تعینات کرنے کی سفارش نہیں کرتا ہے، اسے "ابتدائی بیٹا" کے طور پر بیان کرتا ہے۔

"ہم نے آج جو کچھ جاری کیا ہے وہ آپ کو آنے والی چیزوں کا ذائقہ دینے کے لیے صرف ایک چھوٹا سا پیش نظارہ ہے،" بلاگ پوسٹ پڑھتی ہے۔

ہمیشہ کی طرح، Cloudflare کا کہنا ہے کہ وہ پہلے دن سروس کے لیے بلنگ نہیں کرے گا۔ اس کے ساتھ ہی، یہ توقع کرتا ہے کہ ہر ہزار "باقاعدہ ٹویچ نیوران" کے لیے تقریباً ایک فیصد اور ہر ہزار "فاسٹ ٹویچ نیوران" کے لیے $0.125 چارج کیا جائے گا۔ دونوں کے درمیان فرق یہ ہے کہ مؤخر الذکر آخری صارف کی قربت کو ترجیح دیتا ہے، جب کہ دونوں میں سے کم مہنگا کہیں بھی چلتا ہے جہاں Cloudflare کی گنجائش زیادہ ہوتی ہے۔

نیوران AI آؤٹ پٹ کی پیمائش کرنے کا ایک طریقہ ہیں، کمپنی نے وضاحت کی، مزید کہا کہ ایک ہزار نیوران تقریباً 130 LLM ردعمل، 830 تصویری درجہ بندی، یا 1,250 ایمبیڈنگز کے لیے اچھے ہیں۔