Cloudflare به هوش مصنوعی اجازه می دهد لبه شبکه را رها کند

Cloudflare به هوش مصنوعی اجازه می دهد لبه شبکه را رها کند

گره منبع: 2906199

مدل‌های هوش مصنوعی مولد ممکن است در خوشه‌های عظیم پردازنده‌های گرافیکی آموزش ببینند، اما Cloudflare استدلال می‌کند که مکان واضح برای اجرای آن‌ها فقط در لبه نیست، بلکه در خود شبکه است.

روز چهارشنبه غول تحویل اعلام کرد مجموعه‌ای از خدمات هوش مصنوعی با هدف دور کردن پیچیدگی استقرار و اجرای مدل‌های زبان بزرگ (LLM) و دیگر الگوریتم‌های یادگیری ماشین (ML) و در عین حال دستیابی به کمترین تأخیر ممکن.

خوب، در واقع، کمترین تأخیر ممکن با اجرای بار کار استنتاج بر روی دستگاه کاربر به دست می آید. اینتل در این مورد معامله بزرگی کرد، ترویج ظهور نسل رایانه های شخصی هوش مصنوعی، هفته گذشته در Intel Innovation. اما در حالی که این ممکن است در برخی موارد منطقی باشد، Cloudflare استدلال می کند که دستگاه های محلی هنوز به اندازه کافی قدرتمند نیستند.

این شبکه را به طلای استنباط تبدیل می کند. خیلی دور نیست، با قدرت محاسباتی کافی - درست است، بیز می نویسد.

بدون سرور برای پردازنده های گرافیکی

مجموعه هوش مصنوعی شامل سه سرویس اصلی است. اولین مورد از این موارد، گسترش پلتفرم Workers بدون سرور برای پشتیبانی از بارهای کاری تسریع شده GPU است. این سرویس که Workers AI نامیده می شود، برای ساده سازی فرآیند استقرار مدل های از پیش آموزش دیده طراحی شده است.

"بدون تخصص یادگیری ماشین، بدون جست و جو برای GPU ها. فقط یکی از مدل های ارائه شده را انتخاب کنید و بروید،" Cloudflare ادعا می کند.

به ما گفته شده است که این پلتفرم روی پردازنده‌های گرافیکی انویدیا اجرا می‌شود، اگرچه Cloudflare به ما نمی‌گوید کدام یک‌ها. در این بیانیه آمده است: «فناوری که Cloudflare ساخته است می‌تواند یک کار استنتاج را در چندین GPU مختلف تقسیم کند، زیرا ما از زمان‌بندی و سیستم مراقبت می‌کنیم و تصمیم خواهیم گرفت که چه تراشه یا چیپ‌هایی برای ارائه آن منطقی‌تر هستند. ثبت نام در بیانیه ای.

به دلیل سادگی، این پلتفرم - حداقل نه در ابتدا - از مدل های ارائه شده توسط مشتری پشتیبانی نمی کند. به ما گفته شده است که قصد دارد این را در آینده به صورت کاربردی عرضه کند، اما در حال حاضر، به شش مدل از پیش آموزش دیده محدود شده است که شامل موارد زیر است:

  • متا Llama 2 7B Int8 برای تولید متن
  • M2m100-1.2 متا برای ترجمه
  • Whisper OpenAI برای تشخیص گفتار
  • Hugging Face's Distilbert-sst-2-int8 برای طبقه بندی متن
  • Resnet-50 مایکروسافت برای طبقه بندی تصاویر
  • bge-base-en-v1.5 Baai برای جاسازی

با این حال، Cloudflare می گوید که در حال کار برای گسترش این لیست در آینده نزدیک است. مانند بسیاری از امیدواران هوش مصنوعی، این کار را کرده است درخواست شده است کمک Hugging Face برای بهینه سازی مدل های اضافی برای این سرویس.

مشخص نیست که آیا محدودیتی برای اندازه مدل هایی که پلتفرم می تواند پشتیبانی کند وجود دارد یا خیر، اما فهرست اولیه سرنخ هایی را ارائه می دهد. Cloudflare پارامتر هفت میلیاردی متا Llama 2 LLM را در حال اجرا در Int8 در دسترس قرار می دهد که به حدود 7 گیگابایت حافظه GPU نیاز دارد. این شرکت همچنین خاطرنشان می کند که "اگر به دنبال اجرای مدل های صد میلیاردی با پارامتر هستید، ابر متمرکز برای حجم کاری شما مناسب تر خواهد بود."

پس از راه‌اندازی و اجرا، Cloudflare می‌گوید که مشتریان می‌توانند این سرویس را با استفاده از REST API یا با اتصال آن به صفحه وب سایت Pages خود، در برنامه‌های خود ادغام کنند.

همه اش رو بذار کنار هم

از آنجایی که Workers AI تنها از استنباط بر روی مدل های از پیش آموزش دیده پشتیبانی می کند، Cloudflare می گوید که یک سرویس پایگاه داده برداری به نام Vectorize را توسعه داده است تا مدل های ML را برای انتقال داده های مشتری به کاربران آسان تر کند.

به عنوان مثال، برای یک ربات چت، یک مشتری ممکن است کاتالوگ محصول خود را در پایگاه داده برداری آپلود کند، که مدل آن را به یک دارایی جاسازی شده تبدیل می کند.

به نظر می رسد ایده این است که، در حالی که مدل Llama 2 ارائه شده توسط Cloudflare ممکن است دانش خاصی از داده های مشتری نداشته باشد، چت ربات همچنان می تواند با اتصال به سرویس پایگاه داده، اطلاعات مربوطه را نشان دهد. با توجه به Cloudflare، این رویکرد می سازد استنتاج در دسترس‌تر، سریع‌تر و منابع کم‌تری چون داده‌های مشتری را از خود مدل جدا می‌کند.

در کنار Workers AI و Vectorize، مجموعه هوش مصنوعی Cloudflare همچنین دارای پلتفرمی برای نظارت، بهینه‌سازی و مدیریت بارهای کاری استنتاج در مقیاس است.

این سرویس که دروازه هوش مصنوعی نامیده می‌شود، چندین ویژگی را که معمولاً با شبکه‌های تحویل محتوا و پروکسی‌های وب مرتبط هستند، مانند حافظه پنهان و محدود کردن نرخ، برای استنتاج هوش مصنوعی اعمال می‌کند تا به مشتریان در کنترل هزینه‌ها کمک کند.

این شرکت در پست وبلاگ توضیح می‌دهد: «با ذخیره‌سازی پاسخ‌های متداول هوش مصنوعی، تأخیر را کاهش می‌دهد و قابلیت اطمینان سیستم را تقویت می‌کند، در حالی که محدودیت نرخ تخصیص کارآمد منابع را تضمین می‌کند و چالش‌های ناشی از افزایش هزینه‌های هوش مصنوعی را کاهش می‌دهد».

قیمت گذاری و در دسترس بودن

Cloudflare خاطرنشان می کند که این سرویس هنوز در مراحل اولیه استقرار است و امروزه هفت سایت آنلاین است. با این حال، این شرکت در حال استقرار پردازنده‌های گرافیکی است تا این سرویس را تا پایان سال به 100 نقطه و تا پایان سال 2024 «تقریباً در همه جا» برساند.

در نتیجه، هنوز استقرار برنامه‌های تولیدی روی Workers AI را توصیه نمی‌کند و آن را به‌عنوان «بتای اولیه» توصیف می‌کند.

در پست وبلاگ آمده است: «آنچه امروز منتشر کردیم فقط یک پیش‌نمایش کوچک است تا به شما مزه آنچه را که در راه است بچشید.

طبق معمول، Cloudflare می‌گوید که در روز اول برای این سرویس صورت‌حساب نمی‌شود. با این گفته، انتظار دارد برای هر هزار «نرون منقبض معمولی» حدود یک سنت و برای هر هزار «نرون سریع انقباض» 0.125 دلار دریافت کند. تفاوت بین این دو در این است که مورد دوم نزدیکی به کاربر نهایی را در اولویت قرار می دهد، در حالی که هر دو ارزان تر در هر جایی که Cloudflare ظرفیت اضافی دارد اجرا می شود.

این شرکت توضیح داد که نورون ها راهی برای اندازه گیری خروجی هوش مصنوعی هستند و افزودند که هزار نورون برای حدود 130 پاسخ LLM، 830 طبقه بندی تصویر یا 1,250 جاسازی خوب است.

تمبر زمان:

بیشتر از ثبت نام