الذكاء الاصطناعي في الحافة لم يعد يعني الذكاء الاصطناعي الخافت

عقدة المصدر: 1579936

أحد جوانب الحكمة المتلقاة حول الذكاء الاصطناعي هو أن كل الابتكارات تبدأ في محركات التعلم الآلي/التدريب الكبيرة في السحابة. قد ينتقل بعض هذا الابتكار في النهاية بشكل مصغر/محدود إلى الحافة. يعكس هذا جزئيًا حداثة هذا المجال. وربما يعكس ذلك جزئيًا أيضًا الحاجة إلى حلول مُعبأة مسبقًا مقاس واحد يناسب العديد من أدوات إنترنت الأشياء. حيث أراد المصممون الذكاء في منتجاتهم ولكنهم لم يكونوا مستعدين تمامًا ليصبحوا خبراء في تصميم تعلم الآلة. ولكن الآن هؤلاء المصممين يلحقون بالركب. إنهم يقرأون نفس البيانات الصحفية والأبحاث التي نقوم بها جميعًا، كما يفعل منافسوهم. إنهم يريدون الاستفادة من نفس التقدم، مع الالتزام بقيود القوة والتكلفة.

الذكاء الاصطناعي في الحافة لم يعد يعني الذكاء الاصطناعي الخافت

التعرف على الوجه

تمايز الذكاء الاصطناعي على الحافة

الأمر كله يتعلق بالتمييز ضمن نطاق تكلفة/قوة مقبول. من الصعب الحصول على هذا من الحلول المعبأة مسبقًا. يمكن للمنافسين الوصول إلى نفس الحلول بعد كل شيء. ما تريده حقًا هو مجموعة من خيارات الخوارزمية المصممة في المعالج كمسرعات مخصصة جاهزة للاستخدام، مع القدرة على إضافة القيمة المضافة القائمة على البرامج الخاصة بك. قد تعتقد أنه لا يوجد الكثير مما يمكنك فعله هنا، باستثناء بعض الأمور الإدارية والضبط. لقد تغير الزمن. قدمت CEVA مؤخرًا معالج الذكاء الاصطناعي المضمن NeuPro-M الذي يسمح بالتحسين باستخدام بعض أحدث التطورات في تعلم الآلة، في عمق تصميم الخوارزمية.

حسنًا، مزيد من التحكم في الخوارزمية، ولكن لأي غرض؟ أنت تريد تحسين الأداء لكل واط، ولكن المقياس القياسي – TOPS/W – تقريبي للغاية. يجب قياس تطبيقات التصوير مقابل الإطارات في الثانية (fps) لكل واط. بالنسبة لتطبيقات الأمان، أو سلامة السيارات، أو تجنب اصطدام الطائرات بدون طيار، فإن أوقات التعرف لكل إطار أكثر أهمية بكثير من العمليات الأولية في الثانية. لذا فإن منصة مثل NeuPro-M التي يمكنها توفير ما يصل إلى آلاف الإطارات في الثانية/الواط من حيث المبدأ ستتعامل مع معدلات إطارات في الثانية واقعية تبلغ 30-60 إطارًا في الثانية بطاقة منخفضة جدًا. يعد هذا تقدمًا حقيقيًا في حلول الذكاء الاصطناعي التقليدية المعبأة مسبقًا.

مما يجعل من الممكن

يتم إنشاء الخوارزميات النهائية من خلال الاتصال بالميزات التي قرأت عنها، بدءًا بمجموعة واسعة من خيارات التكميم. الأمر نفسه ينطبق على تنوع نوع البيانات في التنشيط والأوزان عبر مجموعة من أحجام البتات. تدعم وحدة المضاعفة العصبية (NMU) على النحو الأمثل خيارات عرض البت المتعددة للتنشيط والأوزان مثل 8 × 2 أو 16 × 4 وستدعم أيضًا متغيرات مثل 8 × 10.

يدعم المعالج تحويلات Winograd أو التحويلات الفعالة، مما يوفر زيادة في الأداء تصل إلى 2X وطاقة أقل مع تدهور محدود في الدقة. أضف محرك سبارسيتي إلى النموذج لتسريع يصل إلى 4X اعتمادًا على كمية القيم الصفرية (سواء في البيانات أو الأوزان). هنا، تدعم وحدة المضاعفة العصبية أيضًا مجموعة من أنواع البيانات، الثابتة من 2×2 إلى 16×16، والنقطة العائمة (وBfloat) من 16×16 إلى 32×32.

يوفر منطق التدفق خيارات لقياس النقاط الثابتة والتنشيط والتجميع. يتيح لك المعالج المتجه إضافة طبقاتك المخصصة إلى النموذج. "وماذا في ذلك، الجميع يدعم ذلك"، قد تفكر ولكن انظر أدناه حول الإنتاجية. هناك أيضًا مجموعة من ميزات الذكاء الاصطناعي من الجيل التالي بما في ذلك محولات الرؤية والالتفاف ثلاثي الأبعاد ودعم RNN وتحلل المصفوفة.

الكثير من خيارات الخوارزمية، كلها مدعومة بتحسين الشبكة للحل المضمن الخاص بك من خلال إطار عمل CDNN لاستغلال قوة خوارزميات تعلم الآلة بشكل كامل. CDNN عبارة عن مزيج من مترجم الرسم البياني لاستنتاج الشبكة وأداة الوظيفة الإضافية PyTorch المخصصة. ستقوم هذه الأداة بتهذيب النموذج، ودعم ضغط النموذج بشكل اختياري من خلال تحليل المصفوفة، وإضافة إعادة تدريب مدركة للتكميم.

تحسين الإنتاجية

في معظم أنظمة الذكاء الاصطناعي، قد يتم التعامل مع بعض هذه الوظائف في محركات متخصصة، مما يتطلب تفريغ البيانات وتحميل التحويل مرة أخرى عند اكتماله. وهذا يمثل الكثير من الكمون الإضافي (وربما التنازلات في الطاقة)، ​​مما يقوض الأداء تمامًا في نموذجك القوي. يعمل NeuPro-M على التخلص من هذه المشكلة عن طريق الاتصال من جميع هذه المسرعات مباشرة إلى ذاكرة التخزين المؤقت L1 المشتركة. الحفاظ على عرض نطاق ترددي أعلى بكثير مما ستجده في المسرعات التقليدية.

وكمثال صارخ، وحدة معالجة المتجهات، التي تستخدم عادة لتحديد الطبقات المخصصة، تقع على نفس مستوى المسرعات الأخرى. تستفيد الخوارزميات التي يتم تنفيذها في وحدة VPU من نفس التسارع الذي يتمتع به باقي النموذج. مرة أخرى، لا حاجة إلى إلغاء التحميل وإعادة التحميل لتسريع الطبقات المخصصة. بالإضافة إلى ذلك، يمكن أن يكون لديك ما يصل إلى 8 من محركات NPM هذه (جميع المسرعات، بالإضافة إلى ذاكرة التخزين المؤقت NPM L1). يوفر NeuPro-M أيضًا مستوى كبيرًا من تحسين عرض النطاق الترددي الذي يتم التحكم فيه بواسطة البرنامج بين ذاكرة التخزين المؤقت L2 وذاكرة التخزين المؤقت L1، مما يؤدي إلى تحسين معالجة الإطار وتقليل الحاجة إلى الوصول إلى DDR.

ومن الطبيعي أن يقوم NeuPro-M أيضًا بتقليل حركة البيانات والوزن. بالنسبة للبيانات، تشترك المسرعات في نفس ذاكرة التخزين المؤقت L1. يمكن للمعالج المضيف توصيل البيانات مباشرة مع NeuPro-M L2، مما يقلل مرة أخرى من الحاجة إلى عمليات نقل DDR. تقوم تقنية NeuPro-M بضغط وفك ضغط الأوزان الموجودة على الشريحة أثناء النقل باستخدام ذاكرة DDR. ويمكن أن تفعل الشيء نفسه مع التنشيط.

والدليل في تسارع إطارا في الثانية / W

قامت CEVA بتشغيل معايير قياسية باستخدام مجموعة من الخوارزميات المصممة في المسرعات، بدءًا من الخوارزميات الأصلية وحتى Winograd، إلى Winograd+Sparsity، إلى Winograd+Sparsity+4×4. أظهر كلا المعيارين تحسينات في الأداء تصل إلى 3X، مع الطاقة (fps/W) بحوالي 5X بالنسبة إلى ISP NN. يوفر حل NeuPro-M مساحة أصغر وأداء 4X وثلث الطاقة مقارنة بالجيل السابق من NeuPro-S.

هناك اتجاه أراه بشكل عام للحصول على أقصى أداء من خلال الجمع بين خوارزميات متعددة. وهذا ما أتاحته CEVA الآن من خلال هذه المنصة. يمكنك قراءة المزيد هنا.

شارك هذا المنشور عبر: المصدر: https://semiwiki.com/artificial-intelligence/306655-ai-at-the-edge-no-longer-means-dumbed-down-ai/

الطابع الزمني:

اكثر من سيميويكي