تعظيم الأداء في تطبيقات Edge AI - KDnuggets

تعظيم الأداء في تطبيقات Edge AI - KDnuggets

عقدة المصدر: 2919295

مع انتقال الذكاء الاصطناعي من السحابة إلى الحافة، نرى التكنولوجيا تُستخدم في مجموعة متنوعة ومتزايدة باستمرار من حالات الاستخدام - بدءًا من الكشف عن الحالات الشاذة إلى التطبيقات بما في ذلك التسوق الذكي والمراقبة والروبوتات وأتمتة المصانع. وبالتالي، لا يوجد حل واحد يناسب الجميع. ولكن مع النمو السريع للأجهزة التي تدعم الكاميرا، تم اعتماد الذكاء الاصطناعي على نطاق واسع لتحليل بيانات الفيديو في الوقت الفعلي لأتمتة مراقبة الفيديو لتعزيز السلامة، وتحسين الكفاءة التشغيلية، وتوفير تجارب أفضل للعملاء، واكتساب ميزة تنافسية في نهاية المطاف في صناعاتهم. . لدعم تحليل الفيديو بشكل أفضل، يجب عليك فهم استراتيجيات تحسين أداء النظام في عمليات نشر الذكاء الاصطناعي.

  • اختيار محركات الحوسبة ذات الحجم المناسب لتلبية مستويات الأداء المطلوبة أو تجاوزها. بالنسبة لتطبيق الذكاء الاصطناعي، يجب أن تؤدي محركات الحوسبة هذه وظائف خط الرؤية بأكمله (أي المعالجة المسبقة واللاحقة للفيديو، واستدلال الشبكة العصبية).

قد تكون هناك حاجة إلى مسرع الذكاء الاصطناعي المخصص، سواء كان منفصلاً أو مدمجًا في شركة نفط الجنوب (على عكس تشغيل استنتاج الذكاء الاصطناعي على وحدة المعالجة المركزية أو وحدة معالجة الرسومات).

  • فهم الفرق بين الإنتاجية وزمن الوصول؛ حيث أن الإنتاجية هي معدل معالجة البيانات في النظام ويقيس زمن الوصول تأخير معالجة البيانات من خلال النظام وغالبًا ما يرتبط بالاستجابة في الوقت الفعلي. على سبيل المثال، يمكن للنظام إنشاء بيانات صورة بمعدل 100 إطار في الثانية (الإنتاجية) ولكن الأمر يستغرق 100 مللي ثانية (زمن الوصول) حتى تمر الصورة عبر النظام.   
  • النظر في القدرة على توسيع نطاق أداء الذكاء الاصطناعي بسهولة في المستقبل لاستيعاب الاحتياجات المتزايدة والمتطلبات المتغيرة والتقنيات المتطورة (على سبيل المثال، نماذج الذكاء الاصطناعي الأكثر تقدمًا لزيادة الوظائف والدقة). يمكنك تحقيق قياس الأداء باستخدام مسرعات الذكاء الاصطناعي بتنسيق الوحدة النمطية أو باستخدام شرائح تسريع الذكاء الاصطناعي الإضافية.

تعتمد متطلبات الأداء الفعلية على التطبيق. عادةً، يمكن للمرء أن يتوقع أنه بالنسبة لتحليلات الفيديو، يجب على النظام معالجة تدفقات البيانات الواردة من الكاميرات بمعدل 30-60 إطارًا في الثانية وبدقة 1080 بكسل أو 4 كيلو. ستقوم الكاميرا المدعمة بالذكاء الاصطناعي بمعالجة دفق واحد؛ يقوم جهاز الحافة بمعالجة تدفقات متعددة بالتوازي. في كلتا الحالتين، يجب أن يدعم نظام Edge AI وظائف المعالجة المسبقة لتحويل بيانات مستشعر الكاميرا إلى تنسيق يتوافق مع متطلبات الإدخال لقسم استنتاج الذكاء الاصطناعي (الشكل 1).

تأخذ وظائف المعالجة المسبقة البيانات الأولية وتنفذ مهام مثل تغيير الحجم والتطبيع وتحويل مساحة اللون، قبل تغذية المدخلات في النموذج الذي يعمل على مسرع الذكاء الاصطناعي. يمكن أن تستخدم المعالجة المسبقة مكتبات معالجة الصور الفعالة مثل OpenCV لتقليل أوقات المعالجة المسبقة. تتضمن المعالجة اللاحقة تحليل مخرجات الاستدلال. ويستخدم مهام مثل القمع غير الأقصى (يفسر NMS مخرجات معظم نماذج اكتشاف الكائنات) وعرض الصور لإنشاء رؤى قابلة للتنفيذ، مثل المربعات المحيطة أو تسميات الفصل أو درجات الثقة.

 

تعظيم الأداء في تطبيقات Edge AI
الشكل 1. بالنسبة للاستدلال على نموذج الذكاء الاصطناعي، يتم عادةً تنفيذ وظائف ما قبل وما بعد المعالجة على معالج التطبيقات.
 

يمكن أن يواجه استدلال نموذج الذكاء الاصطناعي تحديًا إضافيًا يتمثل في معالجة نماذج شبكات عصبية متعددة لكل إطار، اعتمادًا على قدرات التطبيق. تتضمن تطبيقات الرؤية الحاسوبية عادةً مهام متعددة للذكاء الاصطناعي تتطلب مجموعة من النماذج المتعددة. علاوة على ذلك، فإن مخرجات أحد النماذج غالبًا ما تكون مدخلات النموذج التالي. بمعنى آخر، غالبًا ما تعتمد النماذج الموجودة في التطبيق على بعضها البعض ويجب تنفيذها بشكل تسلسلي. مجموعة النماذج المحددة التي سيتم تنفيذها قد لا تكون ثابتة ويمكن أن تختلف ديناميكيًا، حتى على أساس كل إطار على حدة. 

يتطلب التحدي المتمثل في تشغيل نماذج متعددة ديناميكيًا مسرعًا خارجيًا للذكاء الاصطناعي مزودًا بذاكرة مخصصة وكبيرة بما يكفي لتخزين النماذج. غالبًا ما يكون مسرع الذكاء الاصطناعي المدمج داخل شركة نفط الجنوب غير قادر على إدارة عبء العمل متعدد النماذج بسبب القيود التي يفرضها النظام الفرعي للذاكرة المشتركة والموارد الأخرى في شركة نفط الجنوب.

على سبيل المثال، يعتمد تتبع الكائن القائم على التنبؤ بالحركة على الاكتشافات المستمرة لتحديد المتجه الذي يستخدم لتحديد الكائن المتعقب في موضع مستقبلي. فعالية هذا النهج محدودة لأنه يفتقر إلى القدرة الحقيقية على إعادة تحديد الهوية. من خلال التنبؤ بالحركة، يمكن فقدان مسار الجسم بسبب عدم اكتشافه أو الانسداد أو خروج الجسم من مجال الرؤية، حتى للحظات. بمجرد فقدانه، لا توجد طريقة لإعادة ربط مسار الكائن. تؤدي إضافة إعادة تحديد الهوية إلى حل هذا القيد ولكنها تتطلب تضمين مظهر مرئي (أي صورة بصمة). تتطلب تضمينات المظهر شبكة ثانية لإنشاء ناقل المعالم من خلال معالجة الصورة الموجودة داخل المربع المحيط للكائن الذي اكتشفته الشبكة الأولى. يمكن استخدام هذا التضمين لإعادة تعريف الكائن مرة أخرى، بغض النظر عن الزمان أو المكان. نظرًا لأنه يجب إنشاء عمليات التضمين لكل كائن يتم اكتشافه في مجال الرؤية، فإن متطلبات المعالجة تزداد كلما أصبح المشهد أكثر انشغالًا. يتطلب تتبع الكائنات مع إعادة تحديد الهوية دراسة متأنية بين أداء الكشف عالي الدقة / الدقة العالية / معدل الإطارات العالي وحجز الحمل الزائد الكافي لقابلية التوسع للتضمين. تتمثل إحدى طرق حل متطلبات المعالجة في استخدام مسرع الذكاء الاصطناعي المخصص. كما ذكرنا سابقًا، يمكن أن يعاني محرك الذكاء الاصطناعي الخاص بشركة SoC من نقص موارد الذاكرة المشتركة. يمكن أيضًا استخدام تحسين النموذج لتقليل متطلبات المعالجة، ولكنه قد يؤثر على الأداء و/أو الدقة.

في الكاميرا الذكية أو الأجهزة الطرفية، تحصل شركة SoC المدمجة (أي المعالج المضيف) على إطارات الفيديو وتنفذ خطوات المعالجة المسبقة التي وصفناها سابقًا. يمكن تنفيذ هذه الوظائف باستخدام مراكز وحدة المعالجة المركزية (CPU) أو وحدة معالجة الرسومات (GPU) الخاصة بشركة SoC (إذا كانت متوفرة)، ولكن يمكن أيضًا تنفيذها بواسطة مسرعات الأجهزة المخصصة في شركة SoC (على سبيل المثال، معالج إشارة الصورة). بعد اكتمال خطوات المعالجة المسبقة هذه، يمكن لمسرع الذكاء الاصطناعي المدمج في شركة نفط الجنوب الوصول مباشرة إلى هذا الإدخال الكمي من ذاكرة النظام، أو في حالة مسرع الذكاء الاصطناعي المنفصل، يتم بعد ذلك تسليم الإدخال للاستدلال، عادةً عبر واجهة USB أو PCIe. 

يمكن أن تحتوي شركة SoC المتكاملة على مجموعة من وحدات الحساب، بما في ذلك وحدات المعالجة المركزية (CPUs) ووحدات معالجة الرسومات (GPU) ومسرع الذكاء الاصطناعي (AI) ومعالجات الرؤية وأجهزة تشفير/فك تشفير الفيديو ومعالج إشارة الصورة (ISP) والمزيد. تشترك جميع وحدات الحساب هذه في نفس ناقل الذاكرة وبالتالي الوصول إلى نفس الذاكرة. علاوة على ذلك، قد يتعين على وحدة المعالجة المركزية ووحدة معالجة الرسومات أيضًا أن تلعب دورًا في الاستدلال وستكون هذه الوحدات مشغولة بتشغيل مهام أخرى في نظام منتشر. وهذا ما نعنيه بالنفقات العامة على مستوى النظام (الشكل 2).

يقوم العديد من المطورين عن طريق الخطأ بتقييم أداء مسرع الذكاء الاصطناعي المدمج في شركة نفط الجنوب دون النظر في تأثير الحمل على مستوى النظام على الأداء الإجمالي. على سبيل المثال، فكر في تشغيل معيار YOLO على مسرع 50 TOPS AI المدمج في SoC، والذي قد يحصل على نتيجة معيارية تبلغ 100 استدلال في الثانية (IPS). ولكن في نظام منتشر مع جميع الوحدات الحسابية الأخرى النشطة، يمكن تقليل تلك الـ 50 TOPS إلى ما يشبه 12 TOPS والأداء الإجمالي لن ينتج عنه سوى 25 IPS، بافتراض عامل استخدام سخي بنسبة 25%. يعد الحمل الزائد للنظام دائمًا عاملاً إذا كان النظام الأساسي يقوم بمعالجة تدفقات الفيديو بشكل مستمر. وبدلاً من ذلك، باستخدام مسرع الذكاء الاصطناعي المنفصل (على سبيل المثال، Kinara Ara-1 وHailo-8 وIntel Myriad X)، يمكن أن يكون الاستخدام على مستوى النظام أكبر من 90% لأنه بمجرد أن تبدأ شركة نفط الجنوب المضيفة وظيفة الاستدلال ونقل مدخلات نموذج الذكاء الاصطناعي البيانات، يعمل المسرع بشكل مستقل باستخدام ذاكرته المخصصة للوصول إلى أوزان النموذج والمعلمات.

 

تعظيم الأداء في تطبيقات Edge AI
الشكل 2. سيتحكم ناقل الذاكرة المشتركة في الأداء على مستوى النظام، كما هو موضح هنا مع القيم المقدرة. ستختلف القيم الحقيقية بناءً على نموذج استخدام التطبيق الخاص بك وتكوين وحدة الحوسبة الخاصة بـ SoC.

حتى هذه اللحظة، ناقشنا أداء الذكاء الاصطناعي من حيث الإطارات في الثانية وTOPS. لكن الكمون المنخفض يعد متطلبًا مهمًا آخر لتوفير استجابة النظام في الوقت الفعلي. على سبيل المثال، في الألعاب، يعد زمن الوصول المنخفض أمرًا بالغ الأهمية للحصول على تجربة ألعاب سلسة وسريعة الاستجابة، خاصة في الألعاب التي يتم التحكم فيها بالحركة وأنظمة الواقع الافتراضي (VR). في أنظمة القيادة الذاتية، يعد زمن الوصول المنخفض أمرًا حيويًا لاكتشاف الأشياء في الوقت الفعلي، والتعرف على المشاة، واكتشاف الممرات، والتعرف على إشارات المرور لتجنب المساس بالسلامة. تتطلب أنظمة القيادة الذاتية عادةً زمن وصول شامل أقل من 150 مللي ثانية من الاكتشاف إلى الإجراء الفعلي. وبالمثل، في مجال التصنيع، يعد زمن الوصول المنخفض أمرًا ضروريًا لاكتشاف العيوب في الوقت الفعلي، والتعرف على الحالات الشاذة، ويعتمد التوجيه الآلي على تحليلات الفيديو ذات زمن الوصول المنخفض لضمان التشغيل الفعال وتقليل وقت توقف الإنتاج.

بشكل عام، هناك ثلاثة مكونات لزمن الوصول في تطبيق تحليلات الفيديو (الشكل 3):

  • زمن انتقال التقاط البيانات هو الوقت من التقاط مستشعر الكاميرا لإطار فيديو إلى توفر الإطار لنظام التحليلات للمعالجة. يمكنك تحسين زمن الاستجابة هذا عن طريق اختيار كاميرا مزودة بمستشعر سريع ومعالج منخفض زمن الاستجابة، واختيار معدلات الإطارات المثالية، واستخدام تنسيقات ضغط الفيديو الفعالة.
  • زمن انتقال نقل البيانات هو الوقت الذي تنتقل فيه بيانات الفيديو الملتقطة والمضغوطة من الكاميرا إلى الأجهزة الطرفية أو الخوادم المحلية. يتضمن ذلك تأخيرات معالجة الشبكة التي تحدث عند كل نقطة نهاية.
  • يشير زمن وصول معالجة البيانات إلى الوقت الذي تستغرقه أجهزة الحافة في تنفيذ مهام معالجة الفيديو مثل إلغاء ضغط الإطار وخوارزميات التحليلات (على سبيل المثال، تتبع الكائنات القائم على التنبؤ بالحركة، والتعرف على الوجه). كما أشرنا سابقًا، يعد زمن الوصول للمعالجة أكثر أهمية بالنسبة للتطبيقات التي يجب أن تقوم بتشغيل نماذج ذكاء اصطناعي متعددة لكل إطار فيديو.

 

تعظيم الأداء في تطبيقات Edge AI
الشكل 3. يتكون خط أنابيب تحليلات الفيديو من التقاط البيانات ونقل البيانات ومعالجة البيانات.
 

يمكن تحسين زمن استجابة معالجة البيانات باستخدام مسرع الذكاء الاصطناعي مع بنية مصممة لتقليل حركة البيانات عبر الشريحة وبين الحوسبة والمستويات المختلفة للتسلسل الهرمي للذاكرة. أيضًا، لتحسين زمن الوصول والكفاءة على مستوى النظام، يجب أن تدعم البنية وقت التبديل الصفري (أو القريب من الصفر) بين النماذج، لدعم التطبيقات متعددة النماذج التي ناقشناها سابقًا بشكل أفضل. هناك عامل آخر لتحسين الأداء وزمن الوصول يتعلق بالمرونة الخوارزمية. بمعنى آخر، تم تصميم بعض البنيات لتحقيق السلوك الأمثل فقط في نماذج محددة للذكاء الاصطناعي، ولكن مع بيئة الذكاء الاصطناعي سريعة التغير، تظهر نماذج جديدة لأداء أعلى ودقة أفضل فيما يبدو كل يوم. لذلك، حدد معالج Edge AI دون أي قيود عملية على هيكل النموذج والمشغلين والحجم.

هناك العديد من العوامل التي يجب أخذها في الاعتبار عند تعظيم الأداء في جهاز Edge AI، بما في ذلك متطلبات الأداء وزمن الوصول وعبء النظام. يجب أن تأخذ الإستراتيجية الناجحة في الاعتبار مسرع الذكاء الاصطناعي الخارجي للتغلب على قيود الذاكرة والأداء في محرك الذكاء الاصطناعي الخاص بشركة نفط الجنوب.
 
 
م. تشي هو مدير تنفيذي بارع لتسويق وإدارة المنتجات، ويتمتع Chee بخبرة واسعة في الترويج للمنتجات والحلول في صناعة أشباه الموصلات، مع التركيز على الذكاء الاصطناعي القائم على الرؤية والاتصال وواجهات الفيديو لأسواق متعددة بما في ذلك المؤسسات والمستهلكين. بصفته رجل أعمال، شارك تشي في تأسيس شركتين ناشئتين لأشباه موصلات الفيديو، تم الاستحواذ عليهما من قبل شركة عامة لأشباه الموصلات. قاد تشي فرق تسويق المنتجات ويستمتع بالعمل مع فريق صغير يركز على تحقيق نتائج رائعة.
 

الطابع الزمني:

اكثر من KD nuggets