حاجز طويل الأمد أمام القيادة الذاتية القابلة للتطبيق في المستوى 4/المستوى 5 واستدلال الذكاء الاصطناعي التوليدي على الحافة - Semiwiki

عقبة طويلة الأمد أمام القيادة الذاتية القابلة للتطبيق في المستوى 4/المستوى 5 واستدلال الذكاء الاصطناعي التوليدي على الحافة - Semiwiki

عقدة المصدر: 2934975

هناك اثنتين من التقنيات الخوارزمية الحديثة القائمة على البرمجيات - القيادة الذاتية (ADAS/AD) والذكاء الاصطناعي التوليدي (GenAI) - تعملان على إبقاء مجتمع هندسة أشباه الموصلات مستيقظًا في الليل.

في حين أن ADAS في المستوى 2 والمستوى 3 يسير على الطريق الصحيح، فإن AD في المستويين 4 و 5 بعيدان عن الواقع، مما يتسبب في انخفاض حماس رأس المال الاستثماري والمال. اليوم، تحظى GenAI بالاهتمام، وتستثمر شركات رأس المال الاستثماري بشغف مليارات الدولارات.

تعتمد كلتا التقنيتين على خوارزميات حديثة ومعقدة. تشترك معالجة تدريبهم واستدلالهم في بعض السمات، بعضها بالغ الأهمية، والبعض الآخر مهم ولكنه ليس ضروريًا: انظر الجدول الأول.

استنتاج الذكاء الاصطناعي التوليدي على الحافة
الجدول الأول: التدريب على الخوارزميات والاستدلال يتشاركان في بعض السمات المهمة وليس كلها. المصدر: VSORA

لم يتم حتى الآن تكرار التقدم الملحوظ في البرامج في هذه التقنيات من خلال التقدم في الأجهزة الخوارزمية لتسريع تنفيذها. على سبيل المثال، لا تتمتع المعالجات الخوارزمية المتطورة بالأداء اللازم للرد على استعلامات ChatGPT-4 في ثانية أو ثانيتين بتكلفة 2 سنت لكل استعلام، وهو المعيار الذي وضعه بحث Google، أو لمعالجة البيانات الضخمة. يتم جمعها بواسطة أجهزة استشعار AD في أقل من 20 مللي ثانية.

وذلك حتى استثمرت شركة VSORA الفرنسية الناشئة قدراتها العقلية لمعالجة عنق الزجاجة في الذاكرة المعروف باسم جدار الذاكرة.

جدار الذاكرة

تم وصف جدار الذاكرة لوحدة المعالجة المركزية لأول مرة من قبل وولف وماكي في عام 1994. ومنذ ذلك الحين، أصبح الوصول إلى الذاكرة بمثابة عنق الزجاجة لأداء الحوسبة. لم ينعكس التقدم في أداء المعالج في التقدم في الوصول إلى الذاكرة، مما دفع المعالجات إلى الانتظار لفترة أطول من أي وقت مضى للبيانات التي تقدمها الذكريات. في النهاية، تنخفض كفاءة المعالج إلى أقل من 100%.

ولحل المشكلة، أنشأت صناعة أشباه الموصلات بنية ذاكرة هرمية متعددة المستويات مع مستويات متعددة من ذاكرة التخزين المؤقت بالقرب من المعالج مما يقلل من مقدار حركة المرور مع الذكريات الرئيسية والخارجية الأبطأ.

يعتمد أداء معالجات AD وGenAI أكثر من الأنواع الأخرى من أجهزة الحوسبة على النطاق الترددي الواسع للذاكرة.

ابتكرت VSORA، التي تأسست في عام 2015 لاستهداف تطبيقات 5G، بنية حاصلة على براءة اختراع تعمل على تفكيك بنية الذاكرة الهرمية إلى نطاق ترددي كبير وعالي، وذاكرة مقترنة بإحكام (TCM) يمكن الوصول إليها في دورة ساعة واحدة.

من منظور نوى المعالج، يبدو جهاز TCM وكأنه بحر من السجلات بحجم ميغابايت مقابل كيلو بايت من السجلات الفعلية الفعلية. تؤدي القدرة على الوصول إلى أي خلية ذاكرة في TMC في دورة واحدة إلى سرعة تنفيذ عالية، وزمن وصول منخفض، واستهلاك منخفض للطاقة. كما يتطلب مساحة أقل من السيليكون. تحميل بيانات جديدة من الذاكرة الخارجية إلى TCM أثناء معالجة البيانات الحالية لا يؤثر على إنتاجية النظام. بشكل أساسي، تسمح البنية باستخدام 80+% من وحدات المعالجة من خلال تصميمها. ومع ذلك، هناك إمكانية لإضافة ذاكرة تخزين مؤقت وذاكرة مسودة إذا رغب مصمم النظام في ذلك. انظر الشكل 1.

القيادة الذاتية واستدلال الذكاء الاصطناعي التوليدي على الحافة
شرح الشكل 1: بنية الذاكرة الهرمية التقليدية كثيفة ومعقدة. نهج VSORA مبسط وهرمي.

من خلال بنية ذاكرة شبيهة بالسجل يتم تنفيذها في جميع الذكريات تقريبًا عبر جميع التطبيقات، لا يمكن المبالغة في تقدير ميزة نهج ذاكرة VSORA. عادةً ما توفر معالجات GenAI المتطورة كفاءة بنسبة مئوية واحدة. على سبيل المثال، يوفر معالج GenAI ذو الإنتاجية الاسمية التي تبلغ بيتافلوب واحد من الأداء الاسمي ولكن بكفاءة أقل من 5% أداءً قابلاً للاستخدام أقل من 50 تيرافلوب. وبدلاً من ذلك، تحقق بنية VSORA كفاءة أكبر بأكثر من 10 مرات.

مسرعات خوارزمية VSORA

قدمت VSORA فئتين من المسرعات الخوارزمية - عائلة Tyr لتطبيقات AD وعائلة Jotunn لتسريع GenAI. يوفر كلاهما إنتاجية ممتازة، والحد الأدنى من الكمون، واستهلاك منخفض للطاقة في بصمة سيليكون صغيرة.

مع الأداء الاسمي الذي يصل إلى ثلاثة بيتافلوب، فإنها تتميز بكفاءة تنفيذ نموذجية تتراوح من 50 إلى 80% بغض النظر عن نوع الخوارزمية، واستهلاك طاقة يصل إلى 30 وات/بيتافلوب. هذه سمات ممتازة، لم يتم الإبلاغ عنها بواسطة أي مسرع تنافسي للذكاء الاصطناعي حتى الآن.

Tyr وJotunn قابلان للبرمجة بالكامل ويدمجان قدرات الذكاء الاصطناعي ومعالجة الإشارات الرقمية، وإن كان ذلك بكميات مختلفة، ويدعمان الاختيار الفوري للحسابات من 8 بت إلى 64 بت إما على أساس عدد صحيح أو الفاصلة العائمة. تستوعب قابلية برمجتها عالمًا من الخوارزميات، مما يجعلها لا تعرف الخوارزميات. يتم أيضًا دعم عدة أنواع مختلفة من التناثر.

تدفعهم سمات معالجات VSORA إلى صدارة مشهد المعالجة الخوارزمية التنافسي.

برامج دعم VSORA

صممت VSORA منصة فريدة للتجميع/التحقق من الصحة مصممة خصيصًا لبنية أجهزتها لضمان حصول أجهزتها SoC المعقدة وعالية الأداء على الكثير من دعم البرامج.

من المفترض أن يتم وضع المصمم الخوارزمي في قمرة القيادة، حيث تقدم مجموعة من مستويات التحقق/التحقق الهرمية - ESL، والهجين، وRTL، والبوابة - ردود فعل بضغطة زر إلى المهندس الخوارزمي استجابةً لاستكشافات الفضاء التصميمية. وهذا يساعده على اختيار أفضل حل وسط بين الأداء وزمن الوصول والطاقة والمساحة. يمكن تعيين كود البرمجة المكتوب بمستوى عالٍ من التجريد لاستهداف نوى معالجة مختلفة بشفافية للمستخدم.

يمكن تنفيذ التواصل بين النوى داخل نفس السيليكون، أو بين الرقائق الموجودة على نفس PCB أو من خلال اتصال IP. تتم إدارة المزامنة بين النوى تلقائيًا في وقت التجميع ولا تتطلب عمليات برمجية في الوقت الفعلي.

حاجز للقيادة الذاتية L4/L5 واستدلال الذكاء الاصطناعي التوليدي على الحافة

يجب أن يتضمن الحل الناجح أيضًا إمكانية البرمجة في الميدان. تتطور الخوارزميات بسرعة، مدفوعة بأفكار جديدة عفا عليها الزمن بين عشية وضحاها. تعد القدرة على ترقية الخوارزمية في الميدان ميزة جديرة بالملاحظة.

في حين أن الشركات ذات الحجم الكبير تقوم بتجميع مزارع حوسبة ضخمة تحتوي على عدد كبير من معالجاتها عالية الأداء للتعامل مع خوارزميات البرامج المتقدمة، فإن هذا النهج عملي فقط للتدريب، وليس للاستدلال عند الحافة.

يعتمد التدريب عادةً على حسابات الفاصلة العائمة 32 بت أو 64 بت التي تولد كميات كبيرة من البيانات. إنه لا يفرض زمن وصول صارم ويتحمل استهلاك الطاقة العالية بالإضافة إلى التكلفة الكبيرة.

يتم إجراء الاستدلال عند الحافة عادةً على حساب الفاصلة العائمة 8 بت الذي يولد كميات أقل إلى حد ما من البيانات، ولكنه يتطلب زمن انتقال لا هوادة فيه، واستهلاك منخفض للطاقة، وتكلفة منخفضة.

تأثير استهلاك الطاقة على الكمون والكفاءة

يهيمن على استهلاك الطاقة في دوائر CMOS المرحلية حركة البيانات وليس معالجة البيانات.

أظهرت دراسة أجرتها جامعة ستانفورد بقيادة البروفيسور مارك هورويتز أن استهلاك الطاقة للوصول إلى الذاكرة يستهلك طاقة بحجم أكبر من حسابات المنطق الرقمي الأساسية. انظر الجدول الثاني.

القيادة الذاتية واستدلال الذكاء الاصطناعي التوليدي على الحافة
التسمية التوضيحية للجدول الثاني: تتبدد الأعداد والمضاعفات من أقل من بيكوجول واحد عند استخدام حساب الأعداد الصحيحة إلى عدد قليل من بيكوجول عند معالجة حساب النقطة العائمة. تقفز الطاقة المستهلكة في الوصول إلى البيانات في ذاكرة التخزين المؤقت بمقدار أمر واحد من حيث الحجم إلى 20-100 PicoJoule وما يصل إلى ثلاثة أوامر من حيث الحجم إلى أكثر من 1,000 PicoJoule عند الوصول إلى البيانات في DRAM. المصدر: جامعة ستانفورد.

تعد مسرعات AD وGenAI من الأمثلة الرئيسية للأجهزة التي تهيمن عليها حركة البيانات مما يشكل تحديًا لاحتواء استهلاك الطاقة.

وفي الختام

يشكل استنتاج AD وGenAI تحديات غير تافهة لتحقيق تطبيقات ناجحة. يمكن لشركة VSORA تقديم حل شامل للأجهزة وبرامج دعم لتلبية جميع المتطلبات الهامة للتعامل مع AD L4/L5 وGenAI مثل تسريع GPT-4 بتكاليف قابلة للتطبيق تجاريًا.

يمكن العثور على مزيد من التفاصيل حول VSORA وTyr وJotunn على الموقع www.vsora.com.

حول لاورو ريزاتي

لاورو ريزاتي هو مستشار أعمال لـ VSORA، وهي شركة ناشئة مبتكرة تقدم حلول IP للسيليكون ورقائق السيليكون، ومستشار تحقق مشهور وخبير في الصناعة في مجال محاكاة الأجهزة. في السابق، شغل مناصب في الإدارة وتسويق المنتجات والتسويق الفني والهندسة.

اقرأ أيضا:

تعمل Soitec على هندسة مستقبل صناعة أشباه الموصلات

ISO 21434 لتطوير SoC المدرك للأمن السيبراني

الصيانة التنبؤية في سياق السلامة الوظيفية للسيارات

شارك هذا المنشور عبر:

الطابع الزمني:

اكثر من سيميويكي