A 2021 Guide To Semantic Segmentation

أعاد نشره أفلاطون

المتابعون: 0

مقدمة

لقد كان التعلم العميق ناجحًا للغاية عند العمل مع الصور كبيانات وهو حاليًا في مرحلة يعمل فيها بشكل أفضل من البشر في حالات الاستخدام المتعددة. أهم المشكلات التي اهتم الإنسان بحلها برؤية الكمبيوتر هي تصنيف الصور وكشف الكائن وتجزئة بترتيب الصعوبة المتزايد.

في المهمة القديمة البسيطة لتصنيف الصور ، نحن مهتمون فقط بالحصول على تسميات جميع الكائنات الموجودة في الصورة. في اكتشاف الكائن ، نتقدم خطوة أخرى ونحاول معرفة كل الكائنات الموجودة في الصورة ، والموقع الذي توجد فيه الكائنات بمساعدة المربعات المحيطة. يأخذها تجزئة الصورة إلى مستوى جديد من خلال محاولة اكتشاف الحدود الدقيقة للكائنات في الصورة بدقة.

المصدر http://cs224d.stanford.edu/index.html

في هذه المقالة سنتناول مفهوم تجزئة الصور هذا ، ونناقش حالات الاستخدام ذات الصلة ، وبنى الشبكات العصبية المختلفة المشاركة في تحقيق النتائج ، والمقاييس ومجموعات البيانات التي يجب استكشافها.

ما هو تجزئة الصورة

نحن نعلم أن الصورة ليست سوى مجموعة من وحدات البكسل. تجزئة الصورة هي عملية تصنيف كل بكسل في صورة تنتمي إلى فئة معينة ، وبالتالي يمكن اعتبارها مشكلة تصنيف لكل بكسل. هناك نوعان من تقنيات التجزئة

Source http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf

التجزئة الدلالية : - التجزئة الدلالية هي عملية تصنيف كل بكسل ينتمي إلى علامة معينة. لا يختلف عبر مثيلات مختلفة من نفس الكائن. على سبيل المثال ، إذا كان هناك قطتان في صورة ما ، فإن التقسيم الدلالي يعطي نفس التسمية لجميع وحدات البكسل لكلتا القطتين
تجزئة المثيل : - يختلف تجزئة المثيل عن التجزئة الدلالية بمعنى أنه يعطي تسمية فريدة لكل مثيل لكائن معين في الصورة. كما يتضح في الصورة أعلاه ، يتم تخصيص ألوان مختلفة لكل الكلاب الثلاثة ، أي تسميات مختلفة. باستخدام التجزئة الدلالية ، سيتم تخصيص نفس اللون لكل منهم.

لذا نصل الآن إلى النقطة التي نحتاج فيها إلى هذا النوع من الخوارزمية

استخدام حالات تجزئة الصورة

التعرف على خط اليد : - أظهر Junjo et جميعًا كيفية استخدام التجزئة الدلالية لاستخراج الكلمات والأسطر من المستندات المكتوبة بخط اليد في ملفات ورقة بحثية 2019 للتعرف على الحروف المكتوبة بخط اليد

الوضع الرأسي من Google : - هناك العديد من حالات الاستخدام حيث من الضروري للغاية فصل المقدمة عن الخلفية. على سبيل المثال ، في الوضع الرأسي لـ Google ، يمكننا رؤية الخلفية غير واضحة بينما تظل المقدمة بدون تغيير لإعطاء تأثير رائع

المصدر: - https://ai.googleblog.com/2018/03/mobile-real-time-video-segmentation.html

قصص يوتيوب : - أصدرت Google مؤخرًا ميزة قصص YouTube لمنشئي المحتوى لإظهار خلفيات مختلفة أثناء إنشاء القصص.

المكياج الافتراضي : - أصبح من الممكن الآن تطبيق عصا الشفاه الافتراضية بمساعدة تجزئة الصورة

المصدر: - https://www.theverge.com/2017/3/16/14946086/sephora-virtual-assistant-ios-app-update-ar-makeup

4-المحاولة الافتراضية : - تعد التجربة الافتراضية للملابس ميزة مثيرة للاهتمام والتي كانت متوفرة في المتاجر باستخدام أجهزة متخصصة مما يؤدي إلى إنشاء نموذج ثلاثي الأبعاد. ولكن مع التعلم العميق وتجزئة الصور ، يمكن الحصول على نفس الشيء باستخدام صورة ثنائية الأبعاد فقط

المصدر: - https://arxiv.org/pdf/1807.07688.pdf

البحث عن الصور المرئية : - تستخدم فكرة تجزئة الملابس أيضًا في خوارزميات استرجاع الصور في التجارة الإلكترونية. على سبيل المثال ، يتيح لك Pinterest / Amazon تحميل أي صورة والحصول على منتجات مماثلة ذات صلة عن طريق إجراء بحث عن الصور استنادًا إلى تقسيم جزء القماش

المصدر: - https://github.com/paucarre/tiefvision

سيارات ذاتية القيادة : - تحتاج السيارات ذاتية القيادة إلى فهم كامل لما يحيط بها إلى مستوى مثالي من البكسل. ومن ثم يتم استخدام تجزئة الصورة لتحديد الممرات والمعلومات الضرورية الأخرى

المصدر: - https://medium.com/intro-to-artuable-intelligence/semantic-segmentation-udaitys-self-driving-car-engineer-nanodegree-c01eb6eaf9d

تساعد Nanonets شركات Fortune 500 على تمكين تجارب عملاء أفضل على نطاق واسع باستخدام التجزئة الدلالية.

الأساليب والتقنيات

قبل ظهور التعلم العميق ، تم استخدام تقنيات التعلم الآلي الكلاسيكية مثل SVM و Random Forest و K-mean Clustering لحل مشكلة تجزئة الصور. ولكن كما هو الحال مع معظم بيانات المشكلة المتعلقة بالصورة ، فقد عمل التعلم العميق بشكل أفضل من التقنيات الحالية وأصبح معيارًا الآن عند التعامل مع التجزئة الدلالية. دعنا نراجع التقنيات المستخدمة لحل المشكلة

شبكة تلافيفية بالكامل

تتكون البنية العامة لشبكة CNN من عدد قليل من الطبقات التلافيفية والتجميعية تليها طبقات قليلة متصلة بالكامل في النهاية. تجادل الورقة البحثية الخاصة بشبكة التلافيف الكاملة التي تم إصدارها في عام 2014 بأن الطبقة النهائية المتصلة بالكامل يمكن اعتبارها بمثابة التفاف 1 × 1 يغطي المنطقة بأكملها.

المصدر: - https://arxiv.org/abs/1411.4038

ومن ثم يمكن استبدال الطبقات الكثيفة النهائية بطبقة التفاف لتحقيق نفس النتيجة. لكن ميزة القيام بذلك الآن هي أن حجم المدخلات لا يحتاج إلى إصلاح بعد الآن. عند تضمين طبقات كثيفة ، يكون حجم المدخلات مقيدًا ، وبالتالي عندما يتعين توفير مدخلات مختلفة الحجم ، يجب تغيير حجمها. ولكن باستبدال طبقة كثيفة الالتواء ، فإن هذا القيد غير موجود.

أيضًا عندما يتم توفير حجم أكبر للصورة كمدخل ، سيكون الإخراج الناتج عبارة عن خريطة معالم وليس مجرد إخراج فئة مثل صورة ذات حجم إدخال عادي. كما أن السلوك الملحوظ لخريطة المعالم النهائية يمثل خريطة الحرارة للفئة المطلوبة ، أي أن موضع الكائن مظلل في خريطة المعالم. نظرًا لأن إخراج خريطة المعالم عبارة عن خريطة حرارية للكائن المطلوب ، فهي معلومات صالحة لحالة استخدامنا للتجزئة.

نظرًا لأن خريطة المعالم التي تم الحصول عليها في طبقة المخرجات هي عينة لأسفل بسبب مجموعة التلافيف التي تم إجراؤها ، فإننا نرغب في أخذ عينة منها باستخدام تقنية الاستيفاء. يعمل أخذ العينات خطيًا ولكن الورقة تقترح استخدام أخذ العينات المكتسبة مع deconvolution والذي يمكنه حتى تعلم أخذ العينات غير الخطي.

يُطلق على جزء أخذ العينات لأسفل من الشبكة اسم المشفر ويسمى جزء أخذ العينات العلوي جهاز فك التشفير. هذا هو النمط الذي سنراه في العديد من البنى ، أي تقليل الحجم باستخدام المشفر ثم زيادة أخذ العينات باستخدام مفكك التشفير. في عالم مثالي ، لا نرغب في تقليل العينة باستخدام التجميع والحفاظ على نفس الحجم طوال الوقت ، ولكن هذا سيؤدي إلى قدر هائل من المعلمات وسيكون غير ممكن من الناحية الحسابية.

على الرغم من أن نتائج المخرجات التي تم الحصول عليها كانت جيدة ، إلا أن الناتج الملاحظ تقريبي وغير سلس. والسبب في ذلك هو فقد المعلومات في طبقة المعالم النهائية بسبب الاختزال بمقدار 32 مرة باستخدام طبقات الالتفاف. أصبح الآن من الصعب جدًا على الشبكة إجراء اختزال 32 ضعفًا باستخدام هذه المعلومات القليلة. هذه العمارة تسمى FCN-32

لمعالجة هذه المشكلة ، اقترحت الورقة معمارتين أخريين FCN-2 و FCN-16. في FCN-8 ، يتم استخدام المعلومات من طبقة التجميع السابقة جنبًا إلى جنب مع خريطة الميزات النهائية ، وبالتالي فإن مهمة الشبكة الآن هي تعلم أخذ العينات بمعدل 16 ضعفًا وهو أفضل مقارنة بـ FCN-16. يحاول FCN-32 تحسينه من خلال تضمين معلومات من طبقة تجميع سابقة أخرى.

أونيت

U-net يبني على قمة الشبكة التلافيفية بالكامل من أعلى. تم تصميمه للأغراض الطبية للعثور على الأورام في الرئتين أو الدماغ. وهو يتألف أيضًا من جهاز تشفير يقوم بتدوين عينات الصورة المدخلة إلى خريطة المعالم ووحدة فك التشفير التي تقوم بتجميع خريطة المعالم لإدخال حجم الصورة باستخدام طبقات deconvolution المكتسبة.

المصدر: - https://arxiv.org/abs/1505.04597

المساهمة الرئيسية لبنية U-Net هي اتصالات الاختصار. رأينا أعلاه في FCN أنه نظرًا لأننا اختزلنا عينة من الصورة كجزء من برنامج التشفير فقدنا الكثير من المعلومات التي لا يمكن استعادتها بسهولة في جزء التشفير. يحاول FCN معالجة هذا عن طريق أخذ المعلومات من طبقات التجميع قبل طبقة المعالم النهائية.

تقترح U-Net طريقة جديدة لحل مشكلة فقدان المعلومات هذه. يقترح إرسال المعلومات إلى كل طبقة أخذ عينات في وحدة فك التشفير من طبقة أخذ العينات المقابلة في المشفر كما يمكن رؤيته في الشكل أعلاه وبالتالي التقاط معلومات أدق مع الحفاظ أيضًا على انخفاض الحساب. نظرًا لأن الطبقات في بداية المشفر ستحتوي على مزيد من المعلومات ، فإنها ستعزز عملية أخذ العينات من وحدة فك التشفير من خلال توفير تفاصيل دقيقة تتوافق مع صور الإدخال وبالتالي تحسين النتائج كثيرًا. اقترحت الورقة أيضًا استخدام وظيفة خسارة جديدة والتي سنناقشها أدناه.

ديب لاب

اقترح Deeplab من مجموعة من الباحثين من Google العديد من التقنيات لتحسين النتائج الحالية والحصول على نتائج دقيقة بتكاليف حسابية أقل. التحسينات الثلاثة الرئيسية المقترحة كجزء من البحث هي

1) التلافيف الأذينية
2) التجمع الهرمي الأذيني المكاني
3) استخدام الحقول العشوائية المشروطة لتحسين الإخراج النهائي
دعونا نناقش كل هذا

الالتواء الأذيني

واحدة من المشاكل الرئيسية في نهج FCN هو التقليص المفرط لحجم عمليات التجميع المتتالية. نظرًا لسلسلة التجميع ، يتم أخذ عينات من صورة الإدخال بمقدار 32x والتي يتم أخذ عينات منها مرة أخرى للحصول على نتيجة التجزئة. يؤدي الاختزال بمقدار 32x إلى فقدان المعلومات وهو أمر بالغ الأهمية للحصول على مخرجات جيدة في مهمة التجزئة. كما أن فك الارتباط لزيادة العينة بمقدار 32x يعد عملية مكلفة للحساب والذاكرة نظرًا لوجود معلمات إضافية متضمنة في تكوين أخذ العينات المكتسبة.

تقترح الورقة استخدام الالتواء الأذيني أو الالتواء الثقب أو الالتواء الموسع الذي يساعد في فهم السياق الكبير باستخدام نفس العدد من المعلمات.

Source:- https://www.mdpi.com/1424-8220/19/24/5361/htm

يعمل الالتواء الموسع عن طريق زيادة حجم المرشح عن طريق إلحاق الأصفار (تسمى الثقوب) لملء الفجوة بين المعلمات. يتم استدعاء عدد الثقوب / الأصفار المملوءة بين معلمات المرشح بمعدل تمدد المصطلح. عندما يكون المعدل مساوياً لـ 1 فهو ليس سوى الالتواء الطبيعي. عندما يساوي المعدل 2 ، يتم إدخال صفر واحد بين كل معلمة أخرى مما يجعل المرشح يبدو وكأنه التفاف 5 × 5. الآن لديها القدرة على الحصول على سياق التفاف 5 × 5 مع وجود معلمات التفاف 3 × 3. وبالمثل بالنسبة للمعدل 3 يذهب المجال الاستقبالي إلى 7 × 7.

في Deeplab ، يتم استبدال طبقات التجميع الأخيرة بخطوة 1 بدلاً من 2 وبالتالي الحفاظ على معدل أخذ العينات إلى 8x فقط. ثم يتم تطبيق سلسلة من التلافيف الأذينية لالتقاط السياق الأكبر. للتدريب ، يتم تقليل حجم القناع المسمى الإخراج بمقدار 8x لمقارنة كل بكسل. للاستدلال ، يتم استخدام أخذ العينات ثنائية الخطوط لإنتاج مخرجات من نفس الحجم مما يعطي نتائج مناسبة كافية بتكاليف حسابية / ذاكرة أقل نظرًا لأن أخذ العينات ثنائي الخطوط لا يحتاج إلى أي معلمات بدلاً من التفكيك لأخذ العينات.

ASPP

التجميع الهرمي المكاني هو مفهوم تم تقديمه في SPPNet لالتقاط معلومات متعددة المقاييس من خريطة المعالم. قبل إدخال صور إدخال SPP بدقة مختلفة يتم توفيرها ويتم استخدام خرائط الميزات المحسوبة معًا للحصول على معلومات متعددة المقاييس ولكن هذا يستغرق المزيد من الحساب والوقت. باستخدام Spatial Pyramidal Pooling ، يمكن التقاط معلومات متعددة المقاييس باستخدام صورة إدخال واحدة.

المصدر: - http://kaiminghe.com/eccv14sppnet/index.html

باستخدام وحدة SPP ، تنتج الشبكة 3 مخرجات بأبعاد 1 × 1 (أي GAP) و 2 × 2 و 4 × 4. يتم ربط هذه القيم عن طريق التحويل إلى متجه 1d وبالتالي التقاط المعلومات بمقاييس متعددة. ميزة أخرى لاستخدام SPP يمكن توفير صور الإدخال من أي حجم.

تأخذ ASPP مفهوم دمج المعلومات من مقاييس مختلفة وتطبيقها على التلافيف Atrous. يتم تحويل المدخلات بمعدلات تمدد مختلفة ويتم دمج مخرجاتها معًا.

المصدر: - http://liangchiehchen.com/projects/DeepLab.html

كما يتضح ، يتم تحويل المدخلات باستخدام مرشحات 3 × 3 بمعدلات تمدد 6 و 12 و 18 و 24 ويتم تجميع المخرجات معًا نظرًا لأنها من نفس الحجم. يتم أيضًا إضافة خرج التفاف 1 × 1 إلى الإخراج المدمج. ولتوفير المعلومات العالمية أيضًا ، تمت إضافة مخرجات GAP أيضًا إلى ما سبق بعد أخذ العينات. يتم تمرير الإخراج المنصهر من 3 × 3 مخرجات متوسعة متنوعة ، 1 × 1 وإخراج GAP من خلال التفاف 1 × 1 للوصول إلى العدد المطلوب من القنوات.

نظرًا لأن الصورة المطلوب تقسيمها يمكن أن تكون بأي حجم في الإدخال ، فإن المعلومات متعددة المقاييس من ASPP تساعد في تحسين النتائج.

تحسين الإخراج باستخدام CRF

التجميع هو عملية تساعد في تقليل عدد المعلمات في الشبكة العصبية ولكنها أيضًا تجلب معها خاصية الثبات. الثبات هو جودة الشبكة العصبية التي لا تتأثر بترجمات طفيفة في المدخلات. نظرًا لهذه الخاصية التي تم الحصول عليها من خلال التجميع ، يكون ناتج التجزئة الذي تم الحصول عليه بواسطة الشبكة العصبية خشنًا ولم يتم تحديد الحدود بشكل ملموس.

للتعامل مع هذا ، تقترح الورقة استخدام نموذج رسومي CRF. يدير الحقل العشوائي الشرطي خطوة ما بعد المعالجة ويحاول تحسين النتائج التي تم الحصول عليها لتحديد حدود المشكل. إنه يعمل عن طريق تصنيف البكسل بناءً ليس فقط على ملصقه ولكن أيضًا استنادًا إلى ملصقات البكسل الأخرى. كما يتضح من الشكل أعلاه ، تصبح الحدود الخشنة التي تنتجها الشبكة العصبية أكثر دقة بعد المرور عبر CRF.

قدم Deeplab-v3 تطبيع الدُفعات ومعدل التمدد المقترح مضروبًا في (1,2,4،XNUMX،XNUMX) داخل كل طبقة في كتلة Resnet. تم اقتراح إضافة ميزات مستوى الصورة إلى وحدة ASPP التي تمت مناقشتها في المناقشة أعلاه حول ASPP كجزء من هذه الورقة

المصدر: - https://arxiv.org/pdf/1706.05587.pdf

اقترح Deeplab-v3 + أن يكون لديك وحدة فك ترميز بدلاً من أخذ عينات ثنائية الخطية 16x. تأخذ وحدة فك التشفير تلميحًا من وحدة فك التشفير المستخدمة من قبل معماريات مثل U-Net والتي تأخذ المعلومات من طبقات التشفير لتحسين النتائج. يتم أخذ عينات إخراج المشفر 4x باستخدام أخذ عينات ثنائية الخطية ومتسلسلة مع ميزات من المشفر والتي يتم أخذ عينات منها مرة أخرى 4x بعد إجراء التفاف 3 × 3. ينتج عن هذا النهج نتائج أفضل من أخذ العينات المباشر 16x. يُقترح أيضًا استخدام بنية Xception المعدلة بدلاً من Resnet كجزء من جهاز التشفير ويتم الآن استخدام التلافيف القابلة للفصل بعمق أعلى التلافيف Atrous لتقليل عدد العمليات الحسابية.

شبكة الالتفاف العالمية

المصدر: - https://arxiv.org/pdf/1703.02719.pdf

يتضمن التقسيم الدلالي أداء مهمتين في وقت واحد

ط) التصنيف
ب) التوطين

يتم إنشاء شبكات التصنيف لتكون ثابتة للترجمة والتناوب وبالتالي لا تعطي أهمية لمعلومات الموقع بينما يتضمن التوطين الحصول على تفاصيل دقيقة عن الموقع. وبالتالي فإن هاتين المهمتين متناقضتان بطبيعتهما. تعطي معظم خوارزميات التجزئة أهمية أكبر للتعريب ، أي الثانية في الشكل أعلاه وبالتالي تغفل عن السياق العام. يقترح المؤلف في هذا العمل طريقة لإعطاء أهمية لمهمة التصنيف أيضًا مع عدم فقد معلومات الترجمة في نفس الوقت

يقترح المؤلف تحقيق ذلك باستخدام حبات كبيرة كجزء من الشبكة وبالتالي تمكين اتصالات كثيفة وبالتالي المزيد من المعلومات. يتم تحقيق ذلك بمساعدة كتلة GCN كما يتضح من الشكل أعلاه. يمكن اعتبار كتلة GCN على أنها مرشح التفاف akxk حيث يمكن أن يكون k أكبر من 3. لتقليل عدد المعلمات ، يتم تقسيم مرشح akxk إلى كتل 1 xk و kx 1 و kx1 و 1xk والتي يتم تلخيصها بعد ذلك. وبالتالي من خلال زيادة القيمة k ، يتم التقاط سياق أكبر.

بالإضافة إلى ذلك ، يقترح المؤلف كتلة صقل الحدود التي تشبه الكتلة المتبقية التي شوهدت في Resnet والتي تتكون من اتصال اختصار ووصلة متبقية يتم تلخيصها للحصول على النتيجة. ويلاحظ أن وجود كتلة صقل الحدود أدى إلى تحسين النتائج على حدود التجزئة.

أظهرت النتائج أن كتلة GCN حسنت دقة تصنيف البكسل الأقرب إلى مركز الكائن مما يشير إلى التحسن الناجم عن التقاط سياق بعيد المدى بينما ساعدت كتلة Boundary Refinement في تحسين دقة البكسل الأقرب إلى الحدود.

شاهد أكثر من مرة - KSAC للتجزئة الدلالية

تستخدم عائلة Deeplab ASPP للحصول على معلومات متعددة لحقول الاستقبال باستخدام معدلات الالتفاف الأذينية المختلفة. على الرغم من أن ASPP كان مفيدًا بشكل كبير في تحسين تجزئة النتائج ، إلا أن هناك بعض المشكلات المتأصلة بسبب البنية. لا توجد معلومات مشتركة عبر الطبقات المتوازية المختلفة في ASPP مما يؤثر على قوة التعميم للنواة في كل طبقة. أيضًا نظرًا لأن كل طبقة تلبي مجموعات مختلفة من عينات التدريب (الأجسام الأصغر إلى معدل الأذين الأصغر والأشياء الأكبر إلى معدلات الأذين الأكبر) ، فإن كمية البيانات لكل طبقة متوازية ستكون أقل تأثيرًا على التعميم الكلي. كما أن عدد المعلمات في الشبكة يزداد خطيًا مع عدد المعلمات وبالتالي يمكن أن يؤدي إلى زيادة التجهيز.

المصدر: - https://arxiv.org/pdf/1908.09443.pdf

للتعامل مع كل هذه القضايا ، يقترح المؤلف بنية شبكة جديدة تسمى Kernel-Sharing Atrous Convolution (KSAC). كما يتضح من الشكل أعلاه ، بدلاً من وجود نواة مختلفة لكل طبقة متوازية ، يتم مشاركة نواة واحدة عبر ASPP وبالتالي تحسين قدرة التعميم على الشبكة. باستخدام KSAC بدلاً من ASPP ، يتم حفظ 62 ٪ من المعلمات عند استخدام معدلات تمدد 6,12،18 و XNUMX.

ميزة أخرى لاستخدام هيكل KSAC هي عدد المعلمات المستقلة عن عدد معدلات التمدد المستخدمة. وبالتالي يمكننا إضافة أكبر عدد ممكن من الأسعار دون زيادة حجم النموذج. يعطي ASPP أفضل النتائج بمعدلات 6,12,18،6,12,18,24،XNUMX ولكن الدقة تقل مع XNUMX،XNUMX،XNUMX،XNUMX مما يشير إلى احتمال فرط في التجهيز. لكن دقة KSAC لا تزال تتحسن بشكل كبير مما يشير إلى قدرة التعميم المحسنة.

يمكن أيضًا اعتبار تقنية مشاركة النواة هذه بمثابة زيادة في مساحة الميزة نظرًا لتطبيق نفس النواة على معدلات متعددة. على غرار الطريقة التي تعطي بها زيادة الإدخال نتائج أفضل ، يجب أن تساعد زيادة الميزات التي يتم إجراؤها في الشبكة في تحسين قدرة التمثيل للشبكة.

تجزئة الفيديو

بالنسبة لحالات الاستخدام مثل السيارات ذاتية القيادة والروبوتات وما إلى ذلك ، هناك حاجة للتجزئة في الوقت الفعلي على الفيديو المرصود. تم تصميم الهياكل التي تمت مناقشتها حتى الآن بشكل كبير من أجل الدقة وليس للسرعة. لذلك إذا تم تطبيقها على أساس كل إطار على مقطع فيديو ، فستأتي النتيجة بسرعة منخفضة جدًا.

بشكل عام أيضًا في الفيديو ، يوجد الكثير من التداخل في المشاهد عبر الإطارات المتتالية والتي يمكن استخدامها لتحسين النتائج والسرعة التي لن تظهر في الصورة إذا تم التحليل على أساس كل إطار. باستخدام هذه الإشارات ، دعنا نناقش البنى المصممة خصيصًا لمقاطع الفيديو

STFCN

يقترح Spatio-Temporal FCN استخدام FCN مع LSTM للقيام بتجزئة الفيديو. نحن ندرك بالفعل كيف يمكن استخدام FCN لاستخراج ميزات لتقسيم الصورة. LSTM هي نوع من الشبكات العصبية التي يمكنها التقاط معلومات متسلسلة بمرور الوقت. تجمع STFCN بين قوة FCN و LSTM لالتقاط كل من المعلومات المكانية والزمانية

المصدر: - https://arxiv.org/abs/1608.05971

كما يتضح من الشكل أعلاه ، تتكون STFCN من FCN ، وحدة زمنية مكانية متبوعة بفك الارتباط. يتم إرسال خريطة المعالم التي تنتجها FCN إلى Spatio-Temporal Module الذي يحتوي أيضًا على مدخلات من وحدة الإطار السابقة. تقوم الوحدة القائمة على كلا المدخلات بالتقاط المعلومات الزمنية بالإضافة إلى المعلومات المكانية وترسلها عبر التي تم أخذ عينات منها إلى الحجم الأصلي للصورة باستخدام deconvolution على غرار الطريقة التي يتم بها ذلك في FCN

نظرًا لأن كل من FCN و LSTM يعملان معًا كجزء من STFCN ، فإن الشبكة قابلة للتدريب من البداية إلى النهاية وتتفوق على أساليب تجزئة الإطار الفردي. هناك طرق مماثلة حيث يتم استبدال LSTM بـ GRU ولكن المفهوم هو نفسه لالتقاط كل من المعلومات المكانية والزمانية

CNNs الفيديو الدلالي من خلال التمثيل الاعوجاج

تقترح هذه الورقة استخدام التدفق البصري عبر الإطارات المجاورة كمدخل إضافي لتحسين نتائج التجزئة

المصدر: - https://arxiv.org/abs/1708.03088

يمكن ربط النهج المقترح بأي بنية قياسية كمكون إضافي. المكون الرئيسي الذي يتم تشغيله هو وحدة NetWarp. لحساب خريطة التجزئة ، يتم حساب التدفق البصري بين الإطار الحالي والإطار السابق ، أي Ft ويتم تمريره عبر FlowCNN للحصول على Λ (قدم). هذه العملية تسمى تحويل التدفق. يتم تمرير هذه القيمة من خلال وحدة الالتواء التي تأخذ أيضًا كمدخلات خريطة المعالم للطبقة المتوسطة المحسوبة بالمرور عبر الشبكة. هذا يعطي خريطة معالم مشوهة يتم دمجها بعد ذلك مع خريطة المعالم الوسيطة للطبقة الحالية وتكون الشبكة بأكملها مدربة من البداية إلى النهاية. حققت هذه البنية نتائج SOTA على مجموعات بيانات فيديو CamVid و Cityscapes.

عقارب الساعة لتجزئة الفيديو الدلالي

يقترح هذا البحث تحسين سرعة تنفيذ الشبكة العصبية لمهمة التجزئة على مقاطع الفيديو من خلال الاستفادة من حقيقة أن المعلومات الدلالية في الفيديو تتغير ببطء مقارنة بمعلومات مستوى البكسل. لذا فإن المعلومات الموجودة في الطبقات النهائية تتغير بوتيرة أبطأ بكثير مقارنة بطبقات البداية. تقترح الورقة أوقاتًا مختلفة

المصدر: - https://arxiv.org/abs/1608.03609

يمثل الشكل أعلاه معدل مقارنة التغيير لبركة الطبقة المتوسطة والطبقة العميقة fc4. على اليسار ، نرى أنه نظرًا لوجود الكثير من التغيير عبر الإطارات ، تُظهر كلتا الطبقتين تغييرًا ولكن التغيير في pool7 أعلى. في اليمين نرى أنه لا يوجد الكثير من التغيير عبر الإطارات. ومن ثم يُظهر pool4 تغيرًا هامشيًا بينما يظهر fc4 أي تغيير تقريبًا.

يستخدم البحث هذا المفهوم ويقترح أنه في الحالات التي لا يوجد فيها الكثير من التغيير عبر الإطارات ، لا توجد حاجة لحساب الميزات / المخرجات مرة أخرى ويمكن استخدام القيم المخزنة مؤقتًا من الإطار السابق. نظرًا لأن معدل التغيير يختلف باختلاف الطبقات ، يمكن ضبط ساعات مختلفة لمجموعات مختلفة من الطبقات. عندما تدق الساعة يتم حساب النواتج الجديدة ، وإلا فسيتم استخدام النتائج المخزنة مؤقتًا. يمكن أن يكون معدل علامات الساعة ثابتًا بشكل ثابت أو يمكن تعلمه ديناميكيًا

التقسيم الدلالي للفيديو منخفض الكمون

يتم تحسين هذه الورقة في الجزء العلوي من المناقشة أعلاه عن طريق تحديد الإطارات بشكل مناسب لحساب خريطة التجزئة أو استخدام النتيجة المخزنة مؤقتًا بدلاً من استخدام مؤقت ثابت أو إرشادي.

المصدر: - https://arxiv.org/abs/1804.00389

تقترح الورقة تقسيم الشبكة إلى جزأين ، وميزات منخفضة المستوى وميزات عالية المستوى. تكلفة حساب الميزات منخفضة المستوى في الشبكة أقل بكثير مقارنة بالميزات الأعلى. يقترح البحث استخدام ميزات الشبكة منخفضة المستوى كمؤشر على التغيير في خريطة التجزئة. وجدوا في ملاحظاتهم ارتباطًا قويًا بين تغير ميزات المستوى المنخفض وتغير خريطة التجزئة. لذلك لفهم ما إذا كانت هناك حاجة لحساب ما إذا كانت هناك حاجة إلى احتساب الميزات الأعلى ، تم العثور على فرق الميزات الأقل عبر إطارين ومقارنتها إذا تجاوزت عتبة معينة. تتم أتمتة هذه العملية بالكامل بواسطة شبكة عصبية صغيرة تتمثل مهمتها في أخذ ميزات أقل لإطارين وإعطاء تنبؤ بما إذا كان يجب حساب الميزات الأعلى أم لا. نظرًا لأن قرار الشبكة يعتمد على إطارات الإدخال ، فإن القرار المتخذ ديناميكي مقارنة بالنهج أعلاه.

تجزئة للسحب النقطية

يتم تخزين البيانات الواردة من جهاز استشعار مثل lidar بتنسيق يسمى Point Cloud. سحابة النقاط ليست سوى مجموعة من نقاط البيانات ثلاثية الأبعاد غير المرتبة (أو أي بُعد). إنه تمثيل متناثر للمشهد ثلاثي الأبعاد ولا يمكن تطبيق CNN بشكل مباشر في مثل هذه الحالة. يجب أيضًا أن تأخذ أي بنية مصممة للتعامل مع السحب النقطية في الاعتبار أنها مجموعة غير مرتبة وبالتالي يمكن أن يكون لها الكثير من التباديل الممكنة. لذلك يجب أن تكون الشبكة التقليب ثابتة. كما يمكن وصف النقاط المحددة في سحابة النقطة بالمسافة بينها. لذا فإن النقاط الأقرب بشكل عام تحمل معلومات مفيدة مفيدة لمهام التجزئة

بوينت نت

PointNet هي ورقة مهمة في تاريخ البحث عن السحب النقطية باستخدام التعلم العميق لحل مهام التصنيف والتجزئة. دعنا ندرس هندسة Pointnet

المصدر: - https://arxiv.org/abs/1612.00593

مدخلات الشبكة لـ n من النقاط هي مصفوفة nx 3. يتم تعيين مصفوفة nx 3 إلى nx 64 باستخدام طبقة متعددة الإدراك (شبكة متصلة بالكامل) والتي يتم تعيينها بعد ذلك إلى nx 64 ثم إلى nx 128 و nx 1024. يتم تطبيق أقصى تجمع للحصول على متجه 1024 والذي يتم تحويله إلى k المخرجات بالمرور عبر MLP بأحجام 512 و 256 و k. أخيرًا ، يتم إنتاج مخرجات فئة k على غرار أي شبكة تصنيف.

يتعامل التصنيف فقط مع الميزات العالمية ولكن التقسيم يحتاج إلى ميزات محلية أيضًا. لذلك فإن الميزات المحلية من الطبقة المتوسطة في nx 64 متسلسلة مع الميزات العالمية للحصول على مصفوفة 1088 التي يتم إرسالها من خلال mlp من 512 و 256 للوصول إلى nx 256 ثم على الرغم من أن MLP's 128 و m لإعطاء فئات الإخراج لكل نقطة في سحابة النقطة.

تتضمن الشبكة أيضًا تحويل إدخال وتحويل ميزة كجزء من الشبكة التي تتمثل مهمتها في عدم تغيير شكل المدخلات ولكن إضافة الثبات إلى التحويلات المرتبطة مثل الترجمة والتناوب وما إلى ذلك.

أ- سي إن إن

المصدر: - https://arxiv.org/abs/1904.08017

تقترح A-CNN استخدام التلافيف الحلقية لالتقاط المعلومات المكانية. نحن نعلم من CNN أن عمليات الالتفاف تلتقط المعلومات المحلية الضرورية لفهم الصورة. ابتكرت A-CNN التفافًا جديدًا يسمى الالتفاف الحلقي والذي يتم تطبيقه على نقاط الجوار في سحابة نقطية.

تأخذ البنية كمدخلات nx 3 نقاط وتجد القواعد المعيارية لها والتي تستخدم لترتيب النقاط. يتم أخذ عينة فرعية من النقاط باستخدام خوارزمية FPS مما يؤدي إلى ni x 3 نقاط. يتم تطبيق الالتواء الحلقي على هذه الأبعاد لزيادة أبعادها إلى 128. يتم إجراء الالتواء الحلقي على نقاط الجوار التي يتم تحديدها باستخدام خوارزمية KNN.

يتم تنفيذ مجموعة أخرى من العمليات المذكورة أعلاه لزيادة الأبعاد إلى 256. ثم يتم تطبيق mlp لتغيير الأبعاد إلى 1024 ويتم تطبيق التجميع للحصول على 1024 متجهًا عالميًا مشابهًا لسحابة النقطة. يعتبر هذا الجزء بأكمله هو المشفر. من أجل التصنيف ، يتم تمرير الإخراج العالمي لجهاز التشفير عبر mlp للحصول على مخرجات فئة c. بالنسبة لمهمة التجزئة ، تعتبر كل من الميزات العالمية والمحلية مشابهة لـ PointCNN ثم يتم تمريرها عبر MLP للحصول على مخرجات فئة m لكل نقطة.

المقاييس

دعونا نناقش المقاييس المستخدمة بشكل عام لفهم وتقييم نتائج النموذج.

دقة البكسل

دقة البكسل هي المقياس الأساسي الذي يمكن استخدامه للتحقق من صحة النتائج. يتم الحصول على الدقة من خلال أخذ نسبة وحدات البكسل المصنفة بشكل صحيح من إجمالي وحدات البكسل

الدقة = (TP + TN) / (TP + TN + FP + FN)

العيب الرئيسي لاستخدام مثل هذه التقنية هو أن النتيجة قد تبدو جيدة إذا تغلبت إحدى الفئات على الأخرى. لنفترض على سبيل المثال أن فئة الخلفية تغطي 90٪ من صورة الإدخال يمكننا الحصول على دقة 90٪ بمجرد تصنيف كل بكسل كخلفية

تقاطع الاتحاد

يتم تعريف IOU على أنها نسبة تقاطع الحقيقة الأساسية ومخرجات التجزئة المتوقعة على اتحادهم. إذا كنا نحسب لفئات متعددة ، يتم حساب IOU لكل فئة ويتم أخذ متوسطها. إنه مقياس أفضل مقارنة بدقة البكسل كما لو أن كل بكسل يتم تقديمه كخلفية في إدخال فئة 2 ، فإن قيمة IOU هي (90/100 + 0/100) / 2 أي 45 ٪ IOU مما يعطي تمثيلاً أفضل مقارنة بـ 90 ٪ صحة.

المصدر: - https://www.pyimagesearch.com/2016/11/07/intersection-over-union-iou-for-object-detection

تردد IOU المرجحة

هذا امتداد على IOU الذي ناقشناه ويستخدم لمكافحة اختلال التوازن الطبقي. إذا كانت إحدى الفئات تهيمن على معظم الصور في مجموعة بيانات مثل الخلفية على سبيل المثال ، فيجب أن يتم وزنها مقارنة بالفئات الأخرى. وبالتالي ، بدلاً من أخذ متوسط جميع نتائج الفصل ، يتم أخذ متوسط مرجح بناءً على تكرار منطقة الفئة في مجموعة البيانات.

نقاط F1

يمكن استخدام المقياس المستخدم بشكل شائع في التصنيف F1 لمهمة التجزئة وكذلك للتعامل مع عدم توازن الفئة.

المصدر: - https://en.wikipedia.org/wiki/F1_score

متوسط الدقة

يتم استخدام المنطقة الواقعة تحت منحنى الدقة - الاستدعاء لعتبة مختارة لمتوسط IOU عبر فئات مختلفة للتحقق من صحة النتائج.

وظائف الخسارة

تُستخدم وظيفة الخسارة لتوجيه الشبكة العصبية نحو التحسين. دعنا نناقش بعض وظائف الخسارة الشائعة لمهمة التجزئة الدلالية.

عبر خسارة الانتروبيا

يمكن استخدام المتوسط البسيط لفقدان التصنيف عبر الانتروبيا لكل بكسل في الصورة كوظيفة عامة. لكن هذا يعاني مرة أخرى بسبب عدم توازن الفئة الذي يقترح FCN تصحيحه باستخدام أوزان الفئة

تحاول UNet تحسين هذا من خلال إعطاء مزيد من الوزن للبكسل بالقرب من الحدود والتي تعد جزءًا من الحدود مقارنة بالبكسل الداخلي لأن هذا يجعل الشبكة تركز أكثر على تحديد الحدود ولا تعطي ناتجًا تقريبيًا.

الخسارة البؤرية

تم تصميم الفقد البؤري لجعل الشبكة تركز على الأمثلة الصعبة من خلال إعطاء المزيد من الوزن وأيضًا للتعامل مع اختلال التوازن الشديد الذي لوحظ في أجهزة الكشف عن الأجسام أحادية المرحلة. يمكن تطبيق الشيء نفسه في مهام التجزئة الدلالية أيضًا

خسارة النرد

وظيفة النرد ليست سوى درجة F1. تحاول وظيفة الخسارة هذه تحسين درجة F1 مباشرة. وبالمثل ، يمكن استخدام نتيجة IOU المباشرة لتشغيل التحسين أيضًا

خسارة تفيرسكي

وهو أحد أشكال فقدان النرد الذي يعطي وزنًا مختلفًا لكل من FN و FP

مسافة Hausdorff

إنها تقنية تستخدم لقياس التشابه بين حدود الحقيقة الأرضية والتنبؤ بها. يتم حسابها من خلال معرفة أقصى مسافة من أي نقطة في أحد الحدود إلى أقرب نقطة في الأخرى. يعد التخفيض المباشر لوظيفة فقدان الحدود اتجاهًا حديثًا وقد ثبت أنه يعطي نتائج أفضل خاصة في حالات الاستخدام مثل تجزئة الصور الطبية حيث يلعب تحديد الحدود الدقيقة دورًا رئيسيًا.

تتمثل ميزة استخدام خسارة الحدود مقارنة بالخسارة القائمة على المنطقة مثل IOU أو Dice Loss في عدم تأثرها باختلال توازن الفئة نظرًا لأن المنطقة بأكملها لا يتم اعتبارها للتحسين ، بل يتم النظر فقط في الحدود.

المصدر https://en.wikipedia.org/wiki/Hausdorff_distance

المصطلحان المذكوران هنا يتعلقان بحدود ، أي الحقيقة الأساسية وتوقع المخرجات.

تسمية لي :-

أداة شرح الصورة مكتوبة بلغة بيثون.
يدعم التعليق التوضيحي المضلع.
مفتوح المصدر ومجاني.
يعمل على Windows أو Mac أو Ubuntu أو عبر Anaconda أو Docker
حلقة الوصل :- https://github.com/wkentaro/labelme

المصدر: https://github.com/wkentaro/labelme

أداة شرح رؤية الكمبيوتر: -

أداة شرح الفيديو والصورة التي طورتها إنتل
مجاني ومتاح على الإنترنت
يعمل على أنظمة تشغيل Windows و Mac و Ubuntu
حلقة الوصل :- https://github.com/opencv/cvat

التعليق التوضيحي لصورة Vgg: -

أداة شرح صورة مفتوحة المصدر مجانية
صفحة html بسيطة <200 كيلو بايت ويمكن تشغيلها دون اتصال
يدعم التعليق التوضيحي المضلع والنقاط.
حلقة الوصل :- https://github.com/ox-vgg/via

Rectlabel: -

أداة التعليقات التوضيحية المدفوعة لنظام التشغيل Mac
يمكن استخدام نماذج ML الأساسية لإضافة تعليقات توضيحية للصور مسبقًا
يدعم المضلعات والبيزر المكعب والخطوط والنقاط
حلقة الوصل :- https://github.com/ryouchinsa/Rectlabel-support

صندوق التسمية: -

أداة التعليقات التوضيحية المدفوعة
يدعم أداة القلم للتعليق التوضيحي بشكل أسرع ودقيق
حلقة الوصل :- https://labelbox.com/product/image-segmentation

قواعد البيانات

كجزء من هذا القسم ، دعونا نناقش العديد من مجموعات البيانات الشائعة والمتنوعة المتاحة للجمهور والتي يمكن للمرء استخدامها لبدء التدريب.

سياق باسكال

تعد مجموعة البيانات هذه امتدادًا لمجموعة بيانات Pascal VOC 2010 وتتجاوز مجموعة البيانات الأصلية من خلال تقديم تعليقات توضيحية للمشهد بأكمله وتحتوي على أكثر من 400 فئة من بيانات العالم الحقيقي.

المصدر: - https://cs.stanford.edu/~roozbeh/pascal-context/

حلقة الوصل :- https://cs.stanford.edu/~roozbeh/pascal-context/

مجموعة بيانات COCO

تحتوي مجموعة بيانات عناصر COCO على 164 ألف صورة لمجموعة بيانات COCO الأصلية مع تعليقات توضيحية على مستوى البكسل وهي مجموعة بيانات معيارية شائعة. وهي تغطي 172 فصلاً: 80 فئة ، 91 فئة أشياء وفئة واحدة "غير مسماة"

حلقة الوصل :- http://cocodataset.org/

مجموعة بيانات مناظر المدينة

تتكون مجموعة البيانات هذه من الحقائق الأرضية المجزأة للطرق والممرات والمركبات والأشياء على الطريق. تحتوي مجموعة البيانات على 30 فئة و 50 مدينة تم جمعها وفقًا لظروف بيئية وطقس مختلفة. يحتوي أيضًا على مجموعة بيانات فيديو من الصور المشروحة بدقة والتي يمكن استخدامها لتجزئة الفيديو. كيتي و كمفيد أنواع مماثلة من مجموعات البيانات التي يمكن استخدامها لتدريب السيارات ذاتية القيادة.

المصدر: - https://www.cityscapes-dataset.com/

حلقة الوصل :- https://www.cityscapes-dataset.com/

مجموعة بيانات Lits

تم إنشاء مجموعة البيانات كجزء من تحدٍ لتحديد آفات الورم من فحوصات التصوير المقطعي المحوسب للكبد. تحتوي مجموعة البيانات على 130 مسحًا مقطعيًا لبيانات التدريب و 70 مسحًا مقطعيًا لبيانات الاختبار.

المصدر: - https://competitions.codalab.org/competitions/17094

حلقة الوصل :- https://competitions.codalab.org/competitions/17094

مجموعة بيانات CCP

التحليل المشترك للقماش هو مجموعة بيانات تم إنشاؤها كجزء من ورقة بحثية التحليل المشترك للملابس عن طريق تجزئة الصورة المشتركة ووضع العلامات. تحتوي مجموعة البيانات على أكثر من 1000 صورة مع تعليقات توضيحية على مستوى البكسل لإجمالي 59 علامة.

المصدر: - https://github.com/bearpaw/clothing-co-parsing

مجموعة بيانات Pratheepan

مجموعة بيانات تم إنشاؤها لمهمة تجزئة الجلد بناءً على صور من google تحتوي على 32 صورة للوجه و 46 صورة عائلية

المصدر: - http://cs-chan.com/downloads_skin_dataset.html

حلقة الوصل :- http://cs-chan.com/downloads_skin_dataset.html

وصف الصورة الجوية Inria

مجموعة بيانات لخرائط التجزئة الجوية التي تم إنشاؤها من صور المجال العام. تبلغ مساحتها 810 كيلومترًا مربعًا وتتكون من فصلين بناء وليس مبنى.

المصدر: - https://project.inria.fr/aerialimagelabeling/

حلقة الوصل :- https://project.inria.fr/aerialimagelabeling/

S3DIS

تحتوي مجموعة البيانات هذه على سحب نقطية لستة أجزاء داخلية كبيرة الحجم في 3 مبان مع أكثر من 70000 صورة.

المصدر: - http://buildingparser.stanford.edu/dataset.html

حلقة الوصل :- http://buildingparser.stanford.edu/dataset.html

نبذة عامة

لقد ناقشنا تصنيفًا للخوارزميات المختلفة التي يمكن استخدامها لحل حالة استخدام التجزئة الدلالية سواء كانت على الصور أو مقاطع الفيديو أو النقاط السحابية وكذلك مساهماتها وقيودها. بحثنا أيضًا في طرق تقييم النتائج ومجموعات البيانات للبدء. يجب أن يعطي هذا فهمًا شاملاً للتجزئة الدلالية كموضوع بشكل عام.

للحصول على قائمة بمزيد من الموارد للتجزئة الدلالية ، ابدأ بـ https://github.com/mrgloom/awesome-semantic-segmentation.