2021 के सिमेंटिक सेगमेंटेशन के लिए गाइड

स्रोत नोड: 872271

पहचान

डेटा के रूप में छवियों के साथ काम करते समय गहन शिक्षण बहुत सफल रहा है और वर्तमान में यह एक ऐसे चरण में है जहां यह कई उपयोग-मामलों पर मनुष्यों की तुलना में बेहतर काम करता है। सबसे महत्वपूर्ण समस्याएँ जिन्हें मनुष्य कंप्यूटर दृष्टि से हल करने में रुचि रखता है वे हैं छवि वर्गीकरण, वस्तु का पता लगाना और विभाजन उनकी कठिनाई के बढ़ते क्रम में.

छवि वर्गीकरण के पुराने कार्य में हम केवल उन सभी वस्तुओं के लेबल प्राप्त करने में रुचि रखते हैं जो एक छवि में मौजूद हैं। ऑब्जेक्ट डिटेक्शन में हम एक कदम आगे आते हैं और बाउंडिंग बॉक्स की मदद से यह जानने की कोशिश करते हैं कि एक छवि में मौजूद सभी ऑब्जेक्ट क्या हैं, ऑब्जेक्ट किस स्थान पर मौजूद हैं। छवि विभाजन छवि में वस्तुओं की सटीक सीमा का सटीक पता लगाने की कोशिश करके इसे एक नए स्तर पर ले जाता है।

स्रोत http://cs224d.stanford.edu/index.html

इस लेख में हम छवि विभाजन की इस अवधारणा से गुजरेंगे, प्रासंगिक उपयोग-मामलों, परिणाम प्राप्त करने में शामिल विभिन्न तंत्रिका नेटवर्क आर्किटेक्चर, मेट्रिक्स और डेटासेट का पता लगाने पर चर्चा करेंगे।

छवि विभाजन क्या है

हम जानते हैं कि एक छवि कुछ और नहीं बल्कि पिक्सेल का एक संग्रह है। छवि विभाजन एक निश्चित वर्ग से संबंधित छवि में प्रत्येक पिक्सेल को वर्गीकृत करने की प्रक्रिया है और इसलिए इसे प्रति पिक्सेल वर्गीकरण समस्या के रूप में सोचा जा सकता है। विभाजन तकनीकें दो प्रकार की होती हैं

Source http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
  1. शब्दार्थ विभाजन :- सिमेंटिक विभाजन एक विशेष लेबल से संबंधित प्रत्येक पिक्सेल को वर्गीकृत करने की प्रक्रिया है। यह एक ही वस्तु के विभिन्न उदाहरणों में भिन्न नहीं होता है। उदाहरण के लिए, यदि किसी छवि में 2 बिल्लियाँ हैं, तो सिमेंटिक विभाजन दोनों बिल्लियों के सभी पिक्सेल को समान लेबल देता है
  2. उदाहरण विभाजन :- उदाहरण विभाजन सिमेंटिक विभाजन से इस अर्थ में भिन्न है कि यह छवि में किसी विशेष वस्तु के प्रत्येक उदाहरण को एक अद्वितीय लेबल देता है। जैसा कि ऊपर की छवि में देखा जा सकता है, सभी 3 कुत्तों को अलग-अलग रंग यानी अलग-अलग लेबल दिए गए हैं। शब्दार्थ विभाजन के साथ उन सभी को एक ही रंग दिया गया होगा।

तो अब हम उस बिंदु पर आते हैं कि हमें इस तरह के एल्गोरिदम की आवश्यकता कहां होगी

छवि विभाजन के उपयोग-मामले

हस्तलिपि अभिज्ञान :- जंजो और सभी ने प्रदर्शित किया कि कैसे उनके हस्तलिखित दस्तावेज़ों से शब्दों और पंक्तियों को निकालने के लिए अर्थ संबंधी विभाजन का उपयोग किया जा रहा है 2019 का शोध पत्र हस्तलिखित अक्षरों को पहचानना

स्रोत

गूगल पोर्ट्रेट मोड :- ऐसे कई उपयोग-मामले हैं जहां अग्रभूमि को पृष्ठभूमि से अलग करना नितांत आवश्यक है। उदाहरण के लिए, Google के पोर्ट्रेट मोड में हम पृष्ठभूमि को धुंधला देख सकते हैं जबकि अग्रभूमि एक अच्छा प्रभाव देने के लिए अपरिवर्तित रहती है

स्रोत:- https://ai.googleblog.com/2018/03/mobile-real-time-video-segmentation.html

यूट्यूब कहानियां :- Google ने हाल ही में कंटेंट क्रिएटर्स के लिए कहानियां बनाते समय अलग-अलग पृष्ठभूमि दिखाने के लिए एक फीचर YouTube कहानियां जारी की है।

स्रोत:- https://ai.googleblog.com/2018/03/mobile-real-time-video-segmentation.html

आभासी मेकअप :- इमेज सेगमेंटेशन की मदद से अब वर्चुअल लिपस्टिक लगाना संभव है

स्रोत:- https://www.theverge.com/2017/3/16/14946086/sephora-virtual-assistant-ios-app-update-ar-makeup

4.आभासी प्रयास :- कपड़ों का वर्चुअल ट्राई ऑन एक दिलचस्प सुविधा है जो विशेष हार्डवेयर का उपयोग करके दुकानों में उपलब्ध था जो एक 3डी मॉडल बनाता है। लेकिन गहन शिक्षा और छवि विभाजन के साथ इसे केवल 2डी छवि का उपयोग करके प्राप्त किया जा सकता है

स्रोत:- https://arxiv.org/pdf/1807.07688.pdf

दृश्य छवि खोज :- कपड़ों को विभाजित करने का विचार ईकॉमर्स में छवि पुनर्प्राप्ति एल्गोरिदम में भी उपयोग किया जाता है। उदाहरण के लिए, Pinterest/Amazon आपको कपड़े के हिस्से को विभाजित करने के आधार पर एक छवि खोज करके कोई भी तस्वीर अपलोड करने और संबंधित समान दिखने वाले उत्पाद प्राप्त करने की अनुमति देता है।

स्रोत:- https://github.com/paucarre/tiefvision

सेल्फ ड्राइविंग कार :- सेल्फ ड्राइविंग कारों को अपने परिवेश की पिक्सेल परफेक्ट स्तर तक पूरी समझ की आवश्यकता होती है। इसलिए छवि विभाजन का उपयोग गलियों और अन्य आवश्यक जानकारी की पहचान करने के लिए किया जाता है

स्रोत:- https://medium.com/intro-to-artificial-intelligence/semantic-segmentation-udaitys-self-driving-car-engineer-nanograde-c01eb6eaf9d

नैनोनेट्स फॉर्च्यून 500 कंपनियों को सिमेंटिक सेगमेंटेशन का उपयोग करके बड़े पैमाने पर बेहतर ग्राहक अनुभव प्रदान करने में मदद करता है।

तरीके और तकनीकें

गहन शिक्षण के आगमन से पहले, छवि विभाजन की समस्या को हल करने के लिए एसवीएम, रैंडम फ़ॉरेस्ट, के-मीन्स क्लस्टरिंग जैसी शास्त्रीय मशीन लर्निंग तकनीकों का उपयोग किया जाता था। लेकिन जैसा कि अधिकांश छवि संबंधी समस्या कथनों के साथ होता है, गहन शिक्षण ने मौजूदा तकनीकों की तुलना में व्यापक रूप से बेहतर काम किया है और सिमेंटिक सेगमेंटेशन से निपटने के दौरान अब यह एक आदर्श बन गया है। आइए उन तकनीकों की समीक्षा करें जिनका उपयोग समस्या को हल करने के लिए किया जा रहा है

पूरी तरह से संवादात्मक नेटवर्क

सीएनएन की सामान्य वास्तुकला में कुछ संकेंद्रित और पूलिंग परतें होती हैं जिसके बाद अंत में कुछ पूरी तरह से जुड़ी हुई परतें होती हैं। 2014 में जारी फुली कन्वोल्यूशनल नेटवर्क के पेपर का तर्क है कि अंतिम पूरी तरह से जुड़ी हुई परत को 1×1 कनवल्शन के रूप में माना जा सकता है जो पूरे क्षेत्र को कवर करता है।

स्रोत:- https://arxiv.org/abs/1411.4038

इसलिए अंतिम सघन परतों को समान परिणाम प्राप्त करने वाली कनवल्शन परत द्वारा प्रतिस्थापित किया जा सकता है। लेकिन अब ऐसा करने का फायदा यह है कि अब इनपुट का आकार तय करने की जरूरत नहीं है। सघन परतों को शामिल करते समय इनपुट का आकार सीमित हो जाता है और इसलिए जब एक अलग आकार का इनपुट प्रदान करना होता है तो इसका आकार बदलना पड़ता है। लेकिन घनी परत को कनवल्शन से बदलने से, यह बाधा मौजूद नहीं होती है।

इसके अलावा जब इनपुट के रूप में छवि का एक बड़ा आकार प्रदान किया जाता है तो उत्पादित आउटपुट एक फीचर मैप होगा, न कि सामान्य इनपुट आकार की छवि की तरह केवल एक क्लास आउटपुट। इसके अलावा अंतिम फीचर मैप का देखा गया व्यवहार आवश्यक वर्ग के हीटमैप का प्रतिनिधित्व करता है यानी फीचर मैप में ऑब्जेक्ट की स्थिति को हाइलाइट किया गया है। चूँकि फ़ीचर मैप का आउटपुट आवश्यक ऑब्जेक्ट का हीटमैप है, यह विभाजन के हमारे उपयोग-मामले के लिए वैध जानकारी है।

चूंकि आउटपुट लेयर पर प्राप्त फीचर मैप प्रदर्शन किए गए कनवल्शन के सेट के कारण डाउन सैंपल है, हम इंटरपोलेशन तकनीक का उपयोग करके इसे अप-सैंपल करना चाहेंगे। बिलिनियर अप सैंपलिंग काम करती है, लेकिन पेपर डिकोनवोल्यूशन के साथ सीखे गए सैंपलिंग का उपयोग करने का प्रस्ताव करता है जो एक गैर-लीनियर अप सैंपलिंग भी सीख सकता है।

नेटवर्क के डाउन सैंपलिंग भाग को एनकोडर कहा जाता है और अप सैंपलिंग भाग को डिकोडर कहा जाता है। यह एक पैटर्न है जिसे हम कई आर्किटेक्चर में देखेंगे यानी एनकोडर के साथ आकार को कम करना और फिर डिकोडर के साथ सैंपलिंग करना। एक आदर्श दुनिया में हम पूलिंग का उपयोग करके नमूना कम नहीं करना चाहेंगे और पूरे आकार को समान रखेंगे, लेकिन इससे बड़ी मात्रा में पैरामीटर होंगे और यह कम्प्यूटेशनल रूप से असंभव होगा।

स्रोत:- https://arxiv.org/abs/1411.4038

हालाँकि प्राप्त आउटपुट परिणाम अच्छे रहे हैं, लेकिन देखा गया आउटपुट रफ है और स्मूथ नहीं है। इसका कारण कनवल्शन लेयर्स का उपयोग करके 32 गुना डाउनसैंपलिंग के कारण अंतिम फीचर लेयर पर जानकारी का नुकसान है। अब इस छोटी सी जानकारी का उपयोग करके नेटवर्क के लिए 32x अपसैंपलिंग करना बहुत मुश्किल हो जाता है। इस आर्किटेक्चर को FCN-32 कहा जाता है

इस मुद्दे को संबोधित करने के लिए, पेपर ने 2 अन्य आर्किटेक्चर FCN-16, FCN-8 प्रस्तावित किए। FCN-16 में पिछली पूलिंग परत की जानकारी का उपयोग अंतिम फीचर मैप के साथ किया जाता है और इसलिए अब नेटवर्क का कार्य 16x अप सैंपलिंग सीखना है जो FCN-32 की तुलना में बेहतर है। FCN-8 एक और पिछली पूलिंग परत से जानकारी शामिल करके इसे और भी बेहतर बनाने का प्रयास करता है।

यूनेट

यू-नेट ऊपर से पूर्णतः कनवल्शनल नेटवर्क के शीर्ष पर निर्मित होता है। इसे फेफड़ों या मस्तिष्क में ट्यूमर का पता लगाने के लिए चिकित्सा उद्देश्यों के लिए बनाया गया था। इसमें एक एनकोडर भी होता है जो इनपुट इमेज को फीचर मैप में डाउन-सैंपल करता है और डिकोडर जो सीखे गए डीकोनवोल्यूशन लेयर्स का उपयोग करके फीचर मैप को इनपुट इमेज साइज में सैंपल करता है।

स्रोत:- https://arxiv.org/abs/1505.04597

यू-नेट आर्किटेक्चर का मुख्य योगदान शॉर्टकट कनेक्शन है। हमने ऊपर एफसीएन में देखा कि चूंकि हमने एनकोडर के हिस्से के रूप में एक छवि को डाउन-सैंपल किया है, इसलिए हमने बहुत सारी जानकारी खो दी है जिसे एनकोडर हिस्से में आसानी से पुनर्प्राप्त नहीं किया जा सकता है। एफसीएन अंतिम फीचर परत से पहले पूलिंग परतों से जानकारी लेकर इसका समाधान करने का प्रयास करता है।

यू-नेट इस सूचना हानि समस्या को हल करने के लिए एक नया दृष्टिकोण प्रस्तावित करता है। यह एनकोडर में संबंधित डाउन सैंपलिंग परत से डिकोडर में प्रत्येक अप सैंपलिंग परत को जानकारी भेजने का प्रस्ताव करता है जैसा कि ऊपर दिए गए चित्र में देखा जा सकता है, इस प्रकार गणना को कम रखते हुए बेहतर जानकारी कैप्चर की जाती है। चूंकि एनकोडर की शुरुआत में परतों में अधिक जानकारी होगी, इसलिए वे इनपुट छवियों के अनुरूप बारीक विवरण प्रदान करके डिकोडर के अप सैंपलिंग ऑपरेशन को बढ़ावा देंगे, जिससे परिणामों में काफी सुधार होगा। पेपर ने एक नवीन हानि फ़ंक्शन के उपयोग का भी सुझाव दिया जिस पर हम नीचे चर्चा करेंगे।

डीपलैब

Google के शोधकर्ताओं के एक समूह के डीपलैब ने मौजूदा परिणामों को बेहतर बनाने और कम कम्प्यूटेशनल लागत पर बेहतर आउटपुट प्राप्त करने के लिए कई तकनीकों का प्रस्ताव दिया है। शोध के हिस्से के रूप में सुझाए गए 3 मुख्य सुधार हैं

1) तीव्र संवेग
2) एट्रस स्पैटियल पिरामिड पूलिंग
3) अंतिम आउटपुट में सुधार के लिए सशर्त यादृच्छिक फ़ील्ड का उपयोग
आइये इन सबके बारे में चर्चा करते हैं

एट्रस कन्वोल्यूशन

एफसीएन दृष्टिकोण के साथ प्रमुख समस्याओं में से एक लगातार पूलिंग संचालन के कारण अत्यधिक कटौती है। पूलिंग की श्रृंखला के कारण इनपुट छवि को 32x तक डाउन सैंपल किया जाता है जिसे सेगमेंटेशन परिणाम प्राप्त करने के लिए फिर से सैंपल किया जाता है। 32x तक डाउनसैंपलिंग के परिणामस्वरूप जानकारी का नुकसान होता है जो एक सेगमेंटेशन कार्य में अच्छा आउटपुट प्राप्त करने के लिए बहुत महत्वपूर्ण है। इसके अलावा नमूने को 32x तक बढ़ाना एक गणना और मेमोरी महंगा ऑपरेशन है क्योंकि सीखे गए नमूने को बनाने में अतिरिक्त पैरामीटर शामिल होते हैं।

पेपर एट्रस कनवल्शन या होल कनवल्शन या डाइलेटेड कनवल्शन के उपयोग का प्रस्ताव करता है जो समान संख्या में मापदंडों का उपयोग करके बड़े संदर्भ को समझने में मदद करता है।

Source:- https://www.mdpi.com/1424-8220/19/24/5361/htm

डाइलेटेड कन्वोल्यूशन मापदंडों के बीच के अंतर को भरने के लिए शून्य (जिसे छेद कहा जाता है) जोड़कर फ़िल्टर के आकार को बढ़ाकर काम करता है। फ़िल्टर मापदंडों के बीच भरे गए छिद्रों/शून्यों की संख्या को फैलाव दर कहा जाता है। जब दर 1 के बराबर होती है तो यह सामान्य कनवल्शन के अलावा और कुछ नहीं है। जब दर 2 के बराबर होती है तो प्रत्येक अन्य पैरामीटर के बीच एक शून्य डाला जाता है जिससे फ़िल्टर 5×5 कनवल्शन जैसा दिखता है। अब इसमें 5×5 कनवल्शन मापदंडों के साथ 3×3 कनवल्शन का संदर्भ प्राप्त करने की क्षमता है। इसी प्रकार दर 3 के लिए ग्रहणशील क्षेत्र 7×7 हो जाता है।

डीपलैब में अंतिम पूलिंग परतों को 1 के बजाय 2 स्ट्राइड में बदल दिया जाता है, जिससे डाउन सैंपलिंग दर केवल 8x रह जाती है। फिर बड़े संदर्भ को पकड़ने के लिए तीव्र संवेगों की एक श्रृंखला लागू की जाती है। प्रशिक्षण के लिए प्रत्येक पिक्सेल की तुलना करने के लिए आउटपुट लेबल वाले मास्क को 8x तक कम किया जाता है। अनुमान के लिए, बिलिनियर अप सैंपलिंग का उपयोग समान आकार के आउटपुट का उत्पादन करने के लिए किया जाता है जो कम कम्प्यूटेशनल/मेमोरी लागत पर पर्याप्त अच्छे परिणाम देता है क्योंकि बिलिनियर अप सैंपलिंग को अप सैंपलिंग के लिए डीकोनवोल्यूशन के विपरीत किसी भी पैरामीटर की आवश्यकता नहीं होती है।

एएसपीपी

स्थानिक पिरामिड पूलिंग एक फीचर मैप से बहु-स्तरीय जानकारी प्राप्त करने के लिए एसपीपीनेट में पेश की गई एक अवधारणा है। एसपीपी इनपुट की शुरूआत से पहले विभिन्न रिज़ॉल्यूशन पर छवियां प्रदान की जाती हैं और बहु-स्तरीय जानकारी प्राप्त करने के लिए गणना किए गए फीचर मानचित्रों का एक साथ उपयोग किया जाता है, लेकिन इसमें अधिक गणना और समय लगता है। स्थानिक पिरामिड पूलिंग के साथ एकल इनपुट छवि के साथ बहु-स्तरीय जानकारी कैप्चर की जा सकती है।

स्रोत:- http://kaiminghe.com/eccv14sppnet/index.html

एसपीपी मॉड्यूल के साथ नेटवर्क 3×1 (यानी जीएपी), 1×2 और 2×4 आयामों के 4 आउटपुट उत्पन्न करता है। इन मानों को 1d वेक्टर में परिवर्तित करके संयोजित किया जाता है और इस प्रकार कई पैमानों पर जानकारी कैप्चर की जाती है। एसपीपी का उपयोग करने का एक अन्य लाभ यह है कि किसी भी आकार की इनपुट छवियां प्रदान की जा सकती हैं।

एएसपीपी विभिन्न पैमानों से जानकारी को मिलाने की अवधारणा लेता है और इसे एट्रस कनवल्शन पर लागू करता है। इनपुट को अलग-अलग फैलाव दर के साथ संयोजित किया गया है और इनके आउटपुट को एक साथ जोड़ा गया है।

स्रोत:- http://liangchiehchen.com/projects/DeepLab.html

जैसा कि देखा जा सकता है कि इनपुट को फैलाव दर 3, 3, 6 और 12 के 18×24 फिल्टर के साथ संयोजित किया गया है और आउटपुट एक साथ संयोजित किए गए हैं क्योंकि वे समान आकार के हैं। फ़्यूज्ड आउटपुट में 1×1 कनवल्शन आउटपुट भी जोड़ा जाता है। वैश्विक जानकारी भी प्रदान करने के लिए, ऊपर नमूने लेने के बाद GAP आउटपुट भी जोड़ा जाता है। 3×3 विविध विस्तारित आउटपुट, 1×1 और GAP आउटपुट के फ़्यूज्ड आउटपुट को आवश्यक संख्या में चैनलों तक पहुंचने के लिए 1×1 कनवल्शन के माध्यम से पारित किया जाता है।

चूंकि खंडित की जाने वाली आवश्यक छवि इनपुट में किसी भी आकार की हो सकती है, इसलिए एएसपीपी से बहु-स्तरीय जानकारी परिणामों को बेहतर बनाने में मदद करती है।

सीआरएफ के साथ आउटपुट में सुधार

पूलिंग एक ऑपरेशन है जो तंत्रिका नेटवर्क में मापदंडों की संख्या को कम करने में मदद करता है लेकिन यह अपने साथ अपरिवर्तनीयता की संपत्ति भी लाता है। इन्वेरिएंस एक तंत्रिका नेटवर्क की गुणवत्ता है जो इनपुट में मामूली अनुवाद से अप्रभावित रहता है। पूलिंग से प्राप्त इस संपत्ति के कारण तंत्रिका नेटवर्क द्वारा प्राप्त विभाजन आउटपुट मोटा होता है और सीमाएं ठोस रूप से परिभाषित नहीं होती हैं।

स्रोत:- http://liangchiehchen.com/projects/DeepLab.html

इससे निपटने के लिए पेपर ग्राफिकल मॉडल सीआरएफ के उपयोग का प्रस्ताव करता है। कंडीशनल रैंडम फ़ील्ड एक पोस्ट-प्रोसेसिंग चरण संचालित करता है और शेपर सीमाओं को परिभाषित करने के लिए उत्पादित परिणामों को बेहतर बनाने का प्रयास करता है। यह किसी पिक्सेल को न केवल उसके लेबल के आधार पर बल्कि अन्य पिक्सेल लेबल के आधार पर भी वर्गीकृत करके काम करता है। जैसा कि उपरोक्त आंकड़े से देखा जा सकता है, तंत्रिका नेटवर्क द्वारा निर्मित मोटी सीमा सीआरएफ से गुजरने के बाद और अधिक परिष्कृत हो जाती है।

डीपलैब-वी3 ने बैच सामान्यीकरण की शुरुआत की और रेसनेट ब्लॉक में प्रत्येक परत के अंदर फैलाव दर को (1,2,4) से गुणा करने का सुझाव दिया। इसके अलावा एएसपीपी मॉड्यूल में छवि स्तर की विशेषताएं जोड़ना, जिस पर एएसपीपी पर उपरोक्त चर्चा में चर्चा की गई थी, को इस पेपर के हिस्से के रूप में प्रस्तावित किया गया था

स्रोत:- https://arxiv.org/pdf/1706.05587.pdf

डीपलैब-वी3+ ने सादे बिलिनियर अप सैंपलिंग 16x के बजाय एक डिकोडर रखने का सुझाव दिया। डिकोडर यू-नेट जैसे आर्किटेक्चर द्वारा उपयोग किए जाने वाले डिकोडर से संकेत लेता है जो परिणामों को बेहतर बनाने के लिए एनकोडर परतों से जानकारी लेता है। एनकोडर आउटपुट को बिलिनियर अप सैंपलिंग का उपयोग करके 4x सैंपल किया जाता है और एनकोडर की सुविधाओं के साथ संयोजित किया जाता है, जिसे 4×3 कनवल्शन करने के बाद फिर से 3x सैंपल किया जाता है। यह दृष्टिकोण सीधे 16x अप सैंपलिंग की तुलना में बेहतर परिणाम देता है। इसके अलावा एनकोडर के हिस्से के रूप में रेसनेट के बजाय संशोधित एक्सेप्शन आर्किटेक्चर का उपयोग करने का प्रस्ताव है और गणनाओं की संख्या को कम करने के लिए गहराई से अलग करने योग्य कनवल्शन का उपयोग अब एट्रस कनवल्शन के शीर्ष पर किया जाता है।

ग्लोबल कन्वोल्यूशन नेटवर्क

स्रोत:- https://arxiv.org/pdf/1703.02719.pdf

सिमेंटिक विभाजन में दो कार्यों को एक साथ निष्पादित करना शामिल है

मैं) वर्गीकरण
ii) स्थानीयकरण

वर्गीकरण नेटवर्क अनुवाद और रोटेशन के लिए अपरिवर्तनीय होने के लिए बनाए गए हैं, इस प्रकार स्थान की जानकारी को कोई महत्व नहीं दिया जाता है, जबकि स्थानीयकरण में स्थान के बारे में सटीक विवरण प्राप्त करना शामिल है। इस प्रकार स्वाभाविक रूप से ये दोनों कार्य विरोधाभासी हैं। अधिकांश विभाजन एल्गोरिदम स्थानीयकरण को अधिक महत्व देते हैं यानी उपरोक्त आंकड़े में दूसरा और इस प्रकार वैश्विक संदर्भ की दृष्टि खो देते हैं। इस कार्य में लेखक वर्गीकरण कार्य को भी महत्व देने का एक तरीका प्रस्तावित करता है और साथ ही स्थानीयकरण की जानकारी भी नहीं खोता है

स्रोत:- https://arxiv.org/pdf/1703.02719.pdf

लेखक ने नेटवर्क के हिस्से के रूप में बड़े कर्नेल का उपयोग करके इसे प्राप्त करने का प्रस्ताव दिया है जिससे घने कनेक्शन और अधिक जानकारी प्राप्त हो सके। यह GCN ब्लॉक की मदद से हासिल किया गया है जैसा कि उपरोक्त आंकड़े में देखा जा सकता है। GCN ब्लॉक को akxk कनवल्शन फ़िल्टर के रूप में माना जा सकता है जहाँ k 3 से बड़ी संख्या हो सकती है। मापदंडों की संख्या को कम करने के लिए akxk फ़िल्टर को 1 xk और kx 1, kx1 और 1xk ब्लॉक में विभाजित किया गया है जिन्हें फिर संक्षेपित किया गया है। इस प्रकार k का मान बढ़ाकर, बड़े संदर्भ को ग्रहण किया जाता है।

इसके अलावा, लेखक एक सीमा शोधन ब्लॉक का प्रस्ताव करता है जो रेसनेट में देखे गए अवशिष्ट ब्लॉक के समान है जिसमें एक शॉर्टकट कनेक्शन और एक अवशिष्ट कनेक्शन होता है जिसे परिणाम प्राप्त करने के लिए सारांशित किया जाता है। यह देखा गया है कि सीमा शोधन ब्लॉक होने से विभाजन की सीमा पर परिणामों में सुधार हुआ है।

परिणामों से पता चला कि जीसीएन ब्लॉक ने ऑब्जेक्ट के केंद्र के करीब पिक्सल की वर्गीकरण सटीकता में सुधार किया है, जो लंबी दूरी के संदर्भ को कैप्चर करने के कारण हुए सुधार को दर्शाता है, जबकि बाउंड्री रिफाइनमेंट ब्लॉक ने सीमा के करीब पिक्सल की सटीकता में सुधार करने में मदद की है।

एक से अधिक बार देखें - सिमेंटिक विभाजन के लिए केएसएसी

डीपलैब परिवार एएसपीपी का उपयोग कई ग्रहणशील क्षेत्रों के लिए विभिन्न एट्रस कनवल्शन दरों का उपयोग करके जानकारी कैप्चर करने के लिए करता है। यद्यपि एएसपीपी परिणामों के विभाजन को बेहतर बनाने में काफी उपयोगी रहा है, लेकिन वास्तुकला के कारण कुछ अंतर्निहित समस्याएं हैं। एएसपीपी में विभिन्न समानांतर परतों में कोई जानकारी साझा नहीं की जाती है, जिससे प्रत्येक परत में कर्नेल की सामान्यीकरण शक्ति प्रभावित होती है। इसके अलावा चूंकि प्रत्येक परत प्रशिक्षण नमूनों के विभिन्न सेटों (छोटी वस्तुओं से छोटी अलिंद दर और बड़ी वस्तुओं से बड़ी अलिंद दर) को पूरा करती है, प्रत्येक समानांतर परत के लिए डेटा की मात्रा कम होगी जिससे समग्र सामान्यीकरण प्रभावित होगा। इसके अलावा नेटवर्क में पैरामीटरों की संख्या, पैरामीटरों की संख्या के साथ रैखिक रूप से बढ़ती है और इस प्रकार ओवरफिटिंग हो सकती है।

स्रोत:- https://arxiv.org/pdf/1908.09443.pdf

इन सभी मुद्दों को संभालने के लिए लेखक कर्नेल-शेयरिंग एट्रस कन्वोल्यूशन (केएसएसी) नामक एक उपन्यास नेटवर्क संरचना का प्रस्ताव करता है। जैसा कि उपरोक्त चित्र में देखा जा सकता है, एएसपीपी में प्रत्येक समानांतर परत के लिए एक अलग कर्नेल होने के बजाय एक एकल कर्नेल साझा किया जाता है जिससे नेटवर्क की सामान्यीकरण क्षमता में सुधार होता है। एएसपीपी के बजाय केएसएसी का उपयोग करने से 62 और 6,12 की फैलाव दर का उपयोग करने पर 18% पैरामीटर सहेजे जाते हैं।

केएसएसी संरचना का उपयोग करने का एक अन्य लाभ यह है कि मापदंडों की संख्या उपयोग की जाने वाली फैलाव दरों की संख्या से स्वतंत्र होती है। इस प्रकार हम मॉडल का आकार बढ़ाए बिना यथासंभव अधिक दरें जोड़ सकते हैं। एएसपीपी 6,12,18 दरों के साथ सर्वोत्तम परिणाम देता है लेकिन 6,12,18,24 के साथ सटीकता कम हो जाती है जो संभावित ओवरफिटिंग का संकेत देती है। लेकिन केएसएसी सटीकता में अभी भी काफी सुधार हुआ है जो बढ़ी हुई सामान्यीकरण क्षमता को दर्शाता है।

इस कर्नेल साझाकरण तकनीक को फीचर स्पेस में वृद्धि के रूप में भी देखा जा सकता है क्योंकि एक ही कर्नेल को कई दरों पर लागू किया जाता है। जिस प्रकार इनपुट संवर्द्धन बेहतर परिणाम देता है, उसी प्रकार नेटवर्क में किए गए सुविधा संवर्द्धन से नेटवर्क की प्रतिनिधित्व क्षमता को बेहतर बनाने में मदद मिलनी चाहिए।

वीडियो विभाजन

सेल्फ-ड्राइविंग कारों, रोबोटिक्स आदि जैसे उपयोग के मामलों के लिए देखे गए वीडियो पर वास्तविक समय विभाजन की आवश्यकता है। अब तक चर्चा की गई वास्तुकला सटीकता के लिए डिज़ाइन की गई है न कि गति के लिए। इसलिए यदि उन्हें वीडियो पर प्रति-फ़्रेम के आधार पर लागू किया जाता है तो परिणाम बहुत कम गति पर आएगा।

आम तौर पर किसी वीडियो में लगातार फ़्रेमों के दृश्यों में बहुत अधिक ओवरलैप होता है जिसका उपयोग परिणामों और गति में सुधार के लिए किया जा सकता है जो कि प्रति-फ़्रेम के आधार पर विश्लेषण करने पर तस्वीर में नहीं आएगा। इन संकेतों का उपयोग करते हुए आइए उन आर्किटेक्चर पर चर्चा करें जो विशेष रूप से वीडियो के लिए डिज़ाइन किए गए हैं

एस.टी.एफ.सी.एन

स्पैटियो-टेम्पोरल एफसीएन वीडियो विभाजन करने के लिए एलएसटीएम के साथ एफसीएन का उपयोग करने का प्रस्ताव करता है। हम पहले से ही जानते हैं कि किसी छवि को विभाजित करने के लिए सुविधाओं को निकालने के लिए एफसीएन का उपयोग कैसे किया जा सकता है। LSTM एक प्रकार के तंत्रिका नेटवर्क हैं जो समय के साथ अनुक्रमिक जानकारी प्राप्त कर सकते हैं। स्थानिक जानकारी और अस्थायी जानकारी दोनों को पकड़ने के लिए एसटीएफसीएन एलएसटीएम के साथ एफसीएन की शक्ति को जोड़ता है

स्रोत:- https://arxiv.org/abs/1608.05971

जैसा कि ऊपर दिए गए आंकड़े से देखा जा सकता है, एसटीएफसीएन में एक एफसीएन, स्पैटियो-टेम्पोरल मॉड्यूल होता है जिसके बाद डीकोनवोल्यूशन होता है। एफसीएन द्वारा निर्मित फीचर मैप को स्पैटियो-टेम्पोरल मॉड्यूल को भेजा जाता है जिसमें पिछले फ्रेम के मॉड्यूल से एक इनपुट भी होता है। इन दोनों इनपुट पर आधारित मॉड्यूल स्थानिक जानकारी के अलावा अस्थायी जानकारी को कैप्चर करता है और इसे भेजता है जिसे एफसीएन में कैसे किया जाता है, इसके समान डिकोनवोल्यूशन का उपयोग करके छवि के मूल आकार में नमूना लिया जाता है।

चूंकि एफसीएन और एलएसटीएम दोनों एसटीएफसीएन के हिस्से के रूप में एक साथ काम कर रहे हैं, नेटवर्क शुरू से अंत तक प्रशिक्षण योग्य है और सिंगल फ्रेम सेगमेंटेशन दृष्टिकोण से बेहतर प्रदर्शन करता है। ऐसे ही दृष्टिकोण हैं जहां LSTM को GRU द्वारा प्रतिस्थापित किया जाता है लेकिन अवधारणा स्थानिक और लौकिक दोनों सूचनाओं को कैप्चर करने की समान है

रिप्रेजेंटेशन वॉरपिंग के माध्यम से सिमेंटिक वीडियो सीएनएन

यह पेपर विभाजन परिणामों को बेहतर बनाने के लिए अतिरिक्त इनपुट के रूप में आसन्न फ़्रेमों में ऑप्टिकल प्रवाह के उपयोग का प्रस्ताव करता है

स्रोत:- https://arxiv.org/abs/1708.03088

सुझाए गए दृष्टिकोण को किसी भी मानक आर्किटेक्चर में प्लग-इन के रूप में जोड़ा जा सकता है। मुख्य घटक जो खेल में है वह नेटवार्प मॉड्यूल है। विभाजन मानचित्र की गणना करने के लिए वर्तमान फ्रेम और पिछले फ्रेम के बीच ऑप्टिकल प्रवाह की गणना यानी Ft की जाती है और Λ(Ft) प्राप्त करने के लिए इसे FlowCNN से गुजारा जाता है। इस प्रक्रिया को प्रवाह परिवर्तन कहा जाता है। यह मान एक वार्प मॉड्यूल के माध्यम से पारित किया जाता है जो नेटवर्क से गुजरते हुए गणना की गई मध्यवर्ती परत के फीचर मैप को भी इनपुट के रूप में लेता है। यह एक विकृत फ़ीचर मानचित्र देता है जिसे वर्तमान परत के मध्यवर्ती फ़ीचर मानचित्र के साथ जोड़ा जाता है और पूरे नेटवर्क को अंत से अंत तक प्रशिक्षित किया जाता है। इस आर्किटेक्चर ने CamVid और Cityscapes वीडियो बेंचमार्क डेटासेट पर SOTA परिणाम प्राप्त किए।

वीडियो सिमेंटिक सेगमेंटेशन के लिए क्लॉकवर्क कन्वनेट

यह पेपर इस तथ्य का लाभ उठाकर वीडियो पर विभाजन कार्य के लिए तंत्रिका नेटवर्क के निष्पादन की गति में सुधार करने का प्रस्ताव करता है कि वीडियो में अर्थ संबंधी जानकारी पिक्सेल स्तर की जानकारी की तुलना में धीरे-धीरे बदलती है। इसलिए अंतिम परतों की जानकारी शुरुआती परतों की तुलना में बहुत धीमी गति से बदलती है। पेपर अलग-अलग समय का सुझाव देता है

स्रोत:- https://arxiv.org/abs/1608.03609

उपरोक्त आंकड़ा मध्य स्तरीय परत पूल4 और गहरी परत एफसी7 के लिए परिवर्तन की तुलना की दर को दर्शाता है। बाईं ओर हम देखते हैं कि चूंकि फ़्रेम में बहुत अधिक परिवर्तन है, इसलिए दोनों परतें परिवर्तन दिखाती हैं, लेकिन पूल4 के लिए परिवर्तन अधिक है। दाईं ओर हम देखते हैं कि फ़्रेम में बहुत अधिक बदलाव नहीं हुआ है। इसलिए पूल4 मामूली परिवर्तन दिखाता है जबकि एफसी7 लगभग शून्य परिवर्तन दिखाता है।

शोध इस अवधारणा का उपयोग करता है और सुझाव देता है कि ऐसे मामलों में जहां फ्रेम में ज्यादा बदलाव नहीं होता है, वहां सुविधाओं/आउटपुट की दोबारा गणना करने की कोई आवश्यकता नहीं होती है और पिछले फ्रेम से कैश्ड मानों का उपयोग किया जा सकता है। चूँकि परिवर्तन की दर परतों के साथ भिन्न होती है, इसलिए परतों के विभिन्न सेटों के लिए अलग-अलग घड़ियाँ निर्धारित की जा सकती हैं। जब घड़ी टिक-टिक करती है तो नए आउटपुट की गणना की जाती है, अन्यथा कैश्ड परिणामों का उपयोग किया जाता है। घड़ी की टिक-टिक की दर को स्थिर रूप से तय किया जा सकता है या गतिशील रूप से सीखा जा सकता है

स्रोत:- https://arxiv.org/abs/1608.03609

कम-विलंबता वीडियो सिमेंटिक विभाजन

यह पेपर सेगमेंटेशन मानचित्र की गणना करने या निश्चित टाइमर या अनुमानी का उपयोग करने के बजाय कैश्ड परिणाम का उपयोग करने के लिए अनुकूल रूप से फ्रेम का चयन करके उपर्युक्त चर्चा में सुधार करता है।

स्रोत:- https://arxiv.org/abs/1804.00389

पेपर नेटवर्क को 2 भागों में विभाजित करने का प्रस्ताव करता है, निम्न स्तरीय सुविधाएँ और उच्च स्तरीय सुविधाएँ। किसी नेटवर्क में निम्न स्तर की सुविधाओं की गणना करने की लागत उच्च सुविधाओं की तुलना में बहुत कम है। शोध विभाजन मानचित्र में परिवर्तन के संकेतक के रूप में निम्न स्तरीय नेटवर्क सुविधाओं का उपयोग करने का सुझाव देता है। अपने अवलोकनों में उन्होंने निम्न स्तर की विशेषताओं में परिवर्तन और विभाजन मानचित्र परिवर्तन के बीच मजबूत संबंध पाया। इसलिए यह समझने के लिए कि क्या उच्च सुविधाओं की गणना करने की आवश्यकता है, 2 फ़्रेमों में कम सुविधाओं का अंतर पाया जाता है और यदि यह एक विशेष सीमा को पार करता है तो इसकी तुलना की जाती है। यह पूरी प्रक्रिया एक छोटे तंत्रिका नेटवर्क द्वारा स्वचालित की जाती है जिसका कार्य दो फ़्रेमों की निचली विशेषताओं को लेना और यह भविष्यवाणी करना है कि उच्च सुविधाओं की गणना की जानी चाहिए या नहीं। चूंकि नेटवर्क निर्णय इनपुट फ्रेम पर आधारित होता है इसलिए लिया गया निर्णय उपरोक्त दृष्टिकोण की तुलना में गतिशील होता है।

बिंदु बादलों के लिए विभाजन

लिडार जैसे सेंसर से आने वाला डेटा प्वाइंट क्लाउड नामक प्रारूप में संग्रहीत किया जाता है। पॉइंट क्लाउड और कुछ नहीं बल्कि 3डी डेटा पॉइंट्स (या किसी भी आयाम) के अव्यवस्थित सेट का एक संग्रह है। यह 3डी में दृश्य का एक विरल प्रतिनिधित्व है और ऐसे मामले में सीएनएन को सीधे लागू नहीं किया जा सकता है। इसके अलावा बिंदु बादलों से निपटने के लिए डिज़ाइन किए गए किसी भी आर्किटेक्चर को यह ध्यान में रखना चाहिए कि यह एक अव्यवस्थित सेट है और इसलिए इसमें कई संभावित क्रमपरिवर्तन हो सकते हैं। तो नेटवर्क क्रमपरिवर्तन अपरिवर्तनीय होना चाहिए। इसके अलावा बिंदु बादल में परिभाषित बिंदुओं को उनके बीच की दूरी से वर्णित किया जा सकता है। इसलिए सामान्यतः नज़दीकी बिंदु उपयोगी जानकारी रखते हैं जो विभाजन कार्यों के लिए उपयोगी है

पॉइंटनेट

पॉइंटनेट वर्गीकरण और विभाजन के कार्यों को हल करने के लिए गहन शिक्षण का उपयोग करके पॉइंट क्लाउड पर अनुसंधान के इतिहास में एक महत्वपूर्ण पेपर है। आइए प्वाइंटनेट की वास्तुकला का अध्ययन करें

स्रोत:- https://arxiv.org/abs/1612.00593

n बिंदुओं के लिए नेटवर्क का इनपुट एक nx 3 मैट्रिक्स है। nx 3 मैट्रिक्स को एक साझा मल्टी-परसेप्ट्रॉन परत (पूरी तरह से जुड़े नेटवर्क) का उपयोग करके nx 64 पर मैप किया जाता है जिसे फिर nx 64 और फिर nx 128 और nx 1024 पर मैप किया जाता है। 1024 वेक्टर प्राप्त करने के लिए अधिकतम पूलिंग लागू की जाती है जिसे k में परिवर्तित किया जाता है 512, 256 और के आकार वाले एमएलपी से गुजरकर आउटपुट। अंततः k क्लास आउटपुट किसी भी वर्गीकरण नेटवर्क के समान उत्पन्न होते हैं।

वर्गीकरण केवल वैश्विक विशेषताओं से संबंधित है लेकिन विभाजन के लिए स्थानीय विशेषताओं की भी आवश्यकता होती है। तो nx 64 पर मध्यवर्ती परत से स्थानीय सुविधाओं को anx 1088 मैट्रिक्स प्राप्त करने के लिए वैश्विक सुविधाओं के साथ संयोजित किया जाता है, जिसे nx 512 तक पहुंचने के लिए 256 और 256 के एमएलपी के माध्यम से भेजा जाता है और फिर 128 और एम के एमएलपी के माध्यम से हर बिंदु के लिए एम आउटपुट क्लास दिया जाता है। बिंदु बादल में.

इसके अलावा नेटवर्क में नेटवर्क के हिस्से के रूप में एक इनपुट ट्रांसफ़ॉर्म और फ़ीचर ट्रांसफ़ॉर्म शामिल होता है, जिसका कार्य इनपुट के आकार को बदलना नहीं है, बल्कि एफ़िन ट्रांसफ़ॉर्मेशन यानी ट्रांसलेशन, रोटेशन आदि में इनवेरिएंस जोड़ना है।

ए-सीएनएन

स्रोत:- https://arxiv.org/abs/1904.08017

ए-सीएनएन स्थानिक जानकारी प्राप्त करने के लिए वलयाकार कनवल्शन के उपयोग का प्रस्ताव करता है। हम सीएनएन से जानते हैं कि कनवल्शन ऑपरेशंस स्थानीय जानकारी को कैप्चर करते हैं जो छवि को समझने के लिए आवश्यक है। ए-सीएनएन ने एनुलर कनवल्शन नामक एक नया कनवल्शन तैयार किया है जो एक बिंदु-क्लाउड में पड़ोस के बिंदुओं पर लागू होता है।

आर्किटेक्चर इनपुट nx 3 बिंदुओं को लेता है और उनके लिए सामान्य ढूंढता है जिसका उपयोग बिंदुओं को क्रमबद्ध करने के लिए किया जाता है। एफपीएस एल्गोरिथ्म का उपयोग करके बिंदुओं का एक उप-नमूना लिया जाता है जिसके परिणामस्वरूप ni x 3 अंक प्राप्त होते हैं। इन पर 128 आयामों तक बढ़ाने के लिए वलयाकार कनवल्शन लगाया जाता है। कुंडलाकार कनवल्शन पड़ोस के बिंदुओं पर किया जाता है जो केएनएन एल्गोरिथ्म का उपयोग करके निर्धारित किया जाता है।

उपरोक्त ऑपरेशनों का एक और सेट आयामों को 256 तक बढ़ाने के लिए किया जाता है। फिर आयामों को 1024 में बदलने के लिए एक एमएलपी लागू किया जाता है और पॉइंट-क्लाउड के समान 1024 वैश्विक वेक्टर प्राप्त करने के लिए पूलिंग लागू की जाती है। इस पूरे हिस्से को एनकोडर माना जाता है. वर्गीकरण के लिए एनकोडर वैश्विक आउटपुट को सी क्लास आउटपुट प्राप्त करने के लिए एमएलपी के माध्यम से पारित किया जाता है। विभाजन कार्य के लिए वैश्विक और स्थानीय दोनों विशेषताओं को पॉइंटसीएनएन के समान माना जाता है और फिर प्रत्येक बिंदु के लिए एम क्लास आउटपुट प्राप्त करने के लिए एमएलपी के माध्यम से पारित किया जाता है।

मेट्रिक्स

आइए उन मेट्रिक्स पर चर्चा करें जिनका उपयोग आम तौर पर किसी मॉडल के परिणामों को समझने और उनका मूल्यांकन करने के लिए किया जाता है।

पिक्सेल सटीकता

पिक्सेल सटीकता सबसे बुनियादी मीट्रिक है जिसका उपयोग परिणामों को मान्य करने के लिए किया जा सकता है। कुल पिक्सेल के संदर्भ में सही ढंग से वर्गीकृत पिक्सेल का अनुपात लेकर सटीकता प्राप्त की जाती है

सटीकता = (टीपी+टीएन)/(टीपी+टीएन+एफपी+एफएन)

ऐसी तकनीक का उपयोग करने का मुख्य नुकसान यह है कि यदि एक वर्ग दूसरे पर हावी हो जाता है तो परिणाम अच्छा लग सकता है। उदाहरण के लिए कहें कि पृष्ठभूमि वर्ग इनपुट छवि का 90% कवर करता है, हम प्रत्येक पिक्सेल को पृष्ठभूमि के रूप में वर्गीकृत करके 90% की सटीकता प्राप्त कर सकते हैं

संघ पर अंतर्विरोध

IOU को जमीनी सच्चाई और उनके मिलन पर अनुमानित विभाजन आउटपुट के प्रतिच्छेदन के अनुपात के रूप में परिभाषित किया गया है। यदि हम कई वर्गों के लिए गणना कर रहे हैं, तो प्रत्येक वर्ग के IOU की गणना की जाती है और उनका माध्य लिया जाता है। यह पिक्सेल सटीकता की तुलना में एक बेहतर मीट्रिक है जैसे कि यदि प्रत्येक पिक्सेल को 2 वर्ग इनपुट में पृष्ठभूमि के रूप में दिया गया है तो IOU मान (90/100+0/100)/2 है यानी 45% IOU जो 90 की तुलना में बेहतर प्रतिनिधित्व देता है % शुद्धता।

स्रोत:- https://www.pyimagesearch.com/2016/11/07/intersection-over-union-iou-for-object-detection

आवृत्ति भारित IOU

यह माध्य IOU का एक विस्तार है जिस पर हमने चर्चा की है और इसका उपयोग वर्ग असंतुलन से निपटने के लिए किया जाता है। यदि एक वर्ग डेटासेट में छवियों के अधिकांश भाग पर हावी है, जैसे उदाहरण के लिए पृष्ठभूमि, तो इसे अन्य वर्गों की तुलना में कम करने की आवश्यकता है। इस प्रकार सभी वर्ग परिणामों का माध्य लेने के बजाय, डेटासेट में वर्ग क्षेत्र की आवृत्ति के आधार पर एक भारित माध्य लिया जाता है।

एफ 1 स्कोर

वर्गीकरण F1 स्कोर में लोकप्रिय रूप से उपयोग की जाने वाली मीट्रिक का उपयोग विभाजन कार्य के साथ-साथ वर्ग असंतुलन से निपटने के लिए भी किया जा सकता है।

स्रोत:- https://en.wikipedia.org/wiki/F1_score

औसत परिशुद्धता

परिशुद्धता के अंतर्गत क्षेत्र - चयनित सीमा के लिए रिकॉल वक्र, विभिन्न वर्गों पर IOU औसत का उपयोग परिणामों को मान्य करने के लिए किया जाता है।

नुकसान के कार्य

हानि फ़ंक्शन का उपयोग तंत्रिका नेटवर्क को अनुकूलन की दिशा में मार्गदर्शन करने के लिए किया जाता है। आइए सिमेंटिक विभाजन कार्य के लिए कुछ लोकप्रिय हानि कार्यों पर चर्चा करें।

क्रॉस एन्ट्रापी हानि

छवि में प्रत्येक पिक्सेल के लिए क्रॉस-एन्ट्रॉपी वर्गीकरण हानि का सरल औसत एक समग्र फ़ंक्शन के रूप में उपयोग किया जा सकता है। लेकिन यह फिर से वर्ग असंतुलन के कारण ग्रस्त है जिसे एफसीएन वर्ग भार का उपयोग करके सुधारने का प्रस्ताव करता है

यूनेट बॉर्डर के पास के पिक्सल को अधिक वेट-एज देकर इस पर सुधार करने की कोशिश करता है जो आंतरिक पिक्सल की तुलना में सीमा का हिस्सा हैं क्योंकि इससे नेटवर्क बॉर्डर की पहचान करने पर अधिक ध्यान केंद्रित करता है और मोटे आउटपुट नहीं देता है।

फोकल नुकसान

फोकल लॉस को अधिक भार-आयु देकर नेटवर्क को कठिन उदाहरणों पर ध्यान केंद्रित करने और एकल-चरण ऑब्जेक्ट डिटेक्टरों में देखे गए चरम वर्ग असंतुलन से निपटने के लिए डिज़ाइन किया गया था। इसे सिमेंटिक विभाजन कार्यों में भी लागू किया जा सकता है

पासा हानि

पासा फ़ंक्शन और कुछ नहीं बल्कि F1 स्कोर है। यह हानि फ़ंक्शन सीधे F1 स्कोर को अनुकूलित करने का प्रयास करता है। इसी प्रकार प्रत्यक्ष IOU स्कोर का उपयोग अनुकूलन चलाने के लिए भी किया जा सकता है

टावर्सकी हानि

यह पासा हानि का एक प्रकार है जो एफएन और एफपी को अलग-अलग भार-आयु देता है

हॉसडॉर्फ़ दूरी

यह एक ऐसी तकनीक है जिसका उपयोग जमीनी सच्चाई और भविष्यवाणी की सीमाओं के बीच समानता को मापने के लिए किया जाता है। इसकी गणना एक सीमा में किसी भी बिंदु से दूसरे में निकटतम बिंदु तक अधिकतम दूरी का पता लगाकर की जाती है। सीमा हानि फ़ंक्शन को सीधे कम करना एक हालिया प्रवृत्ति है और विशेष रूप से चिकित्सा छवि विभाजन जैसे उपयोग-मामलों में बेहतर परिणाम देने के लिए दिखाया गया है जहां सटीक सीमा की पहचान एक महत्वपूर्ण भूमिका निभाती है।

आईओयू या डाइस लॉस जैसे क्षेत्र आधारित नुकसान की तुलना में सीमा हानि का उपयोग करने का लाभ यह है कि यह वर्ग असंतुलन से अप्रभावित है क्योंकि पूरे क्षेत्र को अनुकूलन के लिए नहीं माना जाता है, केवल सीमा पर विचार किया जाता है।

स्रोत https://en.wikipedia.org/wiki/Hausdorff_distance

यहां जिन दो शब्दों पर विचार किया गया है वे दो सीमाओं के लिए हैं यानी जमीनी सच्चाई और आउटपुट भविष्यवाणी।

मुझे लेबल करें :-

पायथन में लिखा गया इमेज एनोटेशन टूल।
बहुभुज एनोटेशन का समर्थन करता है.
खुला स्रोत और मुफ़्त।
विंडोज़, मैक, उबंटू या एनाकोंडा, डॉकर के माध्यम से चलता है
संपर्क :- https://github.com/wkentaro/labelme

स्रोत:- https://github.com/wkentaro/labelme

कंप्यूटर विज़न एनोटेशन टूल:-

इंटेल द्वारा विकसित वीडियो और छवि एनोटेशन टूल
मुफ़्त और ऑनलाइन उपलब्ध है
विंडोज़, मैक और उबंटू पर चलता है
संपर्क :- https://github.com/opencv/cvat

वीजीजी छवि एनोटेटर:-

निःशुल्क खुला स्रोत छवि एनोटेशन उपकरण
सरल HTML पेज <200kb और ऑफ़लाइन चल सकता है
बहुभुज एनोटेशन और बिंदुओं का समर्थन करता है।
संपर्क :- https://github.com/ox-vgg/via

स्रोत:- https://github.com/ox-vgg/via

रेक्टलेबल:-

मैक के लिए सशुल्क एनोटेशन टूल
छवियों को पूर्व-एनोटेट करने के लिए कोर एमएल मॉडल का उपयोग कर सकते हैं
बहुभुज, घन-बेज़ियर, रेखाओं और बिंदुओं का समर्थन करता है
संपर्क :- https://github.com/ryouchinsa/Rectlabel-support

लेबलबॉक्स:-

सशुल्क एनोटेशन टूल
तेज़ और सटीक एनोटेशन के लिए पेन टूल का समर्थन करता है
संपर्क :- https://labelbox.com/product/image-segmentation

डेटासेट

इस अनुभाग के भाग के रूप में आइए जनता में उपलब्ध विभिन्न लोकप्रिय और विविध डेटासेट पर चर्चा करें जिनका उपयोग कोई भी प्रशिक्षण शुरू करने के लिए कर सकता है।

पास्कल प्रसंग

यह डेटासेट पास्कल वीओसी 2010 डेटासेट का विस्तार है और पूरे दृश्य के लिए एनोटेशन प्रदान करके मूल डेटासेट से आगे निकल जाता है और इसमें वास्तविक दुनिया के डेटा के 400+ वर्ग हैं।

स्रोत:- https://cs.stanford.edu/~roozbeh/pascale-context/
स्रोत:- https://cs.stanford.edu/~roozbeh/pascale-context/

संपर्क :- https://cs.stanford.edu/~roozbeh/pascal-context/

COCO डेटासेट

COCO स्टफ डेटासेट में पिक्सेल स्तर एनोटेशन के साथ मूल COCO डेटासेट की 164k छवियां हैं और यह एक सामान्य बेंचमार्क डेटासेट है। इसमें 172 वर्ग शामिल हैं: 80 वस्तु वर्ग, 91 सामान वर्ग और 1 वर्ग 'अनलेबल'

स्रोत:- http://cocodataset.org/#home

संपर्क :- http://cocodataset.org/

सिटीस्केप्स डेटासेट

इस डेटासेट में सड़कों, गलियों, वाहनों और सड़क पर वस्तुओं के लिए विभाजन संबंधी जमीनी सच्चाइयां शामिल हैं। डेटासेट में विभिन्न पर्यावरणीय और मौसम स्थितियों पर एकत्र किए गए 30 वर्ग और 50 शहर शामिल हैं। इसमें बारीक एनोटेटेड छवियों का एक वीडियो डेटासेट भी है जिसका उपयोग वीडियो विभाजन के लिए किया जा सकता है। किट्टी और कैमवीड इसी प्रकार के डेटासेट हैं जिनका उपयोग सेल्फ-ड्राइविंग कारों के प्रशिक्षण के लिए किया जा सकता है।

स्रोत:- https://www.cityscapes-dataset.com/

संपर्क :- https://www.cityscapes-dataset.com/

लिट्स डेटासेट

डेटासेट को लीवर सीटी स्कैन से ट्यूमर के घावों की पहचान करने की चुनौती के हिस्से के रूप में बनाया गया था। डेटासेट में प्रशिक्षण डेटा के 130 सीटी स्कैन और परीक्षण डेटा के 70 सीटी स्कैन शामिल हैं।

स्रोत:- https://competitions.codalab.org/competitions/17094

संपर्क :- https://competitions.codalab.org/competitions/17094

सीसीपी डेटासेट

क्लॉथ को-पार्सिंग एक डेटासेट है जिसे संयुक्त छवि विभाजन और लेबलिंग द्वारा शोध पत्र क्लोदिंग को-पार्सिंग के हिस्से के रूप में बनाया गया है। डेटासेट में कुल 1000 टैग के लिए पिक्सेल स्तर एनोटेशन के साथ 59+ छवियां हैं।

स्रोत:- https://github.com/bearpaw/clothing-co-parsing

स्रोत: - https://github.com/bearpaw/clothing-co-parsing

प्रथीपन डेटासेट

Google की छवियों के आधार पर त्वचा विभाजन के कार्य के लिए बनाया गया एक डेटासेट जिसमें 32 चेहरे की तस्वीरें और 46 पारिवारिक तस्वीरें हैं

स्रोत:- http://cs-chan.com/downloads_skin_dataset.html

संपर्क :- http://cs-chan.com/downloads_skin_dataset.html

इनरिया हवाई छवि लेबलिंग

सार्वजनिक डोमेन छवियों से निर्मित हवाई विभाजन मानचित्रों का एक डेटासेट। इसका कवरेज 810 वर्ग किमी है और इसमें 2 वर्ग हैं बिल्डिंग और नॉन-बिल्डिंग।

स्रोत:- https://project.inria.fr/aerialimagelabeling/
स्रोत:- https://project.inria.fr/aerialimagelabeling/

संपर्क :- https://project.inria.fr/aerialimagelabeling/

S3DIS

इस डेटासेट में 3 से अधिक छवियों के साथ 70000 इमारतों में छह बड़े पैमाने के इनडोर भागों के बिंदु बादल शामिल हैं।

स्रोत:- http://buildingparser.stanford.edu/dataset.html

संपर्क :- http://buildingparser.stanford.edu/dataset.html

सारांश

हमने विभिन्न एल्गोरिदम के वर्गीकरण पर चर्चा की है जिसका उपयोग सिमेंटिक विभाजन के उपयोग-मामले को हल करने के लिए किया जा सकता है, चाहे वह छवियों, वीडियो या बिंदु-क्लाउड पर हो और उनके योगदान और सीमाएं भी हों। हमने परिणामों का मूल्यांकन करने के तरीकों और आरंभ करने के लिए डेटासेट पर भी गौर किया। इससे सामान्य तौर पर एक विषय के रूप में शब्दार्थ विभाजन पर व्यापक समझ मिलनी चाहिए।

सिमेंटिक विभाजन के लिए अधिक संसाधनों की सूची प्राप्त करने के लिए, आरंभ करें https://github.com/mrgloom/awesome-semantic-segmentation.

इसके अलावा पढ़ना


आपको हमारी नवीनतम पोस्ट में रुचि हो सकती है:

अपडेट:
आगे पढ़ने की सामग्री जोड़ी गई.

स्रोत: https://nanonets.com/blog/semantic-image-segmentation-2020/

समय टिकट:

से अधिक एअर इंडिया और मशीन लर्निंग