শব্দার্থক বিভাজনের জন্য 2021 গাইড

উত্স নোড: 872271

ইন্ট্রো

ডেটা হিসাবে চিত্রের সাথে কাজ করার সময় গভীর শেখা অত্যন্ত সফল হয়েছে এবং বর্তমানে এমন এক পর্যায়ে রয়েছে যেখানে এটি একাধিক ব্যবহারের ক্ষেত্রে মানুষের চেয়ে ভাল কাজ করে। কম্পিউটারের দৃষ্টিভঙ্গি দিয়ে সমাধানের জন্য মানুষেরা যে গুরুত্বপূর্ণ সমস্যাগুলি আগ্রহী করেছে সেগুলি হল চিত্রের শ্রেণিবিন্যাস, অবজেক্ট সনাক্তকরণ এবং বিভাগকরণ তাদের সমস্যা ক্রমবর্ধমান ক্রম।

চিত্রের শ্রেণিবিন্যাসের সরল পুরানো কার্যটিতে আমরা কেবলমাত্র একটি চিত্রে উপস্থিত সমস্ত বস্তুর লেবেল পেতে আগ্রহী। অবজেক্ট সনাক্তকরণে আমরা আরও এক ধাপ এগিয়ে এসে একটি চিত্রের মধ্যে উপস্থিত সমস্ত বস্তুগুলি, বাউন্ডিং বাক্সগুলির সাহায্যে অবজেক্টগুলি যে অবস্থানটিতে উপস্থিত রয়েছে সেগুলি সহ এটি জানার চেষ্টা করি। চিত্রের বিভাজনগুলি চিত্রের অবজেক্টগুলির সঠিক সীমানাটি সঠিকভাবে অনুসন্ধানের চেষ্টা করে এটিকে একটি নতুন স্তরে নিয়ে যায়।

উত্স http://cs224d.stanford.edu/index.html

এই নিবন্ধে আমরা চিত্র বিভাজনের এই ধারণার মধ্য দিয়ে যাব, সম্পর্কিত ব্যবহারের ক্ষেত্রে, ফলাফল অর্জনের সাথে জড়িত বিভিন্ন নিউরাল নেটওয়ার্ক আর্কিটেকচার, মেট্রিক এবং ডেটাসেটগুলি অন্বেষণ করার বিষয়ে আলোচনা করব।

চিত্র বিভাজন কি

আমরা জানি একটি চিত্র পিক্সেল সংগ্রহ ছাড়া কিছুই নয়। চিত্র বিভাজন হ'ল একটি নির্দিষ্ট শ্রেণীর অন্তর্গত একটি ছবিতে প্রতিটি পিক্সেলকে শ্রেণিবদ্ধকরণ করার প্রক্রিয়া এবং তাই পিক্সেলকে প্রতি শ্রেণিবদ্ধকরণ সমস্যা হিসাবে ভাবা যেতে পারে। দুই ধরণের বিভাজন কৌশল রয়েছে

Source http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
  1. শব্দার্থ বিভাজন : - সিমেন্টিক সেগমেন্টেশন হ'ল একটি নির্দিষ্ট লেবেলের প্রতিটি পিক্সেলকে শ্রেণিবদ্ধকরণের প্রক্রিয়া। এটি একই বস্তুর বিভিন্ন উদাহরণ জুড়ে আলাদা হয় না। উদাহরণস্বরূপ যদি কোনও ছবিতে 2 টি বিড়াল থাকে তবে শব্দার্থ বিভাজন উভয় বিড়ালের সমস্ত পিক্সেলকে একই লেবেল দেয়
  2. ইনস্ট্যান্ট বিভাজন : - ইন্সট্যান্স সেগমেন্টেশনটি সিনেমিক বিভাগকে এই অর্থে পৃথক করে যে এটি চিত্রের একটি নির্দিষ্ট অবজেক্টের প্রতিটি ক্ষেত্রে একটি অনন্য লেবেল দেয়। উপরের চিত্রটিতে দেখা যাবে যে সমস্ত 3 টি কুকুরকে বিভিন্ন রঙের অর্থ ভিন্ন ভিন্ন লেবেল দেওয়া হয়েছে। শব্দার্থক বিভাগের সাথে তাদের সকলকেই একই রঙ নির্ধারণ করা হত।

সুতরাং আমরা এখন সেই বিন্দুতে আসব যেখানে আমাদের এই ধরণের অ্যালগরিদম প্রয়োজন হবে

চিত্র বিভাজনের ক্ষেত্রে ব্যবহারগুলি

হস্তাক্ষর যাচাই : - জুনজো এবং সকলেই প্রমাণ করেছেন যে হাতের লিখিত দস্তাবেজগুলিতে শব্দ এবং লাইনগুলি শব্দার্থে বিভক্ত করার জন্য কীভাবে শব্দার্থক বিভাজন ব্যবহৃত হচ্ছে 2019 গবেষণা পত্র হস্তাক্ষর অক্ষর চিনতে

উৎস

গুগল প্রতিকৃতি মোড : - এমন অনেকগুলি ব্যবহারের ক্ষেত্রে রয়েছে যেখানে পটভূমি থেকে পূর্বভূমি আলাদা করা একেবারে প্রয়োজনীয়। উদাহরণস্বরূপ গুগলের প্রতিকৃতি মোডে আমরা পটভূমিটি অস্পষ্ট দেখতে পাচ্ছি যখন শীতল প্রভাব দিতে অগ্রভাগ অপরিবর্তিত রয়েছে

উত্স: - https://ai.googleblog.com/2018/03/mobile-real-time-video-segmentation.html

ইউটিউব গল্প : - গুগল সম্প্রতি কন্টেন্ট স্রষ্টাদের গল্প তৈরির সময় বিভিন্ন ব্যাকগ্রাউন্ড দেখানোর জন্য একটি ইউটিউব গল্প প্রকাশ করেছে।

উত্স: - https://ai.googleblog.com/2018/03/mobile-real-time-video-segmentation.html

ভার্চুয়াল মেক আপ : - চিত্র বিভাজনের সাহায্যে এখন ভার্চুয়াল লিপ-স্টিক প্রয়োগ করা সম্ভব

উত্স: - https://www.theverge.com/2017/3/16/14946086/sephora- ভার্চুয়াল- অ্যাসিস্টিওটিও- iOS-app-update-ar-makeup

4. ভার্চুয়াল চেষ্টা করুন : - কাপড়ের ভার্চুয়াল চেষ্টা করা একটি আকর্ষণীয় বৈশিষ্ট্য যা বিশেষত হার্ডওয়্যার ব্যবহার করে স্টোরগুলিতে পাওয়া যায় যা একটি 3 ডি মডেল তৈরি করে। তবে গভীর শেখা এবং চিত্র বিভাগের সাথে একই মাত্র 2 ডি চিত্র ব্যবহার করে তা পাওয়া যায়

সূত্র: - https://arxiv.org/pdf/1807.07688.pdf

ভিজ্যুয়াল চিত্র অনুসন্ধান : - কাপড় বিচ্ছিন্ন করার ধারণাটি ইকমার্সে চিত্র পুনরুদ্ধার অ্যালগরিদমেও ব্যবহৃত হয়। উদাহরণস্বরূপ Pinterest / Amazon আপনাকে যে কোনও ছবি আপলোড করতে এবং কাপড়ের অংশটি ভাগ করার উপর ভিত্তি করে একটি চিত্র অনুসন্ধান করে অনুরূপ অনুরূপ পণ্যগুলি পেতে অনুমতি দেয়

সূত্র: - https://github.com/paucarre/tiefvision

স্বয়ং ড্রাইভিং গাড়ি : - স্ব-ড্রাইভিং গাড়িগুলির একটি পিক্সেল নিখুঁত স্তরে তাদের চারপাশের সম্পূর্ণ বোঝার প্রয়োজন। লেন এবং অন্যান্য প্রয়োজনীয় তথ্য সনাক্ত করতে চিত্র বিভাজন ব্যবহৃত হয়

উত্স: - https://medium.com/intro-to-ar કૃત્રিক- অন্তর্বর্তীকরণ / সিমেন্টিক-সেগমেন্টেশন- প্রত্যয়- নিজেকে- চালিত- car-enginer-nanodegree-c01eb6eaf9d

ন্যানোনেটস 500 টি সংস্থাকে সেমেন্টিক সেগমেন্টেশন ব্যবহার করে স্কেলের আরও ভাল গ্রাহকের অভিজ্ঞতা সক্ষম করতে সহায়তা করে।

পদ্ধতি এবং কৌশল

গভীর শিক্ষার আবির্ভাবের আগে, এসভিএম, র্যান্ডম ফরেস্ট, কে-মানে ক্লাস্টারিংয়ের মতো ধ্রুপদী মেশিন লার্নিং কৌশলগুলি ইমেজ বিভাজনের সমস্যা সমাধানের জন্য ব্যবহৃত হত। তবে বেশিরভাগ চিত্র সম্পর্কিত সমস্যা সম্পর্কিত বিবৃতিগুলির সাথে গভীর শিক্ষাগুলি বিদ্যমান কৌশলগুলির চেয়ে আরও ভালভাবে কাজ করেছে এবং সেমেন্টিক সেগমেন্টেশনের সাথে কাজ করার সময় এখন এটি একটি আদর্শ হয়ে উঠেছে। সমস্যা সমাধানের জন্য ব্যবহৃত কৌশলগুলি পর্যালোচনা করা যাক

সম্পূর্ণ কনভলিউশনাল নেটওয়ার্ক

সিএনএন-এর সাধারণ স্থাপত্যে কয়েকটি সংশোধনমূলক এবং পুলিং স্তর থাকে যার শেষে কয়েকটি সম্পূর্ণ সংযুক্ত স্তর থাকে। 2014 সালে প্রকাশিত সম্পূর্ণ কনভলিউশনাল নেটওয়ার্কের কাগজটি যুক্তি দেখিয়েছে যে চূড়ান্তভাবে সম্পূর্ণভাবে সংযুক্ত স্তরটিকে 1 × 1 সমঝোতা হিসাবে মনে করা যেতে পারে যা পুরো অঞ্চল জুড়ে cover

সূত্র: - https://arxiv.org/abs/1411.4038

অতএব চূড়ান্ত ঘন স্তরগুলি একই ফলাফল অর্জন করে এমন একটি সমাবর্তন স্তর দ্বারা প্রতিস্থাপিত হতে পারে। তবে এখন এটি করার সুবিধাটি হ'ল ইনপুট আকারটি আর ঠিক করার দরকার নেই। ঘন স্তরগুলির সাথে জড়িত হওয়ার সময় ইনপুটটির আকার সীমাবদ্ধ হয় এবং তাই যখন কোনও ভিন্ন আকারের ইনপুট সরবরাহ করতে হয় তখন এটি পুনরায় আকার দিতে হবে। কিন্তু সমঝোতার সাথে ঘন স্তর প্রতিস্থাপন করে, এই সীমাবদ্ধতার অস্তিত্ব নেই।

এছাড়াও বড় আকারের চিত্র যখন ইনপুট হিসাবে সরবরাহ করা হয় তখন উত্পাদিত আউটপুটটি বৈশিষ্ট্য মানচিত্র হবে এবং সাধারণ ইনপুট আকারের চিত্রের মতো শ্রেণিক আউটপুট নয়। এছাড়াও চূড়ান্ত বৈশিষ্ট্য মানচিত্রের পর্যবেক্ষিত আচরণটি প্রয়োজনীয় শ্রেণীর হিটম্যাপটি উপস্থাপন করে অর্থের মানচিত্রে বস্তুর অবস্থান হাইলাইট করা হয়েছে। বৈশিষ্ট্য মানচিত্রের আউটপুট যেহেতু প্রয়োজনীয় সামগ্রীর হিট ম্যাপ, এটি আমাদের ব্যবহার-বিভাগের ক্ষেত্রে ক্ষেত্রে বৈধ তথ্য।

যেহেতু আউটপুট স্তরে প্রাপ্ত বৈশিষ্ট্য মানচিত্রটি সম্পাদিত কনভোলিউশনের সেটের কারণে একটি ডাউন স্যাম্পলড হয়, তাই আমরা কোনও আন্তঃবিবাহ প্রযুক্তি ব্যবহার করে এটির নমুনা তৈরি করতে চাই। বিলিনিয়ার স্যাম্পলিংয়ের কাজ করে তবে কাগজটি ডিকনভোলিউশনের সাথে শিখে নেওয়া নমুনা ব্যবহার করে প্রস্তাব দেয় যা এমনকি কোনও অ-রৈখিক আপ নমুনা শিখতে পারে।

নেটওয়ার্কের ডাউন স্যাম্পলিং অংশটিকে এনকোডার এবং আপ স্যাম্পলিং অংশটিকে ডিকোডার বলা হয়। এটি এমন একটি নিদর্শন যা আমরা অনেক আর্কিটেকচারে দেখতে পাব অর্থাৎ এনকোডার দিয়ে আকার হ্রাস করে এবং তারপর ডিকোডারের সাহায্যে নমুনা তৈরি করব। একটি আদর্শ বিশ্বে আমরা পুলিং ব্যবহার করে নমুনা নীচে নামাতে চাই না এবং একই আকার জুড়ে রাখতে পারি তবে এটি একটি বিশাল পরিমাণের প্যারামিটারকে নিয়ে যায় এবং এটি গণনামূলকভাবে অক্ষম হয়।

সূত্র: - https://arxiv.org/abs/1411.4038

প্রাপ্ত আউটপুট ফলাফলগুলি শালীন হলেও পর্যবেক্ষণ করা আউটপুটটি রুক্ষ এবং মসৃণ নয়। কনভলিউশন স্তরগুলি ব্যবহার করে 32 বার ডাউন ডাউন স্যাম্পলিংয়ের কারণে চূড়ান্ত বৈশিষ্ট্য স্তরে তথ্য হারাতে এর কারণ। এখন এই অল্প তথ্য ব্যবহার করে 32x আপস্যাম্পলিং করা নেটওয়ার্কের পক্ষে অত্যন্ত কঠিন হয়ে পড়ে। এই স্থাপত্যটিকে এফসিএন -32 বলা হয়

এই সমস্যাটি সমাধান করার জন্য, কাগজটি অন্য 2 আর্কিটেকচারের এফসিএন -16, এফসিএন -8 প্রস্তাব করেছে। FCN-16 এ পূর্ববর্তী পুলিং স্তর থেকে তথ্য চূড়ান্ত বৈশিষ্ট্য মানচিত্রের সাথে ব্যবহৃত হয় এবং তাই এখন নেটওয়ার্কের কাজটি 16x আপ স্যাম্পলিং শেখা যা এফসিএন -32 এর সাথে তুলনায় ভাল better FCN-8 পূর্ববর্তী আরও একটি পুলিং স্তর থেকে তথ্য অন্তর্ভুক্ত করে এটি আরও উন্নত করার চেষ্টা করে।

ইউনেট

ইউ-নেট উপরের থেকে সম্পূর্ণ সমঝোতা নেটওয়ার্কের উপরে তৈরি করে। এটি ফুসফুসে বা মস্তিষ্কে টিউমারগুলি অনুসন্ধানের জন্য মেডিকেল উদ্দেশ্যে তৈরি করা হয়েছিল। এটিতে এমন একটি এনকোডারও রয়েছে যা কোনও বৈশিষ্ট্য মানচিত্রের ইনপুট চিত্রটি নিচে স্যাম্পল করে এবং ডিকোডার যা শিখানো ডিকনভোলিউশন স্তরগুলি ব্যবহার করে চিত্রের মানচিত্রকে ইনপুট চিত্রের নমুনা দেয়।

সূত্র: - https://arxiv.org/abs/1505.04597

ইউ-নেট আর্কিটেকচারের প্রধান অবদান শর্টকাট সংযোগগুলি। আমরা উপরে FCN এ দেখেছি যেহেতু আমরা এনকোডারটির অংশ হিসাবে একটি চিত্র ডাউন-নমুনা করেছি আমরা প্রচুর তথ্য হারিয়েছি যা সহজেই এনকোডার অংশে পুনরুদ্ধার করা যায় না। চূড়ান্ত বৈশিষ্ট্য স্তরের আগে পুলিংয়ের স্তরগুলি থেকে তথ্য নিয়ে এফসিএন এটিকে সমাধান করার চেষ্টা করে।

ইউ-নেট এই তথ্য ক্ষতির সমস্যাটি সমাধান করার জন্য একটি নতুন পদ্ধতির প্রস্তাব দিয়েছে। এটি এনকোডারে সংশ্লিষ্ট ডাউন স্যাম্পলিং স্তর থেকে ডিকোডারে প্রতিটি স্যাম্পলিং স্তরকে তথ্য প্রেরণের প্রস্তাব দেয় কারণ উপরের চিত্রটিতে দেখা যায় যে এইভাবে সংখ্যাকে কম রাখলে সূক্ষ্ম তথ্য ক্যাপচার করা যায়। যেহেতু এনকোডারটির শুরুতে স্তরগুলিতে আরও তথ্য থাকবে তারা ইনপুট চিত্রের সাথে সূক্ষ্ম বিবরণ সরবরাহ করে ফলাফলকে অনেক উন্নত করবে এমনভাবে ডিকোডারের স্যাম্পলিং অপারেশনকে সহায়তা করবে। কাগজটিতে একটি নভেল লস ফাংশন ব্যবহারের পরামর্শ দেওয়া হয়েছিল যা আমরা নীচে আলোচনা করব।

ডিপল্যাব

গুগল থেকে একদল গবেষক ডিপ্লব বিদ্যমান ফলাফলগুলি উন্নত করতে এবং কম কম্পিউটেশনাল ব্যয়ে সূক্ষ্ম আউটপুট পেতে বেশ কয়েকটি কৌশল প্রস্তাব করেছেন। গবেষণার অংশ হিসাবে সুপারিশ করা 3 টি মূল উন্নতি

1) অ্যাট্রাস কনভোলিউশন
2) অ্যাটরাস স্পেশিয়াল পিরামিডাল পুলিং
3) চূড়ান্ত আউটপুট উন্নতির জন্য শর্তাধীন র্যান্ডম ক্ষেত্রগুলির ব্যবহার
আসুন এই সমস্ত সম্পর্কে আলোচনা করা যাক

অ্যাট্রাস কনভলিউশন

এফসিএন পদ্ধতির সাথে অন্যতম প্রধান সমস্যা হ'ল টানা পুলিং অপারেশনের কারণে অতিরিক্ত ডাউনসাইজিং। ধারাবাহিক পুলিংয়ের কারণে ইনপুট চিত্রটি 32x দ্বারা নিচে স্যাম্পল হয়ে গেছে যা বিভাগের ফলাফল পেতে আবার নমুনা তৈরি হয়। 32x দ্বারা ডাউনস্যাম্পলিংয়ের ফলে তথ্যের ক্ষয়ক্ষতি ঘটে যা একটি বিভাজন কার্যে সূক্ষ্ম আউটপুট পাওয়ার জন্য অত্যন্ত গুরুত্বপূর্ণ। এছাড়াও 32x দ্বারা নমুনা আপ করার জন্য ডিকনভলিউশন হ'ল একটি গণনা এবং মেমরির ব্যয়বহুল ক্রিয়াকলাপ, কারণ সেখানে শিখানো নমুনা গঠনের জন্য অতিরিক্ত পরামিতি জড়িত রয়েছে।

কাগজটিতে অ্যাট্রাস কনভলিউশন বা গর্তের সমাবর্তন বা ছড়িয়ে পড়া সমঝোতার ব্যবহারের প্রস্তাব দেওয়া হয়েছে যা একই সংখ্যার পরামিতি ব্যবহার করে বৃহত প্রসঙ্গে বোঝার জন্য সহায়তা করে।

Source:- https://www.mdpi.com/1424-8220/19/24/5361/htm

পরামিতিগুলির মধ্যে শূন্যস্থান পূরণের জন্য জিরো (গর্ত বলা হয়) যুক্ত করে ফিল্টারটির আকার বাড়িয়ে ডিলিয়েটেড কনভ্যুলেশন কাজ করে। ফিল্টার পরামিতিগুলির মধ্যে ভরাট গর্ত / শূন্যগুলির সংখ্যাকে একটি শব্দ বিস্তৃতি হার বলে called যখন হার 1 এর সমান হয় তখন এটি সাধারণ সমঝোতা ছাড়া কিছুই নয়। যখন রেট 2 এর সমান হয় তখন প্রতিটি অন্যান্য প্যারামিটারের মধ্যে একটি শূন্য সন্নিবেশ করা হয় যা ফিল্টারটি 5 olution 5 রূপান্তর হিসাবে দেখায়। এখন এটি 5 × 5 কনভোলিউশন প্যারামিটার থাকা অবস্থায় 3 × 3 কনভ্যুশনের প্রসঙ্গ পাওয়ার ক্ষমতা রাখে। একইভাবে 3 হারের জন্য গ্রহণযোগ্য ক্ষেত্রটি 7 × 7 এ যায়।

ডিপল্যাবে সর্বশেষ পুলিংয়ের স্তরগুলি 1 এর পরিবর্তে 2 টি স্ট্রাইডে প্রতিস্থাপন করা হয় যার ফলে ডাউন স্যাম্পলিংয়ের হারটি কেবল 8x এ রাখা হয়। তারপরে বৃহত্তর প্রসঙ্গটি ক্যাপচার করার জন্য একটি সিরিজের আত্রীয় কনভোলিউশন প্রয়োগ করা হয়। প্রশিক্ষণের জন্য আউটপুট লেবেলযুক্ত মাস্কটি প্রতিটি পিক্সেলের তুলনায় 8x দ্বারা নিচে নমুনাযুক্ত। অনুমানের জন্য, একই পরিমাণের আউটপুট উত্পাদন করতে বিলাইনার আপ স্যাম্পলিং ব্যবহার করা হয় যা কম কম্পিউটেশনাল / মেমরির ব্যয়ে সুনির্দিষ্ট পর্যায়ে ফলাফল দেয় যেহেতু বিনাইনার স্যাম্পলিংয়ের জন্য স্যাম্পলিংয়ের জন্য ডিকনভোলিউশনের বিপরীতে কোনও পরামিতি প্রয়োজন হয় না।

এএসপিপি

স্পেসিয়াল পিরামিডাল পুলিং একটি বৈশিষ্ট্য মানচিত্র থেকে বহু-স্কেল তথ্য ক্যাপচারের জন্য এসপিপি নেটতে প্রবর্তিত একটি ধারণা। বিভিন্ন রেজোলিউশনে এসপিপি ইনপুট চিত্রগুলি প্রবর্তনের আগে সরবরাহ করা হয় এবং গুণিত বৈশিষ্ট্য মানচিত্রগুলি একত্রে বহু-স্কেল তথ্য পাওয়ার জন্য ব্যবহৃত হয় তবে এটি আরও গণনা এবং সময় নেয়। স্পেসিয়াল পিরামিডাল পুলিংয়ের সাথে একক ইনপুট চিত্রের সাহায্যে মাল্টি-স্কেল তথ্য ক্যাপচার করা যায়।

সূত্র: - http://kaiminghe.com/eccv14sppnet/index.html

এসপিপি মডিউলটির সাথে নেটওয়ার্কটি 3 × 1 (অর্থাত্ জিএপি), 1 × 2 এবং 2 × 4 মাত্রার 4 আউটপুট উত্পাদন করে। এই মানগুলি 1 ডি ভেক্টরে রূপান্তরিত করে একাধিক স্কেলে তথ্য ক্যাপচার করে সংযুক্ত করা হয়। এসপিপি ব্যবহারের আর একটি সুবিধা হ'ল কোনও আকারের ইনপুট চিত্র সরবরাহ করা যেতে পারে।

এএসপিপি বিভিন্ন স্কেল থেকে তথ্য ফিউজ করার ধারণা গ্রহণ করে এবং এটি এট্রাস কনভোলিউশনে প্রয়োগ করে। ইনপুটটি বিভিন্ন বিসারণ হারের সাথে মিলিত হয় এবং এর ফলাফলগুলি একসাথে মিশে যায় f

সূত্র: - http://liangchiehchen.com/projects/DipLab.html

দেখা যায় যে ইনপুটটি 3 × 3 টি 6 12 টি 18 টি ফিল্টার রেলেশন হারের সাথে মীমাংসিত হয় এবং ফলাফলগুলি একই আকারের কারণে একত্রে সংযুক্ত হয়। একটি 24 × 1 রূপান্তর আউটপুট এছাড়াও সংযুক্ত আউটপুট যুক্ত করা হয়। বিশ্বব্যাপী তথ্য সরবরাহ করতে, স্যাম্পলিংয়ের পরে জিএপি আউটপুটও উপরে যুক্ত করা হয়। প্রয়োজনীয় সংখ্যায় চ্যানেল পেতে 1 × 3 বৈচিত্র্যময় ছড়িয়ে পড়া আউটপুটগুলির 3, 1 × 1 এবং জিএপি আউটপুট 1 × 1 কনভ্যুশনের মধ্য দিয়ে যায়।

যেহেতু প্রয়োজনীয় চিত্রটি ভাগ করা দরকার ইনপুট যে কোনও আকারের হতে পারে এএসপিপি থেকে প্রাপ্ত বহু-স্কেল তথ্য ফলাফলকে উন্নত করতে সহায়তা করে।

সিআরএফ দিয়ে আউটপুট উন্নত করা হচ্ছে

পুলিং একটি অপারেশন যা নিউরাল নেটওয়ার্কে প্যারামিটারগুলির সংখ্যা হ্রাস করতে সহায়তা করে তবে এটি এর সাথে চালানের সম্পত্তিও নিয়ে আসে। ইনপুরিয়েন্স হ'ল ইনপুটটির সামান্য অনুবাদ দ্বারা কোনও নিউরাল নেটওয়ার্কের প্রভাব না থাকা of স্নায়ুর নেটওয়ার্ক দ্বারা প্রাপ্ত সেগমেন্টেশন আউটপুট পুলিংয়ের সাথে প্রাপ্ত এই সম্পত্তিটির কারণে মোটা এবং সীমানাগুলি দৃly়ভাবে সংজ্ঞায়িত হয় না।

সূত্র: - http://liangchiehchen.com/projects/DipLab.html

এটি মোকাবেলায় কাগজটি গ্রাফিকাল মডেল সিআরএফ ব্যবহারের প্রস্তাব দেয়। শর্তসাপেক্ষ র্যান্ডম ফিল্ড একটি পোস্ট-প্রসেসিং পদক্ষেপ পরিচালনা করে এবং শেপার সীমানা সংজ্ঞায়িত করার জন্য উত্পন্ন ফলাফলগুলিকে উন্নত করার চেষ্টা করে। এটি কেবলমাত্র তার লেবেলের উপর ভিত্তি করে নয় অন্য পিক্সেল লেবেলের উপর ভিত্তি করে একটি পিক্সেল শ্রেণিবদ্ধ করে কাজ করে। উপরের চিত্র থেকে দেখা যাবে যে নিউরাল নেটওয়ার্ক দ্বারা উত্পাদিত মোটা সীমানা সিআরএফ এর মধ্য দিয়ে যাওয়ার পরে আরও পরিশ্রুত হয়।

ডিপ্লাব-ভি 3 ব্যাচকে নরমালাইজেশন প্রবর্তন করে এবং একটি রেসনেট ব্লকের প্রতিটি স্তরের ভিতরে (1,2,4) গুনের হারকে প্রস্তাব দেয় suggested এছাড়াও এএসপিপি মডিউলে চিত্রের স্তরের বৈশিষ্ট্য যুক্ত করা যা এএসপিপিতে উপরের আলোচনায় আলোচিত হয়েছিল এই কাগজের অংশ হিসাবে প্রস্তাবিত হয়েছিল

সূত্র: - https://arxiv.org/pdf/1706.05587.pdf

ডিপ্লাব-ভি 3 + স্যাম্পলিং 16x প্লেইন বিলিনারের পরিবর্তে একটি ডিকোডার রাখার পরামর্শ দিয়েছে। ডিকোডারটি ইউ-নেট এর মতো আর্কিটেকচার দ্বারা ব্যবহৃত ডিকোডার থেকে একটি ইঙ্গিত নেয় যা ফলাফলগুলি উন্নত করতে এনকোডার স্তর থেকে তথ্য নেয়। এনকোডার আউটপুটটি বিলিনার আপ স্যাম্পলিং ব্যবহার করে 4x স্যাম্পল করা হয় এবং এনকোডার থেকে ফিচারগুলির সাথে সম্মিলিত হয় যা 4 × 3 কনভোলজ করার পরে আবার নমুনা 3x হয়। এই পদ্ধতির সরাসরি 16x আপ স্যাম্পলিংয়ের চেয়ে ভাল ফলাফল পাওয়া যায়। এছাড়াও পরিবর্তিত এক্সসেপশন আর্কিটেকচারটি এনসোডারের অংশ হিসাবে রেসনেটের পরিবর্তে ব্যবহার করার প্রস্তাব দেওয়া হয়েছে এবং গণনার সংখ্যা হ্রাস করতে এখন অ্যাট্রাসের কনভোলিউশনের শীর্ষে পৃথক পৃথক কনভোলিউশন ব্যবহৃত হয়।

গ্লোবাল কনভলিউশন নেটওয়ার্ক

সূত্র: - https://arxiv.org/pdf/1703.02719.pdf

শব্দার্থক বিভাজন একযোগে দুটি কার্য সম্পাদন জড়িত

i) শ্রেণিবিন্যাস
ii) স্থানীয়করণ

শ্রেণিবদ্ধকরণ নেটওয়ার্কগুলি অনুবাদ এবং রোটেশনের জন্য অবিচ্ছিন্ন হয়ে তৈরি করা হয়েছে যার ফলে অবস্থানের তথ্যের কোনও গুরুত্ব নেই কারণ স্থানীয়করণের সাথে লোকেশন সম্পর্কিত সঠিক বিবরণ প্রাপ্ত রয়েছে। সুতরাং সহজাতভাবে এই দুটি কাজ পরস্পরবিরোধী হয়। বেশিরভাগ বিভাজন অ্যালগরিদমগুলি স্থানীয়করণকে বেশি গুরুত্ব দেয় যেমন উপরের চিত্রের দ্বিতীয়টি এবং এভাবে বিশ্বব্যাপী প্রেক্ষাপটের দৃষ্টিকোণ হারায়। এই রচনায় লেখক শ্রেণিবিন্যাসের কার্যকেও গুরুত্ব দেওয়ার একটি উপায় প্রস্তাব করেছেন যখন একই সাথে স্থানীয়করণের তথ্য হারাবেন না

সূত্র: - https://arxiv.org/pdf/1703.02719.pdf

লেখক নেটওয়ার্কের অংশ হিসাবে বৃহত কার্নেলগুলি ব্যবহার করে এটি অর্জন করার প্রস্তাব রাখে যাতে ঘন সংযোগ সক্ষম করে এবং আরও তথ্যের জন্য। এটি একটি জিসিএন ব্লকের সাহায্যে অর্জন করা হয়েছে যা উপরের চিত্রটিতে দেখা যাবে। জিসিএন ব্লককে আকক্স্ক কনভ্যুশন ফিল্টার হিসাবে ভাবা যেতে পারে যেখানে k 3 এর চেয়ে বড় একটি সংখ্যা হতে পারে প্যারামিটারের সংখ্যা হ্রাস করতে axxk ফিল্টারটি আরও 1 xk এবং কেএক্স 1, কেএক্স 1 এবং 1 এক্স ব্লকে বিভক্ত হয় যা সংক্ষেপে সংক্ষেপে বলা হয়। সুতরাং মান কে বৃদ্ধি করে বৃহত্তর প্রসঙ্গটি ধরা পড়ে।

এছাড়াও, লেখক একটি বাউন্ডারি রিফাইনমেন্ট ব্লক প্রস্তাব করেন যা রেজেটে শর্টকাট সংযোগ এবং একটি রেসিডুয়াল সংযোগ যা ফলাফল পাওয়ার জন্য সংক্ষিপ্ত করা হয় সমন্বিত একটি রেসিডুয়াল ব্লকের অনুরূপ। এটি লক্ষ্য করা যায় যে একটি সীমানা পরিশোধন ব্লক থাকার ফলে বিভাগের সীমানায় ফলাফলের উন্নতি ঘটে।

ফলাফলগুলি দেখায় যে জিসিএন ব্লক বস্তুর কেন্দ্রের কাছাকাছি পিক্সেলের শ্রেণিবদ্ধকরণের নির্ভুলতার উন্নতি করেছে যা দীর্ঘ পরিসীমা প্রসঙ্গটি ক্যাপচারের কারণে সংঘটিত উন্নতির ইঙ্গিত দেয় যখন বাউন্ডারি রিফাইনমেন্ট ব্লক সীমানার নিকটে পিক্সেলের যথার্থতা উন্নত করতে সহায়তা করে।

একাধিকবার দেখুন - সিমেন্টিক সেগমেন্টেশনের জন্য কেএসএসি

ডিপ্ল্যাব পরিবার এএসপিপিকে একাধিক গ্রহণযোগ্য ক্ষেত্রগুলি বিভিন্ন অত্যাধিক সমঝোতার হারগুলি ব্যবহার করে তথ্য ক্যাপচার করতে ব্যবহার করে। যদিও এএসপিপি ফলাফলের বিভাজনকে উন্নত করতে উল্লেখযোগ্যভাবে কার্যকর হয়েছে তবে স্থাপত্যের কারণে কিছু অন্তর্নিহিত সমস্যা রয়েছে। এএসপিপিতে বিভিন্ন সমান্তরাল স্তরগুলিতে কোনও তথ্য ভাগ করা যায়নি সুতরাং প্রতিটি স্তরের কার্নেলের সাধারণীকরণ শক্তি প্রভাবিত করে। এছাড়াও যেহেতু প্রতিটি স্তর বিভিন্ন ধরণের প্রশিক্ষণের নমুনাগুলি পূরণ করে (ছোট ছোট বস্তুগুলির চেয়ে ছোট অ্যাট্রেস রেট এবং বৃহত আকারের থেকে বড় অ্যাট্রেস রেট), তাই প্রতিটি সমান্তরাল স্তরের জন্য তথ্যের পরিমাণ কমভাবে সামগ্রিক সাধারণকরণকে প্রভাবিত করে। এছাড়াও নেটওয়ার্কের পরামিতিগুলির সংখ্যা প্যারামিটারের সংখ্যার সাথে রৈখিকভাবে বৃদ্ধি পায় এবং এভাবে অতিরিক্ত মানানসই হতে পারে।

সূত্র: - https://arxiv.org/pdf/1908.09443.pdf

এই সমস্ত সমস্যাগুলি পরিচালনা করার জন্য লেখক একটি নতুন অভিনব নেটওয়ার্ক কাঠামোর প্রস্তাব দিয়েছেন যার নাম কার্নেল-শেয়ারিং অ্যাট্রাস কনভলিউশন (কেএসএসি)। উপরের চিত্রটিতে দেখা যায়, প্রতিটি সমান্তরাল স্তরের জন্য আলাদা কার্নেল না রেখে এএসপিপি হ'ল একক কার্নেলটি ভাগ করা হয় যাতে নেটওয়ার্কের সাধারণকরণের দক্ষতা উন্নত হয়। এএসপিপির পরিবর্তে কেএসএসি ব্যবহার করে ,,২১২ এবং ১৮ টির প্রসারণের হার ব্যবহার করা হলে প্যারামিটারগুলির 62% পরামিতিগুলি সংরক্ষণ করা হয়।

কেএসএসি কাঠামো ব্যবহারের আরেকটি সুবিধা হ'ল প্যারামিটারের সংখ্যাটি ব্যবহৃত পাতন হারের সংখ্যার চেয়ে স্বতন্ত্র। সুতরাং আমরা মডেলের আকার না বাড়িয়ে যতটা সম্ভব বেশি হার যুক্ত করতে পারি। এএসপিপি 6,12,18 রেট সহ সেরা ফলাফল দেয় তবে যথাযথতা হ্রাস পায় 6,12,18,24 এর সাথে সম্ভাব্য ওভারফিটিং নির্দেশ করে। তবে কেএসএসি যথার্থতা এখনও বর্ধিত সাধারণকরণের সক্ষমতা নির্দেশ করে যথেষ্ট উন্নতি করেছে।

একই কার্নেলটি একাধিক হারের উপর প্রয়োগ করা হওয়ায় এই কর্নেল ভাগ করে নেওয়ার কৌশলটি বৈশিষ্ট্য স্পেসে বৃদ্ধি হিসাবে দেখা যেতে পারে। ইনপুট বৃদ্ধি কীভাবে আরও ভাল ফলাফল দেয় তার অনুরূপ, নেটওয়ার্কে সঞ্চালিত বৈশিষ্ট্য বৃদ্ধির নেটওয়ার্কের উপস্থাপনা সক্ষমতা উন্নত করতে সহায়তা করা উচিত।

ভিডিও বিভাগকরণ

স্ব-ড্রাইভিং গাড়ি, রোবোটিকস ইত্যাদি ব্যবহারের ক্ষেত্রে পর্যবেক্ষণ করা ভিডিওতে রিয়েল-টাইম বিভাজন প্রয়োজন। এখনও অবধি আলোচনা করা স্থাপত্যগুলি গতির জন্য নয়, নির্ভুলতার জন্য ডিজাইন করা হয়েছে। সুতরাং সেগুলি যদি একটি ভিডিওতে প্রতি ফ্রেম ভিত্তিতে প্রয়োগ করা হয় তবে ফলাফলটি খুব কম গতিতে আসবে।

এছাড়াও সাধারণত একটি ভিডিওতে একটানা ফ্রেম জুড়ে প্রচুর দৃশ্যে প্রচুর ওভারল্যাপ থাকে যা ফলাফল এবং গতির উন্নতির জন্য ব্যবহার করা যেতে পারে যা প্রতি ফ্রেম ভিত্তিতে বিশ্লেষণ করা গেলে ছবিতে আসবে না। এই সূত্রগুলি ব্যবহার করে আসুন আর্কিটেকচারগুলি নিয়ে আলোচনা করুন যা বিশেষ করে ভিডিওর জন্য ডিজাইন করা হয়েছে

এসটিএফসিএন

স্পাটিও-টেম্পোরাল এফসিএন ভিডিও বিভাজন করতে এলএসটিএমের সাথে এফসিএন ব্যবহার করার প্রস্তাব দেয়। কোনও চিত্র বিভাজনের জন্য বৈশিষ্ট্যগুলি নিষ্কাশনের জন্য কীভাবে FCN ব্যবহার করা যেতে পারে সে সম্পর্কে আমরা ইতিমধ্যে সচেতন। এলএসটিএম হ'ল এক ধরণের নিউরাল নেটওয়ার্ক যা সময়ের সাথে ক্রমযুক্ত তথ্যগুলি ক্যাপচার করতে পারে। স্থানীয় তথ্য এবং অস্থায়ী তথ্য উভয়ই ক্যাপচার করতে এসটিএফসিএন এলসিটিএম এর সাথে এফসিএন এর শক্তি একত্রিত করে

সূত্র: - https://arxiv.org/abs/1608.05971

উপরের চিত্র থেকে দেখা যাবে যে এসটিএফসিএন একটি এফসিএন, স্প্যাটিও-টেম্পোরাল মডিউল এবং ডিকনভোলিউশন দ্বারা গঠিত। কোনও এফসিএন দ্বারা উত্পাদিত বৈশিষ্ট্য মানচিত্রটি স্পাটিও-টেম্পোরাল মডিউলটিতে প্রেরণ করা হয় যা আগের ফ্রেমের মডিউল থেকে একটি ইনপুটও রয়েছে। এই উভয় ইনপুট উপর ভিত্তি করে মডিউল স্থানিক তথ্য ছাড়াও অস্থায়ী তথ্য ক্যাপচার এবং এটি এফসিএন মধ্যে সম্পন্ন ডিকনভোলিউশন ব্যবহার করে চিত্রের মূল আকারে নমুনাযুক্ত যা জুড়ে প্রেরণ

যেহেতু এফসিএন এবং এলএসটিএম উভয়ই এসটিএফসিএন-এর অংশ হিসাবে একসাথে কাজ করছে, নেটওয়ার্কটি প্রশিক্ষণের যোগ্য এবং একক ফ্রেম বিভাগকরণের পদ্ধতির বাইরে চলে গেছে। অনুরূপ পন্থা রয়েছে যেখানে জিআরইউ দ্বারা এলএসটিএম প্রতিস্থাপন করা হয়েছে তবে ধারণাটি স্থানিক এবং অস্থায়ী উভয় তথ্য ক্যাপচারের মত

উপস্থাপনা ওয়ারপিংয়ের মাধ্যমে অর্থপূর্ণ ভিডিও সিএনএন

এই কাগজটি বিভাগের ফলাফলগুলি উন্নত করতে অতিরিক্ত ইনপুট হিসাবে সংলগ্ন ফ্রেমগুলিতে অপটিকাল প্রবাহের ব্যবহারের প্রস্তাব দেয়

সূত্র: - https://arxiv.org/abs/1708.03088

প্রস্তাবিত পদ্ধতির কোনও মানক স্থাপত্যের মধ্যে প্লাগ-ইন হিসাবে দড়ি দেওয়া যেতে পারে। খেলতে আসা মূল উপাদানটি নেটওয়ার্প মডিউল। সেগমেন্টেশন মানচিত্রের গণনা করতে বর্তমান ফ্রেম এবং পূর্ববর্তী ফ্রেমের মধ্যে অপটিক্যাল প্রবাহটি গণনা করা হয় অর্থাৎ ফ্যাট এবং Flow (ফিট) পেতে একটি ফ্লোসিএনএন দিয়ে যায়। এই প্রক্রিয়াটিকে ফ্লো ট্রান্সফর্মেশন বলা হয়। এই মানটি একটি ওয়ার্প মডিউলের মধ্য দিয়ে গেছে যা নেটওয়ার্কের মধ্য দিয়ে মধ্য দিয়ে মধ্যবর্তী স্তরটির বৈশিষ্ট্য মানচিত্রকে ইনপুট হিসাবে গ্রহণ করে takes এটি একটি রুপযুক্ত বৈশিষ্ট্য মানচিত্র দেয় যা তারপরে বর্তমান স্তরের মধ্যবর্তী বৈশিষ্ট্য মানচিত্রের সাথে একত্রিত হয় এবং পুরো নেটওয়ার্কটি প্রশিক্ষণ শেষে শেষ হয়। এই আর্কিটেকচার ক্যামভিড এবং সিটিস্কেপ ভিডিও বেনমার্ক ডেটাসেটগুলিতে SOTA ফলাফল অর্জন করেছে।

ভিডিও সিনমেটিক বিভাজনের জন্য ক্লকওয়ার্ক কনভনেটস

এই কাগজটিতে ভিডিওতে সিমেন্টিক তথ্যগুলি পিক্সেল স্তরের তথ্যের তুলনায় ধীরে ধীরে পরিবর্তিত হয় এমন সত্যতার সুযোগ নিয়ে ভিডিওগুলিতে বিভাগগুলিতে টাস্কের জন্য নিউরাল নেটওয়ার্ক কার্যকর করার গতি উন্নত করার প্রস্তাব দেয়। সুতরাং চূড়ান্ত স্তরগুলির তথ্য শুরু স্তরগুলির তুলনায় অনেক ধীর গতিতে পরিবর্তিত হয়। কাগজ বিভিন্ন সময় পরামর্শ দেয়

সূত্র: - https://arxiv.org/abs/1608.03609

উপরের চিত্রটি মাঝারি স্তরের স্তর পুল 4 এবং একটি গভীর স্তর এফসি 7 এর জন্য পরিবর্তনের তুলনার হারকে উপস্থাপন করে। বাম দিকে আমরা দেখতে পাচ্ছি যেহেতু ফ্রেমগুলি জুড়ে প্রচুর পরিবর্তন রয়েছে উভয় স্তরই একটি পরিবর্তন দেখায় তবে পুল 4 এর পরিবর্তন বেশি হয়। ডানদিকে আমরা দেখতে পাই যে ফ্রেমগুলি জুড়ে খুব বেশি পরিবর্তন হয় না। সুতরাং পুল 4 প্রান্তিক পরিবর্তন দেখায় যেখানে fc7 প্রায় শূন্য পরিবর্তন দেখায়।

গবেষণাটি এই ধারণাটি ব্যবহার করে এবং পরামর্শ দেয় যে যেখানে ফ্রেমগুলি জুড়ে খুব বেশি পরিবর্তন দেখা যায় না সেখানে আবার বৈশিষ্ট্যগুলি / আউটপুটগুলি গণনা করার প্রয়োজন নেই এবং পূর্ববর্তী ফ্রেম থেকে ক্যাশেড মানগুলি ব্যবহার করা যেতে পারে। যেহেতু পরিবর্তনের হার স্তরগুলির সাথে পরিবর্তিত হয় স্তরগুলির বিভিন্ন সেটের জন্য বিভিন্ন ঘড়ি সেট করা যেতে পারে। যখন ঘড়ির টিকগুলি নতুন আউটপুটগুলি গণনা করা হয়, অন্যথায় ক্যাশেড ফলাফল ব্যবহার করা হয়। ক্লক টিকের হার স্থিতিশীলভাবে নির্ধারণ করা যেতে পারে বা গতিশীলভাবে শেখা যায়

সূত্র: - https://arxiv.org/abs/1608.03609

লো-লেটেন্সি ভিডিও সিমেটিক বিভাজন

এই কাগজটি উপরের আলোচনার শীর্ষে উন্নততর মানচিত্রটি গণনা করার জন্য বা একটি নির্দিষ্ট টাইমার বা হিউরিস্টিক ব্যবহার না করে ক্যাশেড ফলাফলটি ব্যবহার করে অভিযোজিতভাবে ফ্রেমগুলি নির্বাচন করে উন্নত করে।

সূত্র: - https://arxiv.org/abs/1804.00389

কাগজটিতে নেটওয়ার্কটি 2 ভাগে, নিম্ন স্তরের বৈশিষ্ট্য এবং উচ্চ স্তরের বৈশিষ্ট্যগুলিতে বিভক্ত করার প্রস্তাব দেওয়া হয়েছে। উচ্চতর বৈশিষ্ট্যগুলির তুলনায় কোনও নেটওয়ার্কে নিম্ন স্তরের বৈশিষ্ট্যগুলির কম্পিউটিংয়ের ব্যয় অনেক কম। গবেষণাটি বিভাগের মানচিত্রে পরিবর্তনের সূচক হিসাবে নিম্ন স্তরের নেটওয়ার্ক বৈশিষ্ট্যগুলি ব্যবহার করার পরামর্শ দেয়। তাদের পর্যবেক্ষণগুলিতে তারা নিম্ন স্তরের বৈশিষ্ট্যগুলি পরিবর্তন এবং বিভাগের মানচিত্র পরিবর্তনের মধ্যে দৃlation় সম্পর্কের সন্ধান পেয়েছে। সুতরাং উচ্চতর বৈশিষ্ট্যগুলি গণনা করার প্রয়োজন আছে কিনা তা গণনা করার দরকার আছে তা বুঝতে, 2 টি ফ্রেমের মধ্যে নিম্ন বৈশিষ্ট্যগুলির পার্থক্য পাওয়া যায় এবং এটি একটি নির্দিষ্ট প্রান্তকে অতিক্রম করলে তুলনা করা হয়। এই সম্পূর্ণ প্রক্রিয়াটি একটি ছোট নিউরাল নেটওয়ার্ক দ্বারা স্বয়ংক্রিয় হয় যার কাজটি দুটি ফ্রেমের নিম্ন বৈশিষ্ট্য গ্রহণ করা এবং উচ্চতর বৈশিষ্ট্যগুলি গণনা করা উচিত কিনা সে সম্পর্কে পূর্বাভাস দেওয়া। নেটওয়ার্কের সিদ্ধান্তটি ইনপুট ফ্রেমের উপর ভিত্তি করে নেওয়া সিদ্ধান্তটি উপরের পদ্ধতির তুলনায় গতিশীল।

পয়েন্ট মেঘের জন্য বিভাজন

লিজারের মতো সেন্সর থেকে আসা ডেটা পয়েন্ট ক্লাউড নামে একটি ফর্ম্যাটে সংরক্ষণ করা হয়। পয়েন্ট ক্লাউড 3 ডি ডেটা পয়েন্টের (বা কোনও মাত্রা) আনঅর্ডারার্ড সেট সংগ্রহ ছাড়া কিছুই নয়। এটি 3 ডি দৃশ্যের অপূর্ব প্রতিনিধিত্ব এবং সিএনএন সরাসরি এ জাতীয় ক্ষেত্রে প্রয়োগ করা যায় না। এছাড়াও পয়েন্ট মেঘ মোকাবেলা করার জন্য নকশাকৃত যেকোন আর্কিটেকচারের বিষয়টি বিবেচনা করা উচিত যে এটি একটি আনর্ডারড সেট এবং তাই এর ফলে প্রচুর সম্ভাব্য অনুমতি দেওয়া যেতে পারে। সুতরাং নেটওয়ার্কটি পরোয়ানা হ্রাস করা উচিত arian এছাড়াও বিন্দু মেঘে সংজ্ঞায়িত পয়েন্টগুলি তাদের মধ্যকার দূরত্ব দ্বারা বর্ণনা করা যেতে পারে। সাধারণভাবে নিকটস্থ পয়েন্টগুলি দরকারী তথ্য বহন করে যা বিভাজন কাজের জন্য দরকারী

পয়েন্টনেট

শ্রেণিবিন্যাস এবং বিভাগকরণের কাজগুলি সমাধান করার জন্য গভীর শেখার সাহায্যে পয়েন্ট মেঘের উপর গবেষণার ইতিহাসের পয়েন্টনেট একটি গুরুত্বপূর্ণ কাগজ paper পয়েন্টনেটের আর্কিটেকচার অধ্যয়ন করি

সূত্র: - https://arxiv.org/abs/1612.00593

এন পয়েন্টগুলির জন্য নেটওয়ার্কের ইনপুটটি একটি এনএক্স 3 ম্যাট্রিক্স। এনএক্স 3 ম্যাট্রিক্সকে একটি ভাগ করা মাল্টি-পারসেপ্ট্রন স্তর (সম্পূর্ণ সংযুক্ত নেটওয়ার্ক) ব্যবহার করে এনএক্স 64 তে ম্যাপ করা হয় যা পরে এনএক্স 64 এবং তারপরে এনএক্স 128 এবং এনএক্স 1024 এ ম্যাপ করা হয়। 1024 ভেক্টর পেতে কে সর্বাধিক পুলিং প্রয়োগ করা হয় যা কে রূপান্তরিত হয় 512, 256 এবং কে সহ মাপের এমএলপি পাস করে ফলাফলগুলি। শেষ পর্যন্ত কে শ্রেণীর আউটপুটগুলি যে কোনও শ্রেণিবদ্ধকরণ নেটওয়ার্কের অনুরূপ উত্পাদিত হয়।

শ্রেণিবদ্ধকরণ কেবলমাত্র বিশ্বব্যাপী বৈশিষ্ট্যগুলির সাথে ডিল করে তবে বিভাগগুলির পাশাপাশি স্থানীয় বৈশিষ্ট্যও প্রয়োজন। সুতরাং এনএক্স at৪ এর মধ্যবর্তী স্তর থেকে স্থানীয় বৈশিষ্ট্যগুলি বিশ্বব্যাপী বৈশিষ্ট্যগুলির সাথে সংমিশ্রিত করা হয়েছে যাতে উদ্বেগ পেতে 64 ম্যাট্রিক্স হয় যা 1088 এবং 512 এর এমপিএল মাধ্যমে এনএক্স 256 এ পাঠানো হয় এবং তারপরে এমএলপি এর 256 এবং এম এর প্রতিটি পয়েন্টের জন্য এম আউটপুট ক্লাস দেয় পয়েন্ট মেঘে।

এছাড়াও নেটওয়ার্কের অংশ হিসাবে একটি ইনপুট ট্রান্সফর্ম এবং বৈশিষ্ট্য রূপান্তর জড়িত যার কাজ হ'ল ইনপুটটির আকৃতি পরিবর্তন না করে অ্যাফাইন ট্রান্সফর্মেশনগুলি যেমন অনুবাদ, রোটেশন ইত্যাদির সাথে সংযুক্তি যুক্ত করা to

এ-সিএনএন

সূত্র: - https://arxiv.org/abs/1904.08017

এ-সিএনএন স্থানিক তথ্য ক্যাপচারের জন্য অ্যানুলার কনভোলিউশনগুলির ব্যবহারের প্রস্তাব দেয়। আমরা সিএনএন থেকে জানি যে কনভলশন অপারেশনগুলি স্থানীয় তথ্যকে ক্যাপচার করে যা চিত্রটির বোঝার জন্য প্রয়োজনীয়। এ-সিএনএন অ্যানুলার কনভোলশন নামে একটি নতুন কনভলিউশন তৈরি করেছিল যা একটি পয়েন্ট-ক্লাউডের প্রতিবেশী পয়েন্টগুলিতে প্রয়োগ করা হয়।

আর্কিটেকচারটি ইনপুট এনএক্স 3 পয়েন্ট হিসাবে নেয় এবং পয়েন্ট ক্রম করতে ব্যবহৃত হয় যা তাদের জন্য নরমালগুলি সন্ধান করে। পয়েন্টগুলির একটি নমুনা এফপিএস অ্যালগরিদম ব্যবহার করে নেওয়া হয় যার ফলশ্রুতি ni x 3 পয়েন্ট। এই অনুলিপি কনভলিউশন 128 মাত্রা বৃদ্ধি করার জন্য প্রয়োগ করা হয়। কৌণিক সমাবর্তন প্রতিবেশী পয়েন্টগুলিতে সঞ্চালিত হয় যা কেএনএন অ্যালগরিদম ব্যবহার করে নির্ধারিত হয়।

উপরের ক্রিয়াকলাপগুলির আরও একটি সেট 256 এ মাত্রা বাড়ানোর জন্য সঞ্চালিত হয় Then তারপরে মাত্রা পরিবর্তন করে 1024 এ একটি এমপিএল প্রয়োগ করা হয় এবং পয়েন্ট-ক্লাউডের মতো 1024 গ্লোবাল ভেক্টর পেতে পুলিং প্রয়োগ করা হয়। এই পুরো অংশটি এনকোডার হিসাবে বিবেচিত হয়। শ্রেণিবদ্ধকরণের জন্য এন ক্লাবের আউটপুটগুলি পাওয়ার জন্য এনকোডার বৈশ্বিক আউটপুট এমপিএল দিয়ে যায়। বিভাগকরণের জন্য উভয় বিশ্বব্যাপী এবং স্থানীয় বৈশিষ্ট্যগুলি পয়েন্টসিএনএন এর অনুরূপ হিসাবে বিবেচনা করা হয় এবং তারপরে প্রতিটি পয়েন্টের জন্য এম বর্গ আউটপুট পেতে একটি এমএলপি মাধ্যমে পাস করা হয়।

ছন্দোবিজ্ঞান

আসুন সেই মডেলগুলি নিয়ে আলোচনা করুন যা সাধারণত কোনও মডেলের ফলাফলগুলি বোঝার জন্য এবং মূল্যায়নের জন্য ব্যবহৃত হয়।

পিক্সেল যথার্থতা

পিক্সেল যথার্থতা সর্বাধিক প্রাথমিক মেট্রিক যা ফলাফলগুলি যাচাই করতে ব্যবহৃত হতে পারে। সঠিকভাবে শ্রেণিবদ্ধ পিক্সেল আর্ট মোট পিক্সেলের অনুপাত গ্রহণ করে নির্ভুলতা পাওয়া যায়

নির্ভুলতা = (টিপি + টিএন) / (টিপি + টিএন + এফপি + এফএন)

এই জাতীয় প্রযুক্তি ব্যবহারের প্রধান অসুবিধাটি হ'ল ফলটি ভাল লাগতে পারে যদি এক শ্রেণি অন্যটিকে অতিরিক্ত চাপ দেয়। উদাহরণস্বরূপ বলুন ব্যাকগ্রাউন্ড ক্লাসটি 90% ইনপুট চিত্রকে কভার করে আমরা প্রতিটি পিক্সেলকে ব্যাকগ্রাউন্ড হিসাবে শ্রেণিবদ্ধ করে 90% এর নির্ভুলতা পেতে পারি

ছেদ ওভার ইউনিয়ন

আইইউ স্থল সত্যের ছেদ অনুপাত হিসাবে সংজ্ঞায়িত করা হয় এবং তাদের ইউনিয়নের উপর পূর্বাভাস বিভাজন আউটপুট। যদি আমরা একাধিক ক্লাসের জন্য গণনা করি তবে প্রতিটি শ্রেণীর আইওইউ গণনা করা হয় এবং তাদের অর্থ নেওয়া হয়। এটি পিক্সেলের যথার্থতার তুলনায় আরও ভাল মেট্রিক যেমন প্রতিটি পিক্সেলকে 2 শ্রেণির ইনপুটটিতে ব্যাকগ্রাউন্ড হিসাবে দেওয়া হয় আইওউর মান হয় (90/100 + 0/100) / 2 অর্থাৎ 45% আইইউ যা 90 এর তুলনায় একটি ভাল প্রতিনিধিত্ব দেয় % সঠিকতা.

উত্স: - https://www.pyimagesearch.com/2016/11/07/intersection-over-union-iou-for-object-detection

ফ্রিকোয়েন্সি ওজন আইওইউ

এটি গড় আইওউর উপর একটি এক্সটেনশন যা আমরা আলোচনা করেছি এবং শ্রেণি ভারসাম্য রোধ করার জন্য ব্যবহৃত হয়। উদাহরণস্বরূপ ব্যাকগ্রাউন্ডের মতো কোনও ডেটাসেটে চিত্রের বেশিরভাগ অংশে যদি একটি শ্রেণি প্রাধান্য পায় তবে অন্যান্য শ্রেণীর তুলনায় এটি ওজন করা দরকার। সুতরাং সমস্ত শ্রেণীর ফলাফলের গড় গ্রহণের পরিবর্তে, ডেটাসেটে শ্রেণীর অঞ্চলের ফ্রিকোয়েন্সি ভিত্তিতে একটি ওজনযুক্ত গড় নেওয়া হয়।

এফ 1 স্কোর

শ্রেণিবিন্যাস এফ 1 স্কোরে জনপ্রিয়ভাবে ব্যবহৃত মেট্রিকটি বিভাগের ভারসাম্যহীনতা মোকাবেলায় বিভাগ বিভাগের কাজেও ব্যবহার করা যেতে পারে।

সূত্র: - https://en.wikedia.org/wiki/F1_score

গড় যথার্থতা

যথার্থতার অধীনে অঞ্চল - ফলাফলকে বৈধ করার জন্য বিভিন্ন শ্রেণীর উপরে আইওইউ গড় একটি নির্বাচিত প্রান্তিকের জন্য পুনর্বিবেচনা বক্ররেখা ব্যবহার করা হয়।

ক্ষতি ফাংশন

ক্ষতি ফাংশনটি অপ্টিমাইজেশনের দিকে নিউরাল নেটওয়ার্ককে গাইড করতে ব্যবহৃত হয়। আসুন শব্দার্থ বিভাজন কাজের জন্য কয়েকটি জনপ্রিয় লোকস ফাংশন নিয়ে আলোচনা করা যাক।

ক্রস এন্ট্রপি ক্ষতি

চিত্রের প্রতিটি পিক্সেলের জন্য ক্রস-এনট্রপি শ্রেণিবদ্ধকরণ ক্ষতির সাধারণ গড় সামগ্রিক ফাংশন হিসাবে ব্যবহার করা যেতে পারে। তবে এটি আবার শ্রেণির ভারসাম্যহীনতার কারণে ভুগছে যা এফসিএন ক্লাস ওজন ব্যবহার করে সংশোধন করার প্রস্তাব দিয়েছে

ইউনেট সীমান্তের নিকটবর্তী পিক্সেলগুলিকে সীমানার অংশ হিসাবে সীমান্তের আরও বেশি ওজন-বয়স দিয়ে এটিকে আরও উন্নত করার চেষ্টা করে কারণ এটি নেটওয়ার্ককে সীমানা চিহ্নিতকরণ এবং মোটা আউটপুট না দেওয়ার ক্ষেত্রে আরও বেশি ফোকাস তৈরি করে।

ফোকাল ক্ষতি

ফোকাল লসকে আরও বেশি ওজন-বয়স দিয়ে হার্ড উদাহরণগুলিতে নেটওয়ার্ককে ফোকাস করার জন্য এবং একক-পর্যায়ে অবজেক্ট ডিটেক্টরগুলিতে পরিলক্ষিত চূড়ান্ত শ্রেণির ভারসাম্যহীনতা মোকাবেলায় ডিজাইন করা হয়েছিল। একই শব্দার্থক বিভাগেও প্রয়োগ করা যেতে পারে

ডাইস লস

ডাইস ফাংশন এফ 1 স্কোর ছাড়া কিছুই নয়। এই ক্ষতি ফাংশনটি সরাসরি এফ 1 স্কোরটি অপ্টিমাইজ করার চেষ্টা করে। একইভাবে ডাইরেক্ট আইইউ স্কোর অপটিমাইজেশন চালানোর জন্যও ব্যবহার করা যেতে পারে

ট্রভারস্কি লস

এটি ডাইস হ্রাসের বৈকল্পিক যা এফএন এবং এফপিকে বিভিন্ন ওজন-বয়স দেয়

হাউসডর্ফ দূরত্ব

এটি এমন একটি কৌশল যা স্থল সত্য এবং পূর্বাভাসের সীমানাগুলির মধ্যে মিলটি পরিমাপ করতে ব্যবহৃত হয়। এটি একটি সীমানার যে কোনও বিন্দু থেকে অপরটির নিকটতম বিন্দুতে সর্বাধিক দূরত্ব সন্ধান করে গণনা করা হয়। সীমানা ক্ষতি ফাংশন সরাসরি হ্রাস সাম্প্রতিক প্রবণতা এবং বিশেষত মেডিকেল ইমেজ বিভাগের মতো ব্যবহারের ক্ষেত্রে যেখানে সঠিক সীমানা চিহ্নিতকরণ একটি মুখ্য ভূমিকা পালন করে সেখানে আরও ভাল ফলাফল দেওয়ার জন্য প্রদর্শিত হয়েছে।

আইওইউ বা ডাইস লসের মতো অঞ্চলভিত্তিক ক্ষতির তুলনায় সীমানা ক্ষতি ব্যবহারের সুবিধা হ'ল এটি শ্রেণি ভারসাম্যহীনতায় প্রভাবিত না হওয়ায় পুরো অঞ্চলটি অপ্টিমাইজেশনের জন্য বিবেচিত হয় না, কেবল সীমানা বিবেচনা করা হয়।

উত্স https://en.wikedia.org/wiki/Hausdorff_distance

এখানে বিবেচিত দুটি পদ দুটি সীমার জন্য যেমন স্থল সত্য এবং আউটপুট পূর্বাভাস।

লেবেলমি :-

অজগরে লেখা চিত্র টীকা সরঞ্জাম।
বহুভুক্ত টীকা সমর্থন করে।
মুক্ত উত্স এবং বিনামূল্যে।
উইন্ডোজ, ম্যাক, উবুন্টু বা অ্যানাকোন্ডা, ডকারের মাধ্যমে চলে
লিঙ্ক: - https://github.com/wkentaro/labelme

সূত্র: - https://github.com/wkentaro/labelme

কম্পিউটার ভিশন টীকা সরঞ্জাম: -

ইন্টেল দ্বারা নির্মিত ভিডিও এবং চিত্র টীকা সরঞ্জাম
বিনামূল্যে এবং অনলাইনে উপলব্ধ
উইন্ডোজ, ম্যাক এবং উবুন্টুতে চলছে
লিঙ্ক: - https://github.com/opencv/cvat

ভিজিজি চিত্র টিকা:

বিনামূল্যে ওপেন সোর্স ইমেজ টিকাশকরণ সরঞ্জাম
সাধারণ এইচটিএমএল পৃষ্ঠা <200kb এবং অফলাইনে চলতে পারে
বহুভুত টিকা এবং পয়েন্ট সমর্থন করে।
লিঙ্ক: - https://github.com/ox-vgg/via

সূত্র: - https://github.com/ox-vgg/via

রেক্টলেবেল: -

ম্যাকের জন্য প্রদত্ত টিকাশকরণ সরঞ্জাম
চিত্রগুলি প্রাক-মন্তব্য করতে কোর এমএল মডেলগুলি ব্যবহার করতে পারেন
বহুভুজ, কিউবিক-বেজিয়ার, লাইন এবং পয়েন্টগুলি সমর্থন করে
লিঙ্ক: - https://github.com/ryouchinsa/Rectlabel-support

লেবেলবক্স: -

প্রদত্ত টিকাশ সরঞ্জাম
দ্রুত এবং নির্ভুল টীকায়িত করার জন্য কলমের সরঞ্জাম সমর্থন করে
লিঙ্ক: - https://labelbox.com/product/image-segmentation

ডেটাসেট

এই বিভাগের অংশ হিসাবে আসুন জনসাধারণের জন্য উপলব্ধ বিভিন্ন জনপ্রিয় এবং বিভিন্ন ডেটাসেটগুলি নিয়ে আলোচনা করুন যা প্রশিক্ষণ দিয়ে শুরু করতে কেউ ব্যবহার করতে পারে।

পাস্কাল প্রসঙ্গ

এই ডেটাসেটটি পাস্কাল ভিওসি ২০১০ ডেটাসেটের একটি এক্সটেনশান এবং পুরো দৃশ্যের জন্য টীকা সরবরাহ করে মূল ডেটাसेटের বাইরে চলে যায় এবং এতে রিয়েল-ওয়ার্ল্ড ডেটাগুলির 2010+ শ্রেণি রয়েছে।

সূত্র: - https://cs.stanford.edu/~roozbeh/pascal-context/
সূত্র: - https://cs.stanford.edu/~roozbeh/pascal-context/

লিঙ্ক: - https://cs.stanford.edu/~roozbeh/pascal-context/

কোকো ডেটাসেট

COCO স্টাফ ডেটাসেটে পিক্সেল স্তরের টীকাগুলি সহ মূল COCO ডেটাসেটের 164k চিত্র রয়েছে এবং এটি একটি সাধারণ বেঞ্চমার্ক ডেটাসেট। এটি 172 শ্রেণিগুলি অন্তর্ভুক্ত করে: 80 টি বিষয় ক্লাস, 91 টি স্টাফ ক্লাস এবং 1 ক্লাস 'লেবেলযুক্ত'

সূত্র: - http://cocodataset.org/# হোম

লিঙ্ক: - http://cocodataset.org/

সিটিস্কেপ ডেটাসেট

এই ডেটাসেটটিতে রাস্তাগুলি, লেন, যানবাহন এবং রাস্তায় থাকা অবজেক্টগুলির জন্য বিভাগীয় স্থল সত্যগুলি রয়েছে। ডেটাসেটটিতে 30 টি ক্লাস এবং 50 টি শহর রয়েছে যা বিভিন্ন পরিবেশ ও আবহাওয়ার পরিস্থিতিতে সংগ্রহ করা হয়েছে। সূক্ষ্ম টীকাযুক্ত চিত্রগুলির একটি ভিডিও ডেটাসেটও রয়েছে যা ভিডিও বিভাজনের জন্য ব্যবহার করা যেতে পারে। কিটিটিআই এবং ক্যামভিড একই ধরণের ডেটাসেট যা স্ব-ড্রাইভিং গাড়ি প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে।

সূত্র: - https://www.cityscapes-dataset.com/

লিঙ্ক: - https://www.cityscapes-dataset.com/

লিটস ডেটাসেট

লিভার সিটি স্ক্যান থেকে টিউমার ক্ষত সনাক্তকরণের চ্যালেঞ্জের অংশ হিসাবে ডেটাসেট তৈরি করা হয়েছিল। ডেটাসেটে প্রশিক্ষণ ডেটার 130 টি সিটি স্ক্যান এবং পরীক্ষার ডেটার 70 টি সিটি স্ক্যান রয়েছে।

সূত্র: - https://compferencess.codalab.org/compferencess/17094

লিঙ্ক: - https://competitions.codalab.org/competitions/17094

সিসিপি ডেটাসেট

ক্লথ কো-পার্সিং একটি ডেটাসেট যা গবেষণামূলক কাগজের অংশ হিসাবে তৈরি হয়েছে যৌথ চিত্র বিভাগ এবং লেবেলিং দ্বারা পোশাক কো-পার্সিং। মোট 1000 টি ট্যাগের জন্য পিক্সেল স্তরের টীকা সহ ডেটাসেটে 59+ চিত্র রয়েছে।

উত্স: - https://github.com/bearpaw/clothing-co-parsing

উৎস :- https://github.com/bearpaw/clothing-co-parsing

পৃথীপন ডেটাসেট

গুগলের 32 টি ফেস ফটো এবং 46 টি পরিবারের ছবিযুক্ত চিত্রগুলির উপর ভিত্তি করে ত্বক বিভাজনের কাজের জন্য একটি ডেটাসেট তৈরি করা হয়েছে

সূত্র: - http://cs-chan.com/downloads_skin_dataset.html

লিঙ্ক: - http://cs-chan.com/downloads_skin_dataset.html

ইনরিয়া এরিয়াল ইমেজ লেবেলিং

পাবলিক ডোমেন চিত্রগুলি থেকে তৈরি এরিয়াল বিভাজন মানচিত্রের একটি ডেটাসেট। 810 বর্গ কিমি এর কভারেজ রয়েছে এবং 2 শ্রেণি বিল্ডিং এবং নন-বিল্ডিং রয়েছে।

সূত্র: - https://project.inria.fr/aimarimagelabeling/
সূত্র: - https://project.inria.fr/aimarimagelabeling/

লিঙ্ক: - https://project.inria.fr/aerialimagelabeling/

এস 3 ডিআইএস

এই ডেটাসেটটিতে 3 টিরও বেশি চিত্র সহ 70000 টি বিল্ডিংয়ে ছয়টি বড় আকারের গৃহমধ্যস্থ অংশের পয়েন্ট ক্লাউড রয়েছে।

সূত্র: - http://buildingparser.stanford.edu/dataset.html

লিঙ্ক: - http://buildingparser.stanford.edu/dataset.html

সারাংশ

আমরা বিভিন্ন অ্যালগরিদমের একটি অঙ্গসংগঠন নিয়ে আলোচনা করেছি যা ইমেজ, ভিডিও বা পয়েন্ট-ক্লাউড এবং সেগুলির অবদান এবং সীমাবদ্ধতার উপর শব্দার্থবিভাজন ব্যবহারের ক্ষেত্রে সমাধানের জন্য ব্যবহার করা যেতে পারে। ফলাফলগুলি মূল্যায়নের উপায়গুলি এবং ডেটাসেটগুলি শুরু করার জন্য আমরাও সন্ধান করেছি। এটি সাধারণভাবে একটি বিষয় হিসাবে শব্দার্থক বিভাগের উপর একটি বিস্তৃত বোঝাপড়া দেওয়া উচিত।

শব্দার্থক বিভাজনের জন্য আরও সংস্থানগুলির তালিকা পেতে, দিয়ে শুরু করুন https://github.com/mrgloom/awesome-semantic-segmentation.

আরও পড়া


আপনি আমাদের সর্বশেষ পোস্টে আগ্রহী হতে পারে:

আপডেট:
আরও পড়ার উপাদান যুক্ত করা হয়েছে।

সূত্র: https://nanonets.com/blog/semantic-image-segation2020/

সময় স্ট্যাম্প:

থেকে আরো এআই এবং মেশিন লার্নিং