সাধারণীকৃত এবং পরিমাপযোগ্য সর্বোত্তম স্পার্স ডিসিশন ট্রিস (জিওএসডিটি)

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

সাধারণীকৃত এবং পরিমাপযোগ্য সর্বোত্তম স্পার্স ডিসিশন ট্রি (GOSDT)
দ্বারা চিত্র fabrikasimf ফ্রিপিকে

আমি প্রায়শই ব্যাখ্যাযোগ্য AI(XAI) পদ্ধতি সম্পর্কে কথা বলি এবং কীভাবে সেগুলিকে কয়েকটি ব্যথার পয়েন্টগুলি মোকাবেলা করার জন্য অভিযোজিত করা যেতে পারে যা কোম্পানিগুলিকে AI সমাধানগুলি তৈরি এবং স্থাপন করা থেকে নিষিদ্ধ করে। আপনি আমার চেক করতে পারেন ব্লগ আপনার যদি XAI পদ্ধতিতে দ্রুত রিফ্রেশার প্রয়োজন হয়।

এরকম একটি XAI পদ্ধতি হল ডিসিশন ট্রিস। তারা তাদের ব্যাখ্যাযোগ্যতা এবং সরলতার কারণে ঐতিহাসিকভাবে উল্লেখযোগ্য আকর্ষণ অর্জন করেছে। যাইহোক, অনেকে মনে করেন যে সিদ্ধান্ত গাছ সঠিক হতে পারে না কারণ তারা দেখতে সহজ, এবং C4.5 এবং CART এর মতো লোভী অ্যালগরিদমগুলি তাদের ভালভাবে অপ্টিমাইজ করে না।

দাবিটি আংশিকভাবে বৈধ কারণ সিদ্ধান্ত গাছের কিছু রূপ, যেমন C4.5 এবং CART-এর নিম্নলিখিত অসুবিধা রয়েছে:

ওভারফিটিং প্রবণ, বিশেষ করে যখন গাছটি অনেকগুলি শাখা সহ খুব গভীর হয়ে যায়। এর ফলে নতুন, অদেখা ডেটাতে খারাপ পারফরম্যান্স হতে পারে।
বড় ডেটাসেটগুলির সাথে মূল্যায়ন করা এবং ভবিষ্যদ্বাণী করা ধীর হতে পারে কারণ তাদের ইনপুট বৈশিষ্ট্যগুলির মানগুলির উপর ভিত্তি করে একাধিক সিদ্ধান্ত নেওয়া প্রয়োজন৷
ক্রমাগত ভেরিয়েবলের সাথে মোকাবিলা করা তাদের পক্ষে কঠিন হতে পারে কারণ তাদের জন্য গাছটিকে ভেরিয়েবলটিকে একাধিক, ছোট ব্যবধানে বিভক্ত করতে হবে, যা গাছের জটিলতা বাড়িয়ে তুলতে পারে এবং ডেটাতে অর্থপূর্ণ প্যাটার্নগুলি সনাক্ত করা কঠিন করে তুলতে পারে।
প্রায়শই "লোভী" অ্যালগরিদম হিসাবে পরিচিত, এটি ভবিষ্যতের পদক্ষেপগুলিতে সেই সিদ্ধান্তগুলির পরিণতি বিবেচনা না করে প্রতিটি পদক্ষেপে স্থানীয়ভাবে সর্বোত্তম সিদ্ধান্ত নেয়৷ সাব অপ্টিমাল ট্রি হল CART-এর একটি আউটপুট, কিন্তু এটি পরিমাপ করার জন্য কোন "বাস্তব" মেট্রিক বিদ্যমান নেই।

আরও পরিশীলিত অ্যালগরিদম, যেমন এনসেম্বল লার্নিং মেথড, এই সমস্যাগুলি সমাধানের জন্য উপলব্ধ। কিন্তু অ্যালগরিদমগুলির আন্ডারলাইনড কার্যকারিতার কারণে প্রায়ই একটি "ব্ল্যাক বক্স" হিসাবে বিবেচিত হতে পারে।

যাইহোক, সাম্প্রতিক কাজগুলি দেখিয়েছে যে আপনি যদি সিদ্ধান্তের গাছগুলিকে অপ্টিমাইজ করেন (C4.5 এবং CART এর মতো লোভী পদ্ধতি ব্যবহার করার পরিবর্তে), তারা আশ্চর্যজনকভাবে সঠিক হতে পারে, অনেক ক্ষেত্রে, কালো বাক্সের মতোই সঠিক। এমন একটি অ্যালগরিদম যা উপরে উল্লিখিত কিছু অসুবিধাগুলিকে অপ্টিমাইজ করতে এবং সমাধান করতে সাহায্য করতে পারে তা হল GOSDT। GOSDT বিরল সর্বোত্তম সিদ্ধান্ত গাছ উৎপাদনের জন্য একটি অ্যালগরিদম।

ব্লগটির লক্ষ্য GOSDT-এর একটি মৃদু ভূমিকা দেওয়া এবং এটি কীভাবে একটি ডেটাসেটে প্রয়োগ করা যেতে পারে তার একটি উদাহরণ উপস্থাপন করা।

এই ব্লগটি কিছু চমত্কার লোকের দ্বারা প্রকাশিত একটি গবেষণা পত্রের উপর ভিত্তি করে। আপনি কাগজ পড়তে পারেন এখানে. এই ব্লগ এই কাগজের জন্য একটি বিকল্প নয়, বা এটি অত্যন্ত গাণিতিক বিবরণ স্পর্শ করবে না. এই অ্যালগরিদম সম্পর্কে জানার জন্য এবং তাদের দৈনন্দিন ব্যবহারের ক্ষেত্রে এটি ব্যবহার করার জন্য এটি ডেটা সায়েন্স অনুশীলনকারীদের জন্য একটি নির্দেশিকা।

সংক্ষেপে, GOSDT কয়েকটি প্রধান সমস্যা সমাধান করে:

ভারসাম্যহীন ডেটাসেটগুলি ভালভাবে পরিচালনা করুন এবং বিভিন্ন উদ্দেশ্যমূলক ফাংশন অপ্টিমাইজ করুন (শুধু নির্ভুলতা নয়)।
গাছকে সম্পূর্ণরূপে অপ্টিমাইজ করে এবং লোভের সাথে তাদের নির্মাণ করে না।
এটি প্রায় লোভী অ্যালগরিদমের মতোই দ্রুত কারণ এটি সিদ্ধান্ত গাছের জন্য এনপি-হার্ড অপ্টিমাইজেশন সমস্যার সমাধান করে।

GOSDT গাছগুলি মডেলের কার্যকারিতা উন্নত করতে হ্যাশ ট্রিগুলির মাধ্যমে একটি গতিশীল অনুসন্ধান স্থান ব্যবহার করে৷ অনুসন্ধান স্থান সীমিত করে এবং অনুরূপ ভেরিয়েবল সনাক্ত করতে সীমানা ব্যবহার করে, GOSDT গাছ সর্বোত্তম বিভাজন খুঁজে পেতে প্রয়োজনীয় গণনার সংখ্যা কমাতে পারে। এটি গণনার সময়কে উল্লেখযোগ্যভাবে উন্নত করতে পারে, প্রধানত যখন ক্রমাগত ভেরিয়েবলের সাথে কাজ করা হয়।
GOSDT গাছে, আংশিক গাছে বিভক্ত করার সীমানা প্রয়োগ করা হয়, এবং সেগুলি অনুসন্ধানের স্থান থেকে অনেক গাছ মুছে ফেলার জন্য ব্যবহার করা হয়। এটি মডেলটিকে অবশিষ্ট গাছগুলির একটিতে ফোকাস করতে দেয় (যা একটি আংশিক গাছ হতে পারে) এবং এটি আরও দক্ষতার সাথে মূল্যায়ন করতে পারে। অনুসন্ধানের স্থান হ্রাস করে, GOSDT গাছগুলি দ্রুত সর্বোত্তম বিভাজন খুঁজে পেতে পারে এবং আরও সঠিক এবং ব্যাখ্যাযোগ্য মডেল তৈরি করতে পারে।
GOSDT গাছগুলি ভারসাম্যহীন ডেটা পরিচালনা করার জন্য ডিজাইন করা হয়েছে, অনেক বাস্তব-বিশ্বের অ্যাপ্লিকেশনে একটি সাধারণ চ্যালেঞ্জ। GOSDT গাছ একটি ওজনযুক্ত নির্ভুলতা মেট্রিক ব্যবহার করে ভারসাম্যহীন ডেটাকে সম্বোধন করে যা ডেটাসেটে বিভিন্ন শ্রেণীর আপেক্ষিক গুরুত্ব বিবেচনা করে। এটি বিশেষভাবে উপযোগী হতে পারে যখন সঠিকতার পছন্দসই স্তরের জন্য একটি পূর্ব-নির্ধারিত থ্রেশহোল্ড থাকে, কারণ এটি মডেলটিকে অ্যাপ্লিকেশনের জন্য আরও গুরুত্বপূর্ণ নমুনাগুলিকে সঠিকভাবে শ্রেণীবদ্ধ করার উপর ফোকাস করতে দেয়।

এই গাছগুলি প্রশিক্ষণের সঠিকতা এবং পাতার সংখ্যার মধ্যে ট্রেড-অফকে সরাসরি অপ্টিমাইজ করে।
একটি যুক্তিসঙ্গত সংখ্যক পাতার সাথে চমৎকার প্রশিক্ষণ এবং পরীক্ষার নির্ভুলতা তৈরি করে
অত্যন্ত অ-উত্তল সমস্যার জন্য পারফেক্ট
ছোট বা মাঝারি সংখ্যক বৈশিষ্ট্যের জন্য সবচেয়ে কার্যকর। তবে এটি তার গতি এবং নির্ভুলতা বজায় রেখে হাজার হাজার পর্যবেক্ষণ পরিচালনা করতে পারে।

এটা সব কর্ম দেখতে সময়!! আমার আগের ব্লগে, আমি কেরাস শ্রেণীবিভাগ ব্যবহার করে একটি ঋণ আবেদন অনুমোদনের সমস্যা সমাধান করেছি। আমরা একই ডেটাসেট ব্যবহার করব GOSDT ব্যবহার করে একটি শ্রেণিবিন্যাস ট্রি তৈরি করতে।

লেখক দ্বারা কোড

সুপ্রীত কৌর মরগান স্ট্যানলির একজন এভিপি। তিনি একজন ফিটনেস এবং প্রযুক্তি উত্সাহী। তিনি DataBuzz নামক সম্প্রদায়ের প্রতিষ্ঠাতা।