5টি কারণ কেন আপনার সিন্থেটিক ডেটা দরকার

5টি কারণ কেন আপনার সিন্থেটিক ডেটা দরকার

উত্স নোড: 1942868

5টি কারণ কেন আপনার সিন্থেটিক ডেটা দরকার
কৃত্রিম তথ্য থেকে উত্পন্ন কুব্রিক
 

একটি মেশিন লার্নিং মডেল প্রশিক্ষণের জন্য, আপনার ডেটা প্রয়োজন। ডেটা বিজ্ঞানের কাজগুলি সাধারণত একটি কাগল প্রতিযোগিতা নয় যেখানে আপনার কাছে একটি সুন্দর বড় কিউরেটেড ডেটাসেট রয়েছে যা পূর্ব-লেবেলযুক্ত আসে। কখনও কখনও আপনাকে আপনার নিজের ডেটা সংগ্রহ, সংগঠিত এবং পরিষ্কার করতে হবে। বাস্তব জগতে ডেটা সংগ্রহ এবং লেবেল করার এই প্রক্রিয়াটি সময়সাপেক্ষ, কষ্টকর, ব্যয়বহুল, ভুল এবং কখনও কখনও বিপজ্জনক হতে পারে। অধিকন্তু, এই প্রক্রিয়ার শেষে, আপনি বাস্তব জগতে যে ডেটার সম্মুখীন হয়েছেন তা আপনি মান, বৈচিত্র্য (উদাহরণস্বরূপ, শ্রেণী ভারসাম্যহীনতা) এবং পরিমাণের ক্ষেত্রে পছন্দ করেন এমন ডেটা নয়। বাস্তব ডেটা নিয়ে কাজ করার সময় আপনি যে সাধারণ সমস্যাগুলির মুখোমুখি হতে পারেন তা নীচে দেওয়া হল: 

  • প্রকৃত তথ্য সংগ্রহ এবং লেবেলিং মাপযোগ্য নয়
  • বাস্তব ডেটা ম্যানুয়ালি লেবেল করা কখনও কখনও অসম্ভব হতে পারে
  • বাস্তব তথ্য গোপনীয়তা এবং নিরাপত্তা সমস্যা আছে
  • বাস্তব তথ্য প্রোগ্রামেবল নয়
  • বাস্তব ডেটার উপর একচেটিয়াভাবে প্রশিক্ষিত একটি মডেল যথেষ্ট কার্যকরী নয় (যেমন, ধীর বিকাশ বেগ)

সৌভাগ্যবশত, এই জাতীয় সমস্যাগুলি সিন্থেটিক ডেটা দিয়ে সমাধান করা যেতে পারে। আপনি হয়তো ভাবছেন, সিন্থেটিক ডেটা কি? সিন্থেটিক ডেটাকে কৃত্রিমভাবে তৈরি করা ডেটা হিসাবে সংজ্ঞায়িত করা যেতে পারে যা সাধারণত অ্যালগরিদম ব্যবহার করে তৈরি করা হয় যা বাস্তব-বিশ্বের প্রক্রিয়াগুলিকে অনুকরণ করে, অন্যান্য রাস্তা ব্যবহারকারীদের আচরণ থেকে শুরু করে আলোর আচরণ পর্যন্ত এটি পৃষ্ঠের সাথে যোগাযোগ করে। এই পোস্টটি বাস্তব-বিশ্বের ডেটার সীমাবদ্ধতা অতিক্রম করে এবং কীভাবে সিন্থেটিক ডেটা এই সমস্যাগুলি কাটিয়ে উঠতে এবং মডেলের কার্যকারিতা উন্নত করতে সাহায্য করতে পারে। 

ছোট ডেটাসেটের জন্য, সাধারণত ডেটা সংগ্রহ এবং ম্যানুয়ালি লেবেল করা সম্ভব; যাইহোক, অনেক জটিল মেশিন লার্নিং কাজের প্রশিক্ষণের জন্য বিশাল ডেটাসেটের প্রয়োজন হয়। উদাহরণস্বরূপ, স্বায়ত্তশাসিত যানবাহন অ্যাপ্লিকেশনের জন্য প্রশিক্ষিত মডেলগুলির জন্য গাড়ি বা ড্রোনের সাথে সংযুক্ত সেন্সর থেকে প্রচুর পরিমাণে ডেটা সংগ্রহ করা প্রয়োজন। এই ডেটা সংগ্রহ প্রক্রিয়া ধীর এবং কয়েক মাস বা এমনকি বছরও লাগতে পারে। একবার কাঁচা ডেটা সংগ্রহ করা হলে, এটি অবশ্যই মানুষের দ্বারা ম্যানুয়ালি টীকা করা উচিত, যা ব্যয়বহুল এবং সময়সাপেক্ষ। তদুপরি, লেবেলযুক্ত ডেটা যেগুলি ফিরে আসে তা প্রশিক্ষণের ডেটা হিসাবে উপকারী হবে এমন কোনও গ্যারান্টি নেই, কারণ এতে মডেলের বর্তমান জ্ঞানের ব্যবধানগুলি জানাতে পারে এমন উদাহরণ নাও থাকতে পারে৷ 

[এম্বেড করা সামগ্রী][এম্বেড করা সামগ্রী]

এই ডেটা লেবেল করার ক্ষেত্রে প্রায়ই সেন্সর ডেটার উপরে মানুষের হাতে আঁকা লেবেল জড়িত থাকে। এটি অত্যন্ত ব্যয়বহুল কারণ উচ্চ অর্থপ্রদানকারী ML দলগুলি প্রায়শই তাদের সময়ের একটি বিশাল অংশ ব্যয় করে লেবেলগুলি সঠিক কিনা তা নিশ্চিত করতে এবং লেবেলারদের কাছে ভুলগুলি ফেরত পাঠায়৷ সিন্থেটিক ডেটার একটি প্রধান শক্তি হল যে আপনি আপনার পছন্দ মতো নিখুঁতভাবে লেবেলযুক্ত ডেটা তৈরি করতে পারেন। আপনার যা দরকার তা হল মানসম্পন্ন সিন্থেটিক ডেটা জেনারেট করার একটি উপায়। 

সিন্থেটিক ডেটা জেনারেট করতে ওপেন সোর্স সফ্টওয়্যার: কুব্রিক (সেগমেন্টেশন মাস্ক, গভীরতার মানচিত্র এবং অপটিক্যাল ফ্লো সহ মাল্টি-অবজেক্ট ভিডিও) এবং এসডিভি (সারণী, রিলেশনাল, এবং টাইম সিরিজ ডেটা)।

কিছু (অনেক) কোম্পানি যারা পণ্য বিক্রি করে বা প্ল্যাটফর্ম তৈরি করে যা সিন্থেটিক ডেটা তৈরি করতে পারে Gretel.ai (সিন্থেটিক ডেটা সেট যা প্রকৃত ডেটার গোপনীয়তা নিশ্চিত করে), এনভিডিয়া (সর্ববিশ্ব), এবং সমান্তরাল ডোমেইন (স্বায়ত্তশাসিত যানবাহন)। আরো বেশী, সিন্থেটিক ডেটা কোম্পানির 2022 তালিকা দেখুন

5টি কারণ কেন আপনার সিন্থেটিক ডেটা দরকার
চিত্র থেকে সমান্তরাল ডোমেইন
 

কিছু তথ্য আছে যা মানুষ সম্পূর্ণরূপে ব্যাখ্যা এবং লেবেল করতে পারে না। নীচে কিছু ব্যবহারের ক্ষেত্রে রয়েছে যেখানে সিন্থেটিক ডেটা একমাত্র বিকল্প: 

  • গভীরতার সঠিক অনুমান এবং অপটিক্যাল প্রবাহ একক ছবি থেকে
  • স্ব-ড্রাইভিং অ্যাপ্লিকেশন যা রাডার ডেটা ব্যবহার করে যা মানুষের চোখে দেখা যায় না 
  • মুখ শনাক্তকরণ সিস্টেমগুলি পরীক্ষা করতে ব্যবহার করা যেতে পারে এমন গভীর নকল তৈরি করা

5টি কারণ কেন আপনার সিন্থেটিক ডেটা দরকার
দ্বারা চিত্র মাইকেল গ্যালারনিক
 

সিন্থেটিক ডেটা ডোমেনের অ্যাপ্লিকেশনগুলির জন্য অত্যন্ত উপযোগী যেখানে আপনি সহজে বাস্তব ডেটা পেতে পারেন না। এর মধ্যে কিছু ধরনের গাড়ি দুর্ঘটনার ডেটা এবং বেশিরভাগ ধরনের স্বাস্থ্য ডেটা রয়েছে যার গোপনীয়তা বিধিনিষেধ রয়েছে (যেমন, ইলেকট্রনিক স্বাস্থ্য রেকর্ড) সাম্প্রতিক বছরগুলিতে, স্বাস্থ্যসেবা গবেষকরা ইসিজি এবং পিপিজি সংকেত ব্যবহার করে অ্যাট্রিয়াল ফাইব্রিলেশন (অনিয়মিত হার্টের ছন্দ) ভবিষ্যদ্বাণী করতে আগ্রহী। একটি অ্যারিথমিয়া ডিটেক্টর তৈরি করা কেবল চ্যালেঞ্জিং নয় কারণ এই সংকেতগুলির টীকা করা ক্লান্তিকর এবং ব্যয়বহুল, তবে গোপনীয়তার বিধিনিষেধের কারণেও। এই একটি কারণ আছে কেন এই সংকেত অনুকরণ গবেষণা

এটা জোর দেওয়া গুরুত্বপূর্ণ যে বাস্তব তথ্য সংগ্রহ করতে শুধু সময় এবং শক্তি লাগে না, কিন্তু আসলে বিপজ্জনক হতে পারে। স্ব-ড্রাইভিং গাড়ির মতো রোবোটিক অ্যাপ্লিকেশনগুলির একটি মূল সমস্যা হল যে সেগুলি মেশিন লার্নিংয়ের শারীরিক অ্যাপ্লিকেশন। আপনি বাস্তব জগতে একটি অনিরাপদ মডেল স্থাপন করতে পারবেন না এবং প্রাসঙ্গিক ডেটার অভাবের কারণে একটি ক্র্যাশ হতে পারে৷ সিন্থেটিক ডেটা সহ একটি ডেটাসেট বৃদ্ধি করা মডেলগুলিকে এই সমস্যাগুলি এড়াতে সহায়তা করতে পারে। 

অ্যাপ্লিকেশন নিরাপত্তা উন্নত করার জন্য সিন্থেটিক ডেটা ব্যবহার করে নিম্নলিখিত কিছু কোম্পানি রয়েছে: টয়োটা, Waymo, এবং সমুদ্রভ্রমণ.

5টি কারণ কেন আপনার সিন্থেটিক ডেটা দরকার
চিত্র থেকে সমান্তরাল ডোমেইন
 

শহরতলির ক্যালিফোর্নিয়া-শৈলীর পরিবেশে একটি স্কুল বাসের পিছন থেকে বেরিয়ে আসা একটি সাইকেলে থাকা একটি শিশুর সিন্থেটিক চিত্র এবং রাস্তায় সাইকেল চালানো।

স্বায়ত্তশাসিত যানবাহন অ্যাপ্লিকেশনগুলি প্রায়শই তুলনামূলকভাবে "অস্বাভাবিক" (সাধারণ ড্রাইভিং অবস্থার সাথে সম্পর্কিত) ঘটনাগুলির সাথে মোকাবিলা করে যেমন রাতে পথচারী বা রাস্তার মাঝখানে সাইকেল চালকরা। একটি দৃশ্যকল্প শিখতে মডেলদের প্রায়শই কয়েক হাজার বা এমনকি লক্ষ লক্ষ উদাহরণের প্রয়োজন হয়। একটি বড় সমস্যা হল যে বাস্তব-বিশ্বের তথ্য সংগৃহীত হতে পারে তা নাও হতে পারে যা আপনি গুণমান, বৈচিত্র্যের (যেমন, শ্রেণি ভারসাম্যহীনতা, আবহাওয়ার অবস্থা, অবস্থান) এবং পরিমাণের ক্ষেত্রে খুঁজছেন। আরেকটি সমস্যা হল স্ব-ড্রাইভিং গাড়ি এবং রোবটগুলির জন্য, আপনি সবসময় জানেন না যে নির্দিষ্ট ডেটাসেট এবং স্থির বেঞ্চমার্কের সাথে প্রথাগত মেশিন লার্নিং কাজের বিপরীতে আপনার কী ডেটা প্রয়োজন। যদিও কিছু ডেটা অগমেন্টেশন কৌশল যা পদ্ধতিগতভাবে বা এলোমেলোভাবে চিত্রগুলিকে পরিবর্তন করে তা সহায়ক, এই কৌশল পারেন তাদের নিজস্ব সমস্যা পরিচয় করিয়ে দেয়

এখানেই সিন্থেটিক ডেটা আসে। সিন্থেটিক ডেটা জেনারেশন এপিআই আপনাকে ডেটাসেট তৈরি করতে দেয়। এই API গুলি আপনাকে প্রচুর অর্থ সাশ্রয় করতে পারে কারণ এটি বাস্তব জগতে রোবট তৈরি করা এবং ডেটা সংগ্রহ করা অত্যন্ত ব্যয়বহুল। সিন্থেটিক ডেটাসেট জেনারেশন ব্যবহার করে ডেটা জেনারেট করা এবং ইঞ্জিনিয়ারিং নীতিগুলি বের করার চেষ্টা করা অনেক ভাল এবং দ্রুত।

নিম্নলিখিত উদাহরণগুলি হাইলাইট করে যে কীভাবে প্রোগ্রামেবল সিন্থেটিক ডেটা মডেলগুলি শিখতে সহায়তা করে: প্রতারণামূলক লেনদেন প্রতিরোধ (আমেরিকান এক্সপ্রেস), আরও ভাল সাইক্লিস্ট সনাক্তকরণ (সমান্তরাল ডোমেন), এবং সার্জারি বিশ্লেষণ এবং পর্যালোচনা (Hutom.io).

5টি কারণ কেন আপনার সিন্থেটিক ডেটা দরকার
মডেল উন্নয়ন চক্রের পর্যায়সমূহ | ছবি থেকে জুলস এস দামজি 
 

শিল্প, আছে অনেকগুলি কারণ যা উন্নয়ন এবং উত্পাদন উভয় ক্ষেত্রেই একটি মেশিন লার্নিং প্রকল্পের কার্যকারিতা/কর্মক্ষমতাকে প্রভাবিত করে (যেমন, ডেটা অধিগ্রহণ, টীকা, মডেল প্রশিক্ষণ, স্কেলিং, স্থাপনা, পর্যবেক্ষণ, মডেল পুনরায় প্রশিক্ষণ, এবং উন্নয়ন বেগ)। সম্প্রতি, 18 জন মেশিন লার্নিং ইঞ্জিনিয়ার একটি ইন্টারভিউ স্টাডিতে অংশ নিয়েছিলেন যার লক্ষ্য ছিল সংগঠন এবং অ্যাপ্লিকেশন জুড়ে সাধারণ MLOps অনুশীলন এবং চ্যালেঞ্জগুলি বোঝার লক্ষ্য ছিল (যেমন, স্বায়ত্তশাসিত যানবাহন, কম্পিউটার হার্ডওয়্যার, খুচরা, বিজ্ঞাপন, সুপারিশকারী সিস্টেম ইত্যাদি)। অধ্যয়নের উপসংহারগুলির মধ্যে একটি ছিল উন্নয়ন বেগের গুরুত্ব যা মোটামুটিভাবে সংজ্ঞায়িত করা যেতে পারে দ্রুত প্রোটোটাইপ করার এবং ধারণাগুলির পুনরাবৃত্তি করার ক্ষমতা হিসাবে।

বিকাশের গতিকে প্রভাবিত করে এমন একটি কারণ হল প্রাথমিক মডেল প্রশিক্ষণ এবং মূল্যায়ন করার জন্য ডেটা থাকা প্রয়োজন পাশাপাশি ঘন ঘন মডেল পুনরায় প্রশিক্ষণ ডেটা ড্রিফ্ট, কনসেপ্ট ড্রিফ্ট বা এমনকি ট্রেন ট্রেনিং-সার্ভিং স্কুয়ের কারণে সময়ের সাথে সাথে মডেলের কর্মক্ষমতা ক্ষয়প্রাপ্ত হওয়ার কারণে। 

 

5টি কারণ কেন আপনার সিন্থেটিক ডেটা দরকার
চিত্র থেকে স্পষ্টতই এআই
 

সমীক্ষায় আরও জানানো হয়েছে যে এই প্রয়োজনীয়তার কারণে কিছু সংস্থাকে ঘন ঘন লাইভ ডেটা লেবেল করার জন্য একটি দল গঠন করতে হয়েছিল। এটি ব্যয়বহুল, সময়সাপেক্ষ, এবং একটি প্রতিষ্ঠানের ঘন ঘন মডেল পুনরায় প্রশিক্ষণের ক্ষমতা সীমিত করে। 

 

5টি কারণ কেন আপনার সিন্থেটিক ডেটা দরকার
চিত্র থেকে Gretel.ai
 

দ্রষ্টব্য, এই চিত্রটি কভার করে না যে কীভাবে সিন্থেটিক ডেটা যেমন জিনিসগুলির জন্য ব্যবহার করা যেতে পারে সুপারিশকারীদের মধ্যে MLOps পরীক্ষা.

সিন্থেটিক ডেটার মেশিন লার্নিং লাইফ সাইকেলে (উপরে চিত্রিত) বাস্তব-বিশ্বের ডেটার সাথে ব্যবহার করার সম্ভাবনা রয়েছে যাতে সংস্থাগুলিকে তাদের মডেলগুলিকে দীর্ঘস্থায়ী রাখতে সাহায্য করে৷ 

সিন্থেটিক ডেটা জেনারেশন মেশিন লার্নিং ওয়ার্কফ্লোতে আরও বেশি সাধারণ হয়ে উঠছে। আসলে, গার্টনার ভবিষ্যদ্বাণী করে যে 2030 সালের মধ্যে, মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষিত করতে বাস্তব-বিশ্বের ডেটার চেয়ে সিন্থেটিক ডেটা ব্যবহার করা হবে। এই পোস্টে আপনার কোন প্রশ্ন বা চিন্তা থাকলে, নীচের মন্তব্যে বা মাধ্যমে নির্দ্বিধায় যোগাযোগ করুন Twitter.
 
 
মাইকেল গ্যালারনিক একজন ডেটা সায়েন্স প্রফেশনাল, এবং অ্যানিস্কেলে ডেভেলপার রিলেশনসে কাজ করে।
 

সময় স্ট্যাম্প:

থেকে আরো কেডনুগেটস

KDnuggets ™ নিউজ 21: n30, আগস্ট 11: সর্বাধিক প্রচলিত ডেটা সায়েন্স ইন্টারভিউ প্রশ্ন ও উত্তর; কিভাবে ভিজ্যুয়ালাইজেশন এক্সপ্লোরেটরি ডেটা বিশ্লেষণে রূপান্তর করছে

উত্স নোড: 1015283
সময় স্ট্যাম্প: আগস্ট 11, 2021