এই 10টি প্রশ্ন জিজ্ঞাসা না করে একটি ডেটাসেট স্পর্শ করবেন না
আপনার AI প্রকল্পের সাফল্যের জন্য সঠিক ডেটাসেট নির্বাচন করা গুরুত্বপূর্ণ।
By সন্দীপ উত্তমচন্দনী, পিএইচ.ডি., উভয়ই একজন পণ্য/সফ্টওয়্যার নির্মাতা (ইঞ্জি.-এর ভিপি) এবং অপারেটিং এন্টারপ্রাইজ-ওয়াইড ডেটা/এআই উদ্যোগে নেতা (CDO)
ডেটা একটি AI পণ্যের হৃদয়। মডেলগুলি টিউন করার পরিবর্তে ডেটা টিউন করার উপর ক্রমবর্ধমান জোর দেওয়া হচ্ছে — অ্যান্ড্রু এনজি দ্বারা তৈরি ডেটা-কেন্দ্রিক এআই. আমার অভিজ্ঞতায়, একটি AI প্রকল্পের সাফল্য বা ব্যর্থতা ব্যবহার করা ডেটাসেটগুলি দ্বারা পূর্বাভাস দেওয়া যেতে পারে।
আপনি যদি একজন ডেটা সায়েন্টিস্ট/এআই ইঞ্জিনিয়ার হন যিনি একটি নতুন মডেল তৈরি করতে চান বা একটি AI প্রোজেক্টের জন্য পাইপলাইন তৈরিতে কাজ করছেন এমন ডেটা ইঞ্জিনিয়ার, আপনার বাছাই করা প্রতিটি ডেটাসেটের জন্য, AI জীবনচক্রে পরবর্তীতে মাথাব্যথা এবং প্রত্যাশা মিস করার জন্য নিম্নলিখিত প্রশ্নগুলি জিজ্ঞাসা করুন৷
1. ডেটাসেট বৈশিষ্ট্যের অর্থ কি নথিভুক্ত?
বিগ ডেটা যুগের আগে, কেন্দ্রীয় ডেটা গুদামে যোগ করার আগে ডেটা কিউরেট করা হয়েছিল। এটি স্কিমা-অন-রাইট হিসাবে পরিচিত। আজ, ডেটা লেকের পদ্ধতিটি হল প্রথমে ডেটা একত্রিত করা এবং তারপরে ব্যবহারের সময় ডেটার অর্থ অনুমান করা। এটি স্কিমা-অন-রিড হিসাবে পরিচিত।
ডেটা বৈশিষ্ট্যগুলি খুব কমই সঠিকভাবে নথিভুক্ত করা হয় বা আপ টু ডেট রাখা হয়। ডকুমেন্টেশন থাকাকে এমন একটি পদক্ষেপ হিসাবে দেখা যেতে পারে যা প্রকল্পটিকে ধীর করে দিচ্ছে, এটি আসলে মডেল ডিবাগিংয়ের সময় লাইনের নিচে অত্যন্ত গুরুত্বপূর্ণ হয়ে ওঠে। ডেটা স্টুয়ার্ডকে চিহ্নিত করুন যিনি ডেটাসেটের মালিক এবং নিশ্চিত করুন যে তারা সবচেয়ে সঠিক ডকুমেন্টেশন প্রদান করতে পারে।
2. ডেটাসেটের সমষ্টি/উত্পন্ন মেট্রিক্স কি মানসম্মত?
প্রাপ্ত ডেটা বা মেট্রিক্সে সত্য এবং ব্যবসার সংজ্ঞার একাধিক উত্স থাকতে পারে। নিশ্চিত করুন যে মেট্রিক্সের একটি স্পষ্ট নথিভুক্ত ব্যবসায়িক সংজ্ঞা রয়েছে (কখনও কখনও ETL-এর মধ্যে অন্তর্নিহিত)
3. ডেটাসেট কি ডেটা রাইট রেগুলেশন মেনে চলে (যেমন GDPR, CCPA, ইত্যাদি)
ডেটা রাইট প্রবিধানগুলি এখন সমালোচনামূলক হয়ে উঠছে - মডেল প্রশিক্ষণ এবং পুনরায় প্রশিক্ষণের সময় এগুলি ট্র্যাক করা এবং প্রয়োগ করা গুরুত্বপূর্ণ৷ GDPR, CCPA, ব্রাজিলিয়ান জেনারেল ডাটা প্রোটেকশন অ্যাক্ট, ইন্ডিয়া পার্সোনাল ডেটা প্রোটেকশন বিল এবং অন্যান্য অনেকগুলি ডেটা রাইট রেগুলেশনের সংখ্যা বাড়ছে, যেমন চিত্রে দেখানো হয়েছে। এই আইনগুলির জন্য গ্রাহকের ডেটা সংগ্রহ করা, ব্যবহার করা এবং তাদের পছন্দের ভিত্তিতে মুছে ফেলা প্রয়োজন। সেখানে বিভিন্ন দিক ডেটা অধিকারের, যথা: ডেটা অধিকার সংগ্রহ, ডেটা অধিকারের ব্যবহার, ডেটা অধিকার মুছে ফেলা, ডেটা অধিকারে অ্যাক্সেস।
4. এমন কোন সুস্পষ্ট পরিবর্তন ব্যবস্থাপনা প্রক্রিয়া আছে যাতে ডেটাসেট স্কিমা/সংজ্ঞা পরিবর্তনগুলি সমস্ত গ্রাহকদের জানানো হবে?
এটি খুবই সাধারণ যে উৎসে স্কিমা পরিবর্তনগুলি ডাউনস্ট্রিম প্রক্রিয়াকরণের সাথে সমন্বয়হীন। পরিবর্তনগুলি স্কিমা পরিবর্তন (বিদ্যমান পাইপলাইন ভাঙা) থেকে শুরু করে ডেটা অ্যাট্রিবিউটের সেমাটিক পরিবর্তন সনাক্ত করা কঠিন পর্যন্ত হতে পারে। এছাড়াও, যখন ব্যবসার পরিমাপ পরিবর্তিত হয়, তখন সংজ্ঞাগুলির সংস্করণের অভাব থাকে।
5. কোন প্রেক্ষাপটে ডেটাসেট সংগ্রহ করা হয়েছিল?
ডেটাসেটগুলি কদাচিৎ পরিসংখ্যানগত দৃষ্টিকোণ থেকে চূড়ান্ত সত্যকে ক্যাপচার করে। তারা শুধুমাত্র সেই বৈশিষ্ট্যগুলিই ক্যাপচার করে যা অ্যাপ্লিকেশন মালিকদের তাদের ব্যবহারের ক্ষেত্রে প্রয়োজন ছিল৷ পক্ষপাতিত্ব এবং বাদ দেওয়া ডেটার জন্য ডেটাসেটগুলি বিশ্লেষণ করা গুরুত্বপূর্ণ৷ ডেটাসেটের প্রেক্ষাপট বোঝা সুপারক্রিটিকাল।
6. ডেটা কি আইআইডি?
সার্জারির অন্তর্নিহিত অনুমান মডেল প্রশিক্ষণের তথ্য হল যে আইআইডি (স্বাধীন এবং অভিন্নভাবে বিতরণ)। এছাড়াও, ডেটার মেয়াদ শেষ হওয়ার তারিখ রয়েছে। 10 বছর আগের গ্রাহক আচরণের রেকর্ড প্রতিনিধিত্ব নাও করতে পারে।
7. ডেটাসেটটি কি ডেটা সংগ্রহের পদ্ধতিগত ত্রুটির জন্য পরীক্ষা/প্রমাণিত?
যদি ডেটাসেটের ত্রুটিগুলি এলোমেলো হয়, সেগুলি মডেল প্রশিক্ষণের জন্য কম ক্ষতিকারক। কিন্তু যদি এমন কোনো বাগ থাকে যে একটি নির্দিষ্ট সারি বা কলাম পদ্ধতিগতভাবে অনুপস্থিত থাকে, তাহলে এটি ডেটাসেটে পক্ষপাত ঘটাতে পারে। উদাহরণস্বরূপ, একটি বাগের কারণে ব্যবহারকারী বিভাগের জন্য গ্রাহক ক্লিকের ডিভাইসের বিবরণ অনুপস্থিত, ডেটাসেটটি বাস্তবতার প্রতিনিধিত্ব করবে না।
8. হঠাৎ বিতরণ পরিবর্তনের জন্য ডেটাসেট কি পর্যবেক্ষণ করা হয়?
ডেটাসেট ক্রমাগত বিকশিত হয়। ডেটা বিতরণের বিশ্লেষণ শুধুমাত্র মডেল তৈরির সময় প্রয়োজনীয় এককালীন কার্যকলাপ নয়। পরিবর্তে, বিশেষ করে অনলাইন প্রশিক্ষণের জন্য ড্রিফটের জন্য ডেটাসেটগুলিকে ক্রমাগত নিরীক্ষণ করার প্রয়োজন রয়েছে।
9. ডেটাসেটে বহিরাগতদের কীভাবে পরিচালনা করা হয়?
Outliers অগত্যা খারাপ হয় না এবং কখনও কখনও সঠিকভাবে মডেল তৈরি করার জন্য অপরিহার্য। সংগ্রহের সময় বহিরাগতগুলি ফিল্টার করা হচ্ছে কিনা এবং যুক্তি/মাপদণ্ড কী তা বোঝা গুরুত্বপূর্ণ।
10. ডেটাসেটের কি একটি নির্দিষ্ট ডেটা স্টুয়ার্ড আছে? (বড় আকারের দলের জন্য প্রযোজ্য)
ডেটাসেটগুলি অকেজো যদি সেগুলি বোঝা যায় না। কলামের অর্থ বিপরীত প্রকৌশলী করার চেষ্টা করা প্রায়শই একটি 'পরাজয় যুদ্ধ'। ডকুমেন্টেশন বিশদ আপডেট এবং বিকশিত করার জন্য একটি ডেটাসেটের জন্য দায়ী একটি ডেটা স্টুয়ার্ড রয়েছে তা নিশ্চিত করা মূল বিষয়।
আমার অভিজ্ঞতায়, এই প্রশ্নের উত্তর সক্রিয়ভাবে উন্মোচন করতে সাহায্য করে পরিচিত পরিচিত, পরিচিত অজানা, এবং অজানা অজানা ডেটাসেটে। এটা গুরুত্বপূর্ণ নয় যে প্রতিটি প্রশ্নের একটি ইতিবাচক উত্তর আছে। বরং, এই প্রতিক্রিয়াগুলিকে বিবেচনায় নেওয়া AI জীবনচক্রকে গতিশীল করতে পারে এবং অন্ধ দাগ এড়াতে সহায়তা করতে পারে।
বায়ো: সন্দীপ উত্তমচন্দনী, পিএইচ.ডি.: ডেটা + এআই/এমএল — উভয়ই একজন পণ্য/সফ্টওয়্যার নির্মাতা (ইঞ্জি.-এর ভিপি) এবং অপারেটিং এন্টারপ্রাইজ-ওয়াইড ডেটা/এআই উদ্যোগ (CDO) | ও'রিলি বইয়ের লেখক | প্রতিষ্ঠাতা - DataForHumanity (অলাভজনক)
সম্পর্কিত:
সূত্র: https://www.kdnuggets.com/2021/09/dataset-asking-10-questions.html
- "
- &
- প্রবেশ
- হিসাব
- AI
- সব
- বিশ্লেষণ
- অ্যান্ড্রু এনজি
- আবেদন
- অ্যাপস
- যুদ্ধ
- বড় ডেটা
- বিল
- নম
- নির্মাণ করা
- নির্মাতা
- ভবন
- ব্যবসায়
- CCPA
- পরিবর্তন
- স্তম্ভ
- সাধারণ
- কনজিউমার্স
- খরচ
- উপাত্ত
- তথ্য সুরক্ষা
- তথ্য বিজ্ঞান
- তথ্য গুদাম
- গভীর জ্ঞানার্জন
- বাদ
- প্রকৌশলী
- প্রকৌশল
- ইত্যাদি
- সীমা অতিক্রম করা
- অভিজ্ঞতা
- অন্বেষণ
- মুখ
- ব্যর্থতা
- ব্যক্তিত্ব
- প্রথম
- প্রতিষ্ঠাতা
- GDPR
- সাধারণ
- ক্রমবর্ধমান
- মাথাব্যাথা
- কিভাবে
- HTTPS দ্বারা
- সনাক্ত করা
- ভারত
- IT
- চাবি
- আইন
- নেতৃত্ব
- শিক্ষা
- লাইন
- লিঙ্কডইন
- মেশিন লার্নিং
- ব্যবস্থাপনা
- ছন্দোবিজ্ঞান
- মাইক্রোসফট
- মডেল
- যথা
- অলাভজনক
- অনলাইন
- খোলা
- অপারেটিং
- অন্যরা
- মালিকদের
- ব্যক্তিগত তথ্য
- দফতর
- পণ্য
- প্রকল্প
- রক্ষা
- পাইথন
- পরিসর
- বাস্তবতা
- রেকর্ড
- আইন
- বিপরীত
- বিজ্ঞান
- বিজ্ঞানীরা
- দক্ষতা
- গতি কমে
- স্পীড
- খবর
- সাফল্য
- পরীক্ষামূলক
- উৎস
- সময়
- শীর্ষ
- স্পর্শ
- পথ
- প্রশিক্ষণ
- আপডেট
- গুদাম
- ওয়েব
- হু
- মধ্যে
- X
- বছর
- ইউটিউব