বিং ইমেজ ক্রিয়েটর থেকে ছবি
অনুসন্ধানমূলক ডেটা বিশ্লেষণ (EDA) হল প্রতিটি ডেটা বিজ্ঞান প্রকল্পের শুরুতে পরিচালনা করা একক সবচেয়ে গুরুত্বপূর্ণ কাজ।
সারমর্মে, এর অন্তর্নিহিত তথ্য খুঁজে বের করার জন্য আপনার ডেটা পুঙ্খানুপুঙ্খভাবে পরীক্ষা করা এবং বৈশিষ্ট্যযুক্ত করা জড়িত। বৈশিষ্ট্য, সম্ভব অস্বাভাবিকতা, এবং লুকানো নিদর্শন এবং সম্পর্ক.
আপনার ডেটা এই বোঝার শেষ পর্যন্ত কি হবে নিম্নলিখিত পদক্ষেপের মাধ্যমে গাইড করুন আপনার মেশিন লার্নিং পাইপলাইন, ডেটা প্রিপ্রসেসিং থেকে মডেল বিল্ডিং এবং ফলাফলের বিশ্লেষণ।
EDA প্রক্রিয়া মৌলিকভাবে তিনটি প্রধান কাজ নিয়ে গঠিত:
- ধাপ 1: ডেটাসেট ওভারভিউ এবং বর্ণনামূলক পরিসংখ্যান
- ধাপ 2: বৈশিষ্ট্য মূল্যায়ন এবং ভিজ্যুয়ালাইজেশন, এবং
- ধাপ 3: ডেটা গুণমান মূল্যায়ন
আপনি যেমন অনুমান করেছেন, এই প্রতিটি কাজের জন্য বেশ বিস্তৃত পরিমাণে বিশ্লেষণের প্রয়োজন হতে পারে, যা আপনাকে সহজেই করতে পারবে পাগলের মতো আপনার পান্ডাস ডেটাফ্রেমগুলিকে টুকরো টুকরো করা, মুদ্রণ করা এবং প্লট করা।
যদি না আপনি কাজের জন্য সঠিক টুল বাছাই করেন।
এই অনুচ্ছেদে, আমরা ডুব দেব একটি কার্যকর EDA প্রক্রিয়ার প্রতিটি ধাপ, এবং কেন আপনি চালু করা উচিত আলোচনা ydata-প্রোফাইলিং আপনার ওয়ান স্টপ শপে এটি আয়ত্ত করতে।
থেকে সর্বোত্তম অনুশীলন প্রদর্শন এবং অন্তর্দৃষ্টি তদন্ত, আমরা ব্যবহার করা হবে প্রাপ্তবয়স্ক আদমশুমারি আয় ডেটাসেট, Kaggle বা UCI সংগ্রহস্থলে অবাধে উপলব্ধ (লাইসেন্স: CC0: পাবলিক ডোমেইন).
যখন আমরা প্রথম কোনো অজানা ডেটাসেটে হাত পাতি, তখনই একটি স্বয়ংক্রিয় চিন্তা আসে যা তখনই উঠে আসে: আমি কি কাজ করছি?
ভবিষ্যতের মেশিন লার্নিং কাজগুলিতে দক্ষতার সাথে এটি পরিচালনা করার জন্য আমাদের ডেটা সম্পর্কে গভীর ধারণা থাকা দরকার
একটি সাধারণ নিয়ম হিসাবে, আমরা ঐতিহ্যগতভাবে সংখ্যার সাথে তুলনামূলকভাবে ডেটা বৈশিষ্ট্যযুক্ত করে শুরু করি পর্যবেক্ষণ, সংখ্যা এবং বৈশিষ্ট্যের প্রকার, সামগ্রিকভাবে অনুপস্থিত হার, এবং শতাংশ নকল পর্যবেক্ষণ।
কিছু পান্ডা ম্যানিপুলেশন এবং সঠিক চিটশিট সহ, আমরা শেষ পর্যন্ত কোডের কিছু ছোট স্নিপেট সহ উপরের তথ্যগুলি মুদ্রণ করতে পারি:
ডেটাসেট ওভারভিউ: অ্যাডাল্ট সেন্সাস ডেটাসেট। পর্যবেক্ষণের সংখ্যা, বৈশিষ্ট্য, বৈশিষ্ট্যের ধরন, সদৃশ সারি এবং অনুপস্থিত মান। লেখক দ্বারা স্নিপেট.
সব মিলিয়ে, আউটপুট বিন্যাসটি আদর্শ নয়... আপনি যদি পান্ডাদের সাথে পরিচিত হন তবে আপনি মানটিও জানতে পারবেন মোড অপারেশন একটি EDA প্রক্রিয়া শুরু করা - df.describe()
:
প্রাপ্তবয়স্ক ডেটাসেট: প্রধান পরিসংখ্যান সহ উপস্থাপন করা হয়েছে df.describe(). লেখক দ্বারা ছবি.
এই যাইহোক, শুধুমাত্র বিবেচনা সংখ্যাসূচক বৈশিষ্ট্য. আমরা একটি ব্যবহার করতে পারে df.describe(include='object')
কিছু অতিরিক্ত তথ্য মুদ্রণ করতে শ্রেণিবদ্ধ বৈশিষ্ট্য (গণনা, অনন্য, মোড, ফ্রিকোয়েন্সি), কিন্তু বিদ্যমান বিভাগগুলির একটি সাধারণ চেক একটু বেশি শব্দযুক্ত কিছু জড়িত করবে:
ডেটাসেট ওভারভিউ: অ্যাডাল্ট সেন্সাস ডেটাসেট। ডেটাতে প্রতিটি শ্রেণীবদ্ধ বৈশিষ্ট্যের জন্য বিদ্যমান বিভাগ এবং সংশ্লিষ্ট ফ্রিকোয়েন্সি মুদ্রণ করা। লেখক দ্বারা স্নিপেট.
যাইহোক, আমরা এটি করতে পারি - এবং অনুমান করুন, পরবর্তী সমস্ত EDA কাজ! - কোডের একক লাইনে, ব্যবহার ydata-প্রোফাইলিং:
ydata-প্রোফাইলিং ব্যবহার করে প্রাপ্তবয়স্ক সেন্সাস ডেটাসেটের প্রোফাইলিং রিপোর্ট। লেখক দ্বারা স্নিপেট.
উপরের কোডটি ডেটার একটি সম্পূর্ণ প্রোফাইলিং রিপোর্ট তৈরি করে, যা আমরা আমাদের EDA প্রক্রিয়াকে আরও সরাতে ব্যবহার করতে পারি, আর কোন কোড লেখার প্রয়োজন ছাড়াই!
আমরা নিম্নলিখিত বিভাগে প্রতিবেদনের বিভিন্ন অংশের মধ্য দিয়ে যাব। কি উদ্বেগ মধ্যে ডেটার সামগ্রিক বৈশিষ্ট্য, আমরা যে সমস্ত তথ্য খুঁজছিলাম তা অন্তর্ভুক্ত করা হয়েছে৷ সংক্ষিপ্ত বিবরণ অধ্যায়:
ydata-প্রোফাইলিং: ডেটা প্রোফাইলিং রিপোর্ট — ডেটাসেট ওভারভিউ। লেখক দ্বারা ছবি.
আমরা দেখতে পাচ্ছি যে আমাদের ডেটাসেট গঠিত 15টি বৈশিষ্ট্য এবং 32561টি পর্যবেক্ষণ, সঙ্গে 23টি ডুপ্লিকেট রেকর্ড, এবং 0.9% এর সামগ্রিক অনুপস্থিত হার.
উপরন্তু, ডেটাসেটটিকে সঠিকভাবে চিহ্নিত করা হয়েছে a সারণী ডেটাসেট, এবং বরং ভিন্ন ভিন্ন, উভয়ই উপস্থাপন করে সংখ্যাসূচক এবং শ্রেণীবদ্ধ বৈশিষ্ট্য। জন্য সময়-সিরিজ ডেটা, যার সময় নির্ভরতা রয়েছে এবং বিভিন্ন ধরণের নিদর্শন উপস্থাপন করে, ydata-profiling
অন্তর্ভুক্ত করবে প্রতিবেদনে অন্যান্য পরিসংখ্যান এবং বিশ্লেষণ.
আমরা আরও পরিদর্শন করতে পারেন কাঁচা তথ্য এবং বিদ্যমান ডুপ্লিকেট রেকর্ড আরও জটিল বিশ্লেষণে যাওয়ার আগে বৈশিষ্ট্যগুলির সামগ্রিক বোঝার জন্য:
ydata-প্রোফাইলিং: ডেটা প্রোফাইলিং রিপোর্ট — নমুনা পূর্বরূপ। লেখক দ্বারা ছবি.
সংক্ষিপ্ত নমুনা পূর্বরূপ থেকে ডেটা নমুনার, আমরা এখনই দেখতে পাচ্ছি যে যদিও ডেটাসেটে সামগ্রিকভাবে ডেটা অনুপস্থিত হওয়ার একটি কম শতাংশ রয়েছে, কিছু বৈশিষ্ট্য এটি দ্বারা প্রভাবিত হতে পারে অন্যদের চেয়ে বেশি। আমরা একটি বরং চিহ্নিত করতে পারেন উল্লেখযোগ্য সংখ্যক বিভাগ কিছু বৈশিষ্ট্যের জন্য, এবং 0-মূল্যবান বৈশিষ্ট্যগুলির জন্য (বা কমপক্ষে 0 এর উল্লেখযোগ্য পরিমাণে)।
ydata-প্রোফাইলিং: ডেটা প্রোফাইলিং রিপোর্ট — ডুপ্লিকেট সারি প্রিভিউ। লেখক দ্বারা ছবি.
ডুপ্লিকেট সারি সংক্রান্ত, "পুনরাবৃত্তি" পর্যবেক্ষণগুলি খুঁজে পাওয়া অদ্ভুত হবে না যে বেশিরভাগ বৈশিষ্ট্যগুলি এমন বিভাগগুলিকে প্রতিনিধিত্ব করে যেখানে একাধিক লোক একসাথে "ফিট" হতে পারে৷
তবুও, সম্ভবত ক "ডেটা গন্ধ" এই পর্যবেক্ষণ একই ভাগ হতে পারে age
মান (যা যুক্তিসঙ্গত) এবং ঠিক একই fnlwgt
যা, উপস্থাপিত মান বিবেচনা করে, বিশ্বাস করা কঠিন বলে মনে হয়। তাই আরো বিশ্লেষণ প্রয়োজন হবে, কিন্তু আমাদের উচিত সম্ভবত এই ডুপ্লিকেট ড্রপ পরে.
সামগ্রিকভাবে, তথ্য ওভারভিউ একটি সহজ বিশ্লেষণ হতে পারে, কিন্তু এক অত্যন্ত প্রভাবশালী, কারণ এটি আমাদের পাইপলাইনে আসন্ন কাজগুলিকে সংজ্ঞায়িত করতে সাহায্য করবে৷
সামগ্রিক ডেটা বর্ণনাকারীতে উঁকি দেওয়ার পরে, আমাদের দরকার আমাদের ডেটাসেটের বৈশিষ্ট্যগুলি জুম করুন৷, তাদের স্বতন্ত্র বৈশিষ্ট্য সম্পর্কে কিছু অন্তর্দৃষ্টি পেতে - অবিচ্ছিন্ন বিশ্লেষণ - সেইসাথে তাদের মিথস্ক্রিয়া এবং সম্পর্কগুলি - বহুচলকীয় বিশ্লেষণ.
দুটি কাজই বেশি নির্ভর করে পর্যাপ্ত পরিসংখ্যান এবং ভিজ্যুয়ালাইজেশন তদন্ত করা, যা হতে হবে বৈশিষ্ট্যের ধরন অনুসারে তৈরি হাতে (যেমন, সংখ্যাসূচক, স্পষ্ট), এবং আচরণ আমরা ব্যবচ্ছেদ করতে চাই (যেমন, মিথস্ক্রিয়া, পারস্পরিক সম্পর্ক)।
আসুন প্রতিটি কাজের জন্য সর্বোত্তম অনুশীলনগুলি দেখে নেওয়া যাক।
অবিচ্ছিন্ন বিশ্লেষণ
প্রতিটি বৈশিষ্ট্যের স্বতন্ত্র বৈশিষ্ট্য বিশ্লেষণ করা অত্যন্ত গুরুত্বপূর্ণ কারণ এটি আমাদের তাদের বিষয়ে সিদ্ধান্ত নিতে সাহায্য করবে বিশ্লেষণের জন্য প্রাসঙ্গিকতা এবং তথ্য প্রস্তুতির ধরন তাদের সর্বোত্তম ফলাফল অর্জনের প্রয়োজন হতে পারে।
উদাহরণস্বরূপ, আমরা এমন মানগুলি খুঁজে পেতে পারি যা অত্যন্ত পরিসরের বাইরে এবং উল্লেখ করতে পারে অসঙ্গতি or বহিরাগত. আমরা প্রয়োজন হতে পারে মানিক করা সংখ্যাসূচক উপাত্ত বা সঞ্চালন a শ্রেণীগত এক-হট এনকোডিং বৈশিষ্ট্য, বিদ্যমান বিভাগের সংখ্যার উপর নির্ভর করে। অথবা সাংখ্যিক বৈশিষ্ট্যগুলি পরিচালনা করার জন্য আমাদের অতিরিক্ত ডেটা প্রস্তুতি সঞ্চালন করতে হতে পারে স্থানান্তরিত বা তির্যক, আমরা যে মেশিন লার্নিং অ্যালগরিদম ব্যবহার করতে চাই তা যদি একটি নির্দিষ্ট ডিস্ট্রিবিউশন (সাধারণত গাউসিয়ান) আশা করে।
সর্বোত্তম অনুশীলনগুলি তাই বর্ণনামূলক পরিসংখ্যান এবং ডেটা বিতরণের মতো পৃথক বৈশিষ্ট্যগুলির পুঙ্খানুপুঙ্খ তদন্তের আহ্বান জানায়।
এগুলি আউটলিয়ার অপসারণ, মানককরণ, লেবেল এনকোডিং, ডেটা ইম্পুটেশন, ডেটা বৃদ্ধি এবং অন্যান্য ধরণের প্রিপ্রসেসিংয়ের পরবর্তী কাজের প্রয়োজনীয়তা তুলে ধরবে।
এর তদন্ত করা যাক race
এবং capital.gain
আরো বিস্তারিত. আমরা অবিলম্বে কি খুঁজে পেতে পারি?
ydata-প্রোফাইলিং: প্রোফাইলিং রিপোর্ট (race and capital.gain)। লেখক দ্বারা ছবি.
এর মূল্যায়ন মূলধন অর্জন সোজা:
ডেটা বিতরণের পরিপ্রেক্ষিতে, আমরা প্রশ্ন করতে পারি যে বৈশিষ্ট্যটি আমাদের বিশ্লেষণে কোনো মান যোগ করে, কারণ 91.7% মান "0"।
বিশ্লেষণ জাতি একটু বেশি জটিল:
ব্যতীত অন্য জাতিগুলির একটি স্পষ্ট নিম্নরূপ উপস্থাপন করা হয়েছে White
. এটি দুটি প্রধান সমস্যা মাথায় নিয়ে আসে:
- একটি হল মেশিন লার্নিং অ্যালগরিদমের সাধারণ প্রবণতা কম উপস্থাপিত ধারণা উপেক্ষা করুন, এর সমস্যা হিসাবে পরিচিত ছোট বিচ্ছিন্নতা, যা শেখার কর্মক্ষমতা হ্রাস করে;
- অন্যটি এই সমস্যাটির কিছুটা ডেরিভেটিভ: যেহেতু আমরা একটি সংবেদনশীল বৈশিষ্ট্য নিয়ে কাজ করছি, এই "উপেক্ষা করার প্রবণতা" এর পরিণতি হতে পারে যা সরাসরি এর সাথে সম্পর্কিত পক্ষপাত এবং সততা সমস্যা. এমন কিছু যা আমরা অবশ্যই আমাদের মডেলের মধ্যে ঢুকতে চাই না।
এই অ্যাকাউন্টে গ্রহণ, সম্ভবত আমাদের উচিত তথ্য পরিবর্ধন সম্পাদন বিবেচনা করুন নিম্নবর্ণিত শ্রেণীতে শর্তযুক্ত, সেইসাথে বিবেচনা করা মডেল মূল্যায়নের জন্য ন্যায্যতা-সচেতন মেট্রিক্স, পারফরম্যান্সের সাথে সম্পর্কিত যে কোনও অসঙ্গতি পরীক্ষা করতে race
মান।
আমরা ডেটা গুণমানের সর্বোত্তম অনুশীলন (ধাপ 3) নিয়ে আলোচনা করার সময় অন্যান্য ডেটা বৈশিষ্ট্যগুলির বিষয়ে আরও বিশদ বিবরণ দেব। এই উদাহরণটি শুধুমাত্র প্রতিটি পৃথক বৈশিষ্ট্যের মূল্যায়ন করে আমরা কতটা অন্তর্দৃষ্টি নিতে পারি তা দেখায় বৈশিষ্ট্য.
পরিশেষে, নোট করুন যে, পূর্বে উল্লিখিত হিসাবে, বিভিন্ন বৈশিষ্ট্যের প্রকারগুলি বিভিন্ন পরিসংখ্যান এবং ভিজ্যুয়ালাইজেশন কৌশলগুলির জন্য কল করে:
- সংখ্যাসূচক বৈশিষ্ট্য প্রায়শই গড়, মানক বিচ্যুতি, তির্যকতা, কুরটোসিস এবং অন্যান্য কোয়ান্টাইল পরিসংখ্যান সম্পর্কিত তথ্য থাকে এবং হিস্টোগ্রাম প্লট ব্যবহার করে সবচেয়ে ভালভাবে উপস্থাপন করা হয়;
- শ্রেণীবদ্ধ বৈশিষ্ট্য সাধারণত মোড, মধ্যমা এবং ফ্রিকোয়েন্সি টেবিল ব্যবহার করে বর্ণনা করা হয় এবং বিভাগ বিশ্লেষণের জন্য বার প্লট ব্যবহার করে উপস্থাপন করা হয়।
ydata-প্রোফাইলিং: প্রোফাইলিং রিপোর্ট। উপস্থাপিত পরিসংখ্যান এবং ভিজ্যুয়ালাইজেশন প্রতিটি বৈশিষ্ট্যের প্রকারের সাথে সামঞ্জস্য করা হয়। লেখক দ্বারা স্ক্রিনকাস্ট.
সাধারণ পান্ডা ম্যানিপুলেশনের সাথে এই ধরনের বিশদ বিশ্লেষণ করা কষ্টকর হবে, কিন্তু ভাগ্যক্রমে ydata-profiling
এই সমস্ত কার্যকারিতা অন্তর্নির্মিত আছে ProfileReport
আমাদের সুবিধার জন্য: স্নিপেটে কোডের কোন অতিরিক্ত লাইন যোগ করা হয়নি!
বহুচলকীয় বিশ্লেষণ
মাল্টিভারিয়েট বিশ্লেষণের জন্য, সেরা অনুশীলনগুলি প্রধানত দুটি কৌশলের উপর ফোকাস করে: বিশ্লেষণ করা পারস্পরিক ক্রিয়ার বৈশিষ্ট্যের মধ্যে, এবং তাদের বিশ্লেষণ সম্পর্কযুক্তরূপে.
মিথস্ক্রিয়া বিশ্লেষণ
মিথস্ক্রিয়া আমাদের যাক প্রতিটি জোড়া বৈশিষ্ট্য কীভাবে আচরণ করে তা দৃশ্যত অন্বেষণ করুন, অর্থাৎ, কিভাবে একটি বৈশিষ্ট্যের মান অন্যটির মানগুলির সাথে সম্পর্কিত৷
উদাহরণস্বরূপ, তারা প্রদর্শন করতে পারে ধনাত্মক or নেতিবাচক সম্পর্ক, একজনের মান বৃদ্ধি যথাক্রমে অন্যের মান বৃদ্ধি বা হ্রাসের সাথে সম্পর্কিত কিনা তার উপর নির্ভর করে।
ydata-প্রোফাইলিং: প্রোফাইলিং রিপোর্ট — ইন্টারঅ্যাকশন। লেখক দ্বারা ছবি.
মধ্যে মিথস্ক্রিয়া গ্রহণ age
এবং hours.per.week
উদাহরণ স্বরূপ, আমরা দেখতে পাচ্ছি যে বৃহত্তর শ্রমশক্তি 40 ঘন্টার একটি মান কাজ করে। যাইহোক, কিছু "ব্যস্ত মৌমাছি" আছে যেগুলি 60 থেকে 65 বছর বয়সের মধ্যে (30 বা এমনকি 45 ঘন্টা পর্যন্ত) কাজ করে। তাদের 20-এর দশকের লোকেদের অতিরিক্ত কাজ করার সম্ভাবনা কম, এবং কিছু ক্ষেত্রে তাদের আরও হালকা কাজের সময়সূচী থাকতে পারে। সপ্তাহ
পারস্পরিক সম্পর্ক বিশ্লেষণ
একইভাবে মিথস্ক্রিয়া, পারস্পরিক সম্পর্ক আমাদের যাক সম্পর্ক বিশ্লেষণ করুন বৈশিষ্ট্যের মধ্যে। পারস্পরিক সম্পর্ক, যাইহোক, এটিতে "একটি মান রাখুন", যাতে সেই সম্পর্কের "শক্তি" নির্ধারণ করা আমাদের পক্ষে সহজ হয়।
এই "শক্তি" হয় পারস্পরিক সম্পর্ক সহগ দ্বারা পরিমাপ করা হয় এবং হয় সংখ্যাগতভাবে বিশ্লেষণ করা যেতে পারে (যেমন, পরিদর্শন a পারস্পরিক সম্পর্ক ম্যাট্রিক্স) বা ক সহ হিটম্যাপ, যা আকর্ষণীয় নিদর্শনগুলি দৃশ্যত হাইলাইট করতে রঙ এবং ছায়া ব্যবহার করে:
ydata-প্রোফাইলিং: প্রোফাইলিং রিপোর্ট — হিটম্যাপ এবং পারস্পরিক সম্পর্ক ম্যাট্রিক্স। লেখক দ্বারা স্ক্রিনকাস্ট.
আমাদের ডেটাসেট সম্পর্কে, মধ্যে পারস্পরিক সম্পর্ক কিভাবে লক্ষ্য করুন education
এবং education.num
দাঁড়িয়ে আছে আসলে, তারা একই তথ্য রাখে, এবং education.num
শুধুমাত্র একটি binning হয় education
মান।
অন্য প্যাটার্ন যে চোখ ধরা হয় মধ্যে পারস্পরিক সম্পর্ক sex
এবং relationship
যদিও আবার খুব তথ্যপূর্ণ নয়: উভয় বৈশিষ্ট্যের মান দেখে আমরা বুঝতে পারব যে এই বৈশিষ্ট্যগুলি সম্ভবত সম্পর্কিত কারণ male
এবং female
অনুরূপ হবে husband
এবং wife
, যথাক্রমে।
আমরা বিশ্লেষণ থেকে এই বৈশিষ্ট্যগুলির কিছু অপসারণ করতে পারি কিনা তা দেখতে এই ধরনের অপ্রয়োজনীয়তা পরীক্ষা করা যেতে পারে (marital.status
সম্পর্কিত relationship
এবং sex
; native.country
এবং race
উদাহরণস্বরূপ, অন্যদের মধ্যে)।
ydata-প্রোফাইলিং: প্রোফাইলিং রিপোর্ট — পারস্পরিক সম্পর্ক। লেখক দ্বারা ছবি.
যাইহোক, অন্যান্য পারস্পরিক সম্পর্ক রয়েছে যা আলাদা এবং আমাদের বিশ্লেষণের উদ্দেশ্যে আকর্ষণীয় হতে পারে।
উদাহরণস্বরূপ, মধ্যে পারস্পরিক সম্পর্কsex
এবং occupation
, বা sex
এবং hours.per.week
.
অবশেষে, মধ্যে পারস্পরিক সম্পর্ক income
এবং অবশিষ্ট বৈশিষ্ট্য সত্যিই তথ্যপূর্ণ, বিশেষ করে যদি আমরা একটি শ্রেণীবিভাগ সমস্যা ম্যাপ করার চেষ্টা করছি। কি আছে জেনে সবচেয়ে সম্পর্কযুক্ত আমাদের লক্ষ্য শ্রেণীর বৈশিষ্ট্য আমাদের সনাক্ত করতে সাহায্য করে সবচেয়ে বৈষম্যমূলক বৈশিষ্ট্যগুলি এবং সেইসাথে সম্ভাব্য ডেটা লিকারগুলি খুঁজে বের করুন যা আমাদের মডেলকে প্রভাবিত করতে পারে।
হিটম্যাপ থেকে, মনে হয় যে marital.status
or relationship
সবচেয়ে গুরুত্বপূর্ণ ভবিষ্যদ্বাণী করা হয়, যখন fnlwgt
উদাহরণস্বরূপ, ফলাফলের উপর একটি বড় প্রভাব আছে বলে মনে হয় না।
একইভাবে ডেটা বর্ণনাকারী এবং ভিজ্যুয়ালাইজেশন, মিথস্ক্রিয়া এবং পারস্পরিক সম্পর্কের ক্ষেত্রেও হাতের বৈশিষ্ট্যগুলির ধরণগুলিতে উপস্থিত থাকতে হবে।
অন্য কথায়, বিভিন্ন সমন্বয় বিভিন্ন পারস্পরিক সম্পর্ক সহগ দিয়ে পরিমাপ করা হবে। গতানুগতিক, ydata-profiling
পারস্পরিক সম্পর্ক চালায় auto
, যা এর মানে হল যে:
- সংখ্যাসূচক বনাম সংখ্যাসূচক পারস্পরিক সম্পর্ক ব্যবহার করে পরিমাপ করা হয় স্পিয়ারম্যানের পদমর্যাদা পারস্পরিক সম্পর্ক সহগ;
- শ্রেণীবদ্ধ বনাম শ্রেণীবদ্ধ পারস্পরিক সম্পর্ক ব্যবহার করে পরিমাপ করা হয় ক্রেমার ভি;
- সংখ্যাসূচক বনাম শ্রেণীগত পারস্পরিক সম্পর্কগুলি ক্র্যামারের ভি ব্যবহার করে, যেখানে সংখ্যাসূচক বৈশিষ্ট্যটি প্রথমে আলাদা করা হয়;
এবং যদি আপনি চেক করতে চান অন্যান্য পারস্পরিক সম্পর্ক সহগ (যেমন, Pearson's, Kendall's, Phi) আপনি সহজেই করতে পারেন রিপোর্টের পরামিতি কনফিগার করুন.
আমরা একটি দিকে নেভিগেট হিসাবে ডেটা-কেন্দ্রিক দৃষ্টান্ত AI উন্নয়নের, শীর্ষে থাকা সম্ভাব্য জটিল কারণ যে আমাদের তথ্য উদ্ভূত অপরিহার্য.
"জটিল কারণ" সহ, আমরা উল্লেখ করি ত্রুটি যে প্রক্রিয়াকরণের তথ্য সংগ্রহের সময় ঘটতে পারে, বা তথ্য অন্তর্নিহিত বৈশিষ্ট্য যে শুধুমাত্র একটি প্রতিফলন প্রকৃতি তথ্য।
এই অন্তর্ভুক্ত অনুপস্থিত ডেটা, ভারসাম্যহীন ডেটা, ধ্রুব মান, সদৃশ, অত্যন্ত পরম্পর সম্পর্কযুক্ত or অপ্রয়োজনীয় বৈশিষ্ট্য, সশব্দ ডেটা, অন্যদের মধ্যে।
ডেটা মানের সমস্যা: ত্রুটি এবং ডেটার অন্তর্নিহিত বৈশিষ্ট্য। লেখক দ্বারা ছবি.
একটি প্রকল্পের শুরুতে এই ডেটা মানের সমস্যাগুলি সন্ধান করা (এবং বিকাশের সময় তাদের ক্রমাগত পর্যবেক্ষণ করা) গুরুত্বপূর্ণ।
মডেল বিল্ডিং পর্যায়ের আগে যদি তাদের চিহ্নিত করা না হয় এবং সমাধান করা না হয়, তাহলে তারা পুরো ML পাইপলাইন এবং পরবর্তী বিশ্লেষণ এবং সিদ্ধান্তগুলিকে বিপদে ফেলতে পারে যা এটি থেকে উদ্ভূত হতে পারে।
একটি স্বয়ংক্রিয় প্রক্রিয়া ছাড়া, এই সমস্যাগুলি সনাক্ত করার এবং সমাধান করার ক্ষমতা সম্পূর্ণভাবে ইডিএ বিশ্লেষণ পরিচালনাকারী ব্যক্তির ব্যক্তিগত অভিজ্ঞতা এবং দক্ষতার উপর ছেড়ে দেওয়া হবে, যা স্পষ্টতই আদর্শ নয়। এছাড়াও, একজনের কাঁধে কত ওজন থাকতে হবে, বিশেষ করে উচ্চ-মাত্রিক ডেটাসেট বিবেচনা করে। আগত দুঃস্বপ্ন সতর্কতা!
এটি সবচেয়ে অত্যন্ত প্রশংসিত বৈশিষ্ট্য এক ydata-profiling
, দ্য ডেটা গুণমান সতর্কতার স্বয়ংক্রিয় প্রজন্ম:
ydata-প্রোফাইলিং: প্রোফাইলিং রিপোর্ট — ডেটা কোয়ালিটি অ্যালার্ট। লেখক দ্বারা ছবি.
প্রোফাইলটি কমপক্ষে 5টি বিভিন্ন ধরণের ডেটা মানের সমস্যা আউটপুট করে, যথা duplicates
, high correlation
, imbalance
, missing
, এবং zeros
.
প্রকৃতপক্ষে, আমরা ইতিমধ্যেই এর মধ্যে কয়েকটি চিহ্নিত করেছি, যেহেতু আমরা ধাপ 2 দিয়ে গিয়েছিলাম: race
একটি অত্যন্ত ভারসাম্যহীন বৈশিষ্ট্য এবং capital.gain
প্রধানত 0 এর দ্বারা জনবহুল। আমরা এর মধ্যে আঁটসাঁট সম্পর্কও দেখেছি education
এবং education.num
, এবং relationship
এবং sex
.
অনুপস্থিত ডেটা প্যাটার্ন বিশ্লেষণ করা হচ্ছে
বিবেচিত সতর্কতার ব্যাপক সুযোগের মধ্যে, ydata-profiling
বিশেষ করে সহায়ক অনুপস্থিত তথ্য নিদর্শন বিশ্লেষণ.
যেহেতু ডেটা হারিয়ে যাওয়া বাস্তব-বিশ্বের ডোমেনে একটি খুব সাধারণ সমস্যা এবং কিছু শ্রেণিবিন্যাসকারীর প্রয়োগ সম্পূর্ণভাবে বা তাদের ভবিষ্যদ্বাণীগুলির সাথে মারাত্মকভাবে পক্ষপাতিত্ব করতে পারে। আরেকটি সর্বোত্তম অনুশীলন হল অনুপস্থিত ডেটা সাবধানে বিশ্লেষণ করা শতাংশ এবং আচরণ যা আমাদের বৈশিষ্ট্যগুলি প্রদর্শন করতে পারে:
ydata-প্রোফাইলিং: প্রোফাইলিং রিপোর্ট — অনুপস্থিত মান বিশ্লেষণ করা। লেখক দ্বারা স্ক্রিনকাস্ট.
ডেটা সতর্কতা বিভাগ থেকে, আমরা এটি ইতিমধ্যেই জানতাম workclass
, occupation
, এবং native.country
অনুপস্থিত পর্যবেক্ষণ ছিল. হিটম্যাপ আমাদেরকে আরও বলে যে অনুপস্থিত প্যাটার্নের সাথে সরাসরি সম্পর্ক রয়েছে in occupation
এবং workclass
: যখন একটি বৈশিষ্ট্যে একটি অনুপস্থিত মান থাকে, অন্যটিও অনুপস্থিত থাকবে।
মূল অন্তর্দৃষ্টি: ডেটা প্রোফাইলিং EDA ছাড়িয়ে যায়!
এখন পর্যন্ত, আমরা একটি পুঙ্খানুপুঙ্খ EDA প্রক্রিয়া তৈরি করে এবং কিভাবে কাজগুলি নিয়ে আলোচনা করছি ডেটা মানের সমস্যা এবং বৈশিষ্ট্যের মূল্যায়ন - একটি প্রক্রিয়া আমরা ডেটা প্রোফাইলিং হিসাবে উল্লেখ করতে পারি - অবশ্যই একটি সেরা অনুশীলন।
তবুও, এটি পরিষ্কার করা গুরুত্বপূর্ণ ডেটা প্রোফাইলিং EDA ছাড়িয়ে যায়। যেখানে আমরা সাধারণত যেকোন ধরনের ডেটা পাইপলাইন তৈরি করার আগে EDA কে অনুসন্ধানমূলক, ইন্টারেক্টিভ পদক্ষেপ হিসাবে সংজ্ঞায়িত করি, ডেটা প্রোফাইলিং একটি পুনরাবৃত্তিমূলক প্রক্রিয়া যা প্রতিটি পদক্ষেপে ঘটতে হবে ডেটা প্রিপ্রসেসিং এবং মডেল বিল্ডিংয়ের।
একটি দক্ষ EDA একটি সফল মেশিন লার্নিং পাইপলাইনের ভিত্তি স্থাপন করে।
এটি আপনার ডেটার উপর একটি ডায়াগনসিস চালানোর মতো, এটির অন্তর্ভুক্ত বিষয়গুলি সম্পর্কে আপনার যা জানা দরকার তা শেখার মতো - এটি বৈশিষ্ট্য, সম্পর্ক, সমস্যা - যাতে আপনি পরে তাদের সম্ভাব্য সর্বোত্তম উপায়ে সম্বোধন করতে পারেন।
এটি আমাদের অনুপ্রেরণা পর্বেরও সূচনা: এটি EDA থেকে যে প্রশ্ন এবং অনুমানগুলি উত্থাপিত হতে শুরু করে, এবং বিশ্লেষণগুলিকে যাচাই বা প্রত্যাখ্যান করার পরিকল্পনা করা হয়েছে।
পুরো নিবন্ধ জুড়ে, আমরা কভার করেছি 3টি প্রধান মৌলিক পদক্ষেপ যা আপনাকে একটি কার্যকর EDA এর মাধ্যমে গাইড করবে, এবং শীর্ষস্থানীয় সরঞ্জাম থাকার প্রভাব নিয়ে আলোচনা করেছেন — ydata-profiling
— আমাদের সঠিক দিক নির্দেশ করতে, এবং আমাদের প্রচুর সময় এবং মানসিক বোঝা বাঁচান।
আমি আশা করি এই নির্দেশিকা আপনাকে "ডেটা ডিটেকটিভ খেলার" শিল্প আয়ত্ত করতে সাহায্য করবে এবং বরাবরের মত, প্রতিক্রিয়া, প্রশ্ন, এবং পরামর্শ অনেক প্রশংসা করা হয়. আমাকে জানতে দিন যে অন্য কোন বিষয়ে আমি লিখতে চাই, বা আরও ভাল, আমার সাথে দেখা করতে আসুন ডেটা-কেন্দ্রিক এআই সম্প্রদায় এবং আসুন সহযোগিতা করি!
মরিয়ম সান্তোস কীভাবে কাঁচা, নোংরা, "খারাপ" বা অসম্পূর্ণ ডেটা থেকে স্মার্ট, বুদ্ধিমান, উচ্চ-মানের ডেটাতে সরানো যায় সে সম্পর্কে ডেটা সায়েন্স এবং মেশিন লার্নিং সম্প্রদায়গুলিকে শিক্ষিত করার উপর ফোকাস করুন, মেশিন লার্নিং ক্লাসিফায়ারগুলিকে বিভিন্ন শিল্পে সঠিক এবং নির্ভরযোগ্য তথ্য আঁকতে সক্ষম করে (ফিনটেক) , স্বাস্থ্যসেবা ও ফার্মা, টেলিকম, এবং খুচরা)।
মূল। অনুমতি নিয়ে পোস্ট করা।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- ইভিএম ফাইন্যান্স। বিকেন্দ্রীভূত অর্থের জন্য ইউনিফাইড ইন্টারফেস। এখানে প্রবেশ করুন.
- কোয়ান্টাম মিডিয়া গ্রুপ। IR/PR প্রশস্ত। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ডেটা ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- উত্স: https://www.kdnuggets.com/2023/06/data-scientist-essential-guide-exploratory-data-analysis.html?utm_source=rss&utm_medium=rss&utm_campaign=a-data-scientists-essential-guide-to-exploratory-data-analysis
- : আছে
- : হয়
- :না
- :কোথায়
- $ ইউপি
- 1
- 30
- 40
- 60
- 65
- 91
- a
- ক্ষমতা
- সম্পর্কে
- উপরে
- অনুপস্থিত
- হিসাব
- সঠিক
- অর্জন করা
- দিয়ে
- যোগ
- অতিরিক্ত
- অতিরিক্ত তথ্য
- ঠিকানা
- যোগ করে
- স্থায়ী
- প্রাপ্তবয়স্ক
- প্রভাবিত
- আবার
- বয়সের
- AI
- সতর্কতা
- অ্যালগরিদম
- আলগোরিদিম
- সব
- বরাবর
- ইতিমধ্যে
- এছাড়াও
- যদিও
- পুরাপুরি
- সর্বদা
- am
- মধ্যে
- মধ্যে
- পরিমাণ
- an
- বিশ্লেষণ
- বিশ্লেষণ করা
- বিশ্লেষণ
- বিশ্লেষণ
- এবং
- কোন
- আবেদন
- রয়েছি
- শিল্প
- প্রবন্ধ
- AS
- পরিমাপন
- মূল্যায়ন
- যুক্ত
- At
- পরিচর্যা করা
- লেখক
- অটোমেটেড
- স্বয়ংক্রিয়
- সহজলভ্য
- দূরে
- খারাপ
- বার
- BE
- হয়েছে
- আগে
- শুরু
- হচ্ছে
- বিশ্বাস করা
- সর্বোত্তম
- সেরা অভ্যাস
- উত্তম
- মধ্যে
- তার পরেও
- পক্ষপাত
- ঠন্ঠন্
- উভয়
- আনে
- ভবন
- নির্মিত
- বোঝা
- কিন্তু
- by
- কল
- CAN
- রাজধানী
- সাবধানে
- বহন
- কেস
- বিভাগ
- বিভাগ
- আদমশুমারি
- বৈশিষ্ট্য
- চেক
- চেক করা হয়েছে
- শ্রেণী
- শ্রেণীবিন্যাস
- পরিষ্কার
- কোড
- সংগ্রহ
- রঙ
- সমন্বয়
- আসা
- সাধারণ
- সম্প্রদায়গুলি
- সম্পূর্ণ
- জটিল
- ব্যাপক
- গঠিত
- আপস
- উদ্বেগ
- আচার
- আবহ
- ফল
- বিবেচিত
- বিবেচনা করা
- একটানা
- সুবিধা
- অনুবন্ধ
- পারস্পরিক সম্পর্ক সহগ
- পারা
- সংকটপূর্ণ
- কঠোর
- উপাত্ত
- তথ্য বিশ্লেষণ
- ডেটা প্রস্তুতি
- উপাত্ত গুণমান
- তথ্য বিজ্ঞান
- ডেটাসেট
- ডিলিং
- সিদ্ধান্ত নেন
- হ্রাস
- গভীর
- ডিফল্ট
- স্পষ্টভাবে
- বশ্যতা
- নির্ভর করে
- অমৌলিক
- বর্ণিত
- বিস্তারিত
- বিশদ
- নির্ধারণ
- উন্নয়নশীল
- উন্নয়ন
- চ্যুতি
- রোগ নির্ণয়
- বিভিন্ন
- সরাসরি
- অভিমুখ
- সরাসরি
- আলোচনা করা
- আলোচনা
- আলোচনা
- প্রদর্শন
- বিতরণ
- do
- না
- ডোমেইনের
- Dont
- আঁকা
- ড্রপ
- সময়
- e
- প্রতি
- সহজ
- সহজে
- শিক্ষিত
- কার্যকর
- দক্ষ
- দক্ষতার
- পারেন
- সক্রিয়
- সম্পূর্ণরূপে
- ত্রুটি
- বিশেষত
- সারমর্ম
- অপরিহার্য
- থার (eth)
- এমন কি
- অবশেষে
- প্রতি
- সব
- অনুসন্ধানী
- উদাহরণ
- বিদ্যমান
- আশা
- অভিজ্ঞতা
- ল্যাপারোস্কোপিক পদ্ধতি
- অনুসন্ধানের ডেটা বিশ্লেষণ
- অন্বেষণ করুণ
- অতিরিক্ত
- অত্যন্ত
- চোখ
- সত্য
- পরিচিত
- এ পর্যন্ত
- বৈশিষ্ট্য
- বৈশিষ্ট্য
- প্রতিক্রিয়া
- আবিষ্কার
- fintech
- প্রথম
- কেন্দ্রবিন্দু
- অনুসরণ
- জন্য
- বল
- বিন্যাস
- ভিত
- ফ্রিকোয়েন্সি
- থেকে
- কার্যকারিতা
- মৌলিক
- মৌলিকভাবে
- অধিকতর
- ভবিষ্যৎ
- লাভ করা
- সাধারণ
- সাধারণত
- উত্পন্ন
- প্রজন্ম
- পাওয়া
- GIF
- প্রদত্ত
- Go
- Goes
- চালু
- মহান
- অনুমান করা
- কৌশল
- ছিল
- হাত
- হাতল
- হাত
- আছে
- জমিদারি
- স্বাস্থ্যসেবা
- প্রচন্ডভাবে
- সাহায্য
- সহায়ক
- সাহায্য
- উচ্চ গুনসম্পন্ন
- লক্ষণীয় করা
- অত্যন্ত
- রাখা
- আশা
- ঘন্টার
- কিভাবে
- কিভাবে
- যাহোক
- HTTPS দ্বারা
- i
- আদর্শ
- চিহ্নিত
- সনাক্ত করা
- if
- ভাবমূর্তি
- অবিলম্বে
- প্রভাব
- গুরুত্বপূর্ণ
- in
- অন্তর্ভুক্ত
- আয়
- ইনকামিং
- বৃদ্ধি
- স্বতন্ত্র
- শিল্প
- তথ্য
- তথ্যপূর্ণ
- সূক্ষ্মদৃষ্টি
- অর্ন্তদৃষ্টি
- অনুপ্রেরণা
- উদাহরণ
- বুদ্ধিমান
- মনস্থ করা
- মিথষ্ক্রিয়া
- পারস্পরিক ক্রিয়ার
- ইন্টারেক্টিভ
- মজাদার
- মধ্যে
- স্বকীয়
- তদন্ত করা
- তদন্ত
- জড়িত করা
- সমস্যা
- সমস্যা
- IT
- এর
- বিপন্ন
- কাজ
- JPG
- মাত্র
- কেডনুগেটস
- কেন্ডালের
- জানা
- বুদ্ধিমান
- পরিচিত
- সূঁচালতা
- লেবেল
- পরে
- Lays
- বিশালাকার
- শিক্ষা
- অন্তত
- বাম
- কম
- লাইসেন্স
- আলো
- মত
- সম্ভবত
- লাইন
- লাইন
- লিঙ্কডইন
- সামান্য
- দেখুন
- খুঁজছি
- কম
- মেশিন
- মেশিন লার্নিং
- প্রধান
- প্রধানত
- সংখ্যাগুরু
- করা
- দক্ষতা সহকারে হস্তচালন
- মানচিত্র
- মালিক
- জরায়ু
- মে..
- me
- গড়
- মানে
- মাপা
- সম্মেলন
- মানসিক
- উল্লিখিত
- ছন্দোবিজ্ঞান
- হতে পারে
- মন
- অনুপস্থিত
- ML
- মোড
- মডেল
- মডেল
- পর্যবেক্ষণ
- অধিক
- সেতু
- পদক্ষেপ
- অনেক
- নেভিগেট করুন
- প্রয়োজন
- না।
- স্বাভাবিকভাবে
- লক্ষ্য করুন..
- সংখ্যা
- লক্ষ্য
- সুস্পষ্ট
- ঘটা
- of
- প্রায়ই
- on
- ONE
- কেবল
- অনুকূল
- or
- ক্রম
- অন্যান্য
- অন্যরা
- আমাদের
- বাইরে
- ফলাফল
- আউটপুট
- সামগ্রিক
- ওভারভিউ
- যুগল
- পান্ডাস
- বিশেষ
- গত
- প্যাটার্ন
- নিদর্শন
- সম্প্রদায়
- শতকরা হার
- সম্পাদন করা
- কর্মক্ষমতা
- করণ
- সম্ভবত
- অনুমতি
- ব্যক্তি
- ব্যক্তিগত
- ফার্মা
- ফেজ
- বাছাই
- পাইপলাইন
- পরিকল্পিত
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- বিশ্বাসযোগ্য
- বিন্দু
- পপ
- জনবহুল
- সম্ভব
- অনুশীলন
- চর্চা
- ভবিষ্যতবাণী
- প্রধানত
- প্রস্তুতি
- উপস্থাপন
- উপস্থাপন
- প্রি
- পূর্বে
- প্রিন্ট
- মুদ্রণ
- পূর্বে
- সমস্যা
- প্রক্রিয়া
- প্রক্রিয়াজাতকরণ
- প্রোফাইল
- প্রোফাইলিং
- প্রকল্প
- বৈশিষ্ট্য
- প্রকাশ্য
- উদ্দেশ্য
- গুণ
- প্রশ্ন
- প্রশ্ন
- জাতি
- পরিসর
- হার
- বরং
- কাঁচা
- বাস্তব জগতে
- সাধা
- রেকর্ড
- হ্রাসপ্রাপ্ত
- প্রতিফলন
- সংক্রান্ত
- সংশ্লিষ্ট
- সম্পর্ক
- সম্পর্ক
- অপেক্ষাকৃতভাবে
- বিশ্বাসযোগ্য
- নির্ভর করা
- অবশিষ্ট
- অপসারণ
- অপসারণ
- রিপোর্ট
- সংগ্রহস্থলের
- চিত্রিত করা
- প্রতিনিধিত্ব
- প্রয়োজন
- প্রয়োজনীয়
- নিজ নিজ
- যথাক্রমে
- ফলাফল
- খুচরা
- অধিকার
- নিয়ম
- দৌড়
- একই
- তফসিল
- বিজ্ঞান
- সুযোগ
- অধ্যায়
- বিভাগে
- দেখ
- মনে
- মনে হয়
- দেখা
- সংবেদনশীল
- বিভিন্ন
- গুরুতরভাবে
- শেয়ার
- দোকান
- সংক্ষিপ্ত
- উচিত
- প্রদর্শনী
- গুরুত্বপূর্ণ
- সহজ
- কেবল
- এককালে
- একক
- স্মার্ট
- So
- কিছু
- কিছু
- কিছুটা
- অকুস্থল
- পর্যায়
- থাকা
- মান
- ব্রিদিং
- শুরু
- শুরু হচ্ছে
- পরিসংখ্যান
- ধাপ
- প্রারম্ভিক ব্যবহারের নির্দেশাবলী
- অকপট
- কৌশল
- পরবর্তী
- সফল
- এমন
- গ্রহণ করা
- লক্ষ্য
- কার্য
- কাজ
- বলে
- চেয়ে
- যে
- সার্জারির
- তথ্য
- তাদের
- তাহাদিগকে
- সেখানে।
- অতএব
- এইগুলো
- তারা
- এই
- পুঙ্খানুপুঙ্খভাবে
- চিন্তা
- তিন
- দ্বারা
- সময়
- থেকে
- টুল
- শীর্ষ
- টপিক
- প্রতি
- ঐতিহ্যগতভাবে
- অসাধারণ
- প্রকৃতপক্ষে
- দুই
- আদর্শ
- ধরনের
- উপস্থাপিত
- বোধশক্তি
- অনন্য
- অজানা
- পর্যন্ত
- আসন্ন
- us
- ব্যবহার
- ব্যবহারসমূহ
- ব্যবহার
- সাধারণত
- যাচাই করুন
- মূল্য
- মানগুলি
- বিভিন্ন
- বনাম
- খুব
- কল্পনা
- প্রয়োজন
- উপায়..
- we
- সপ্তাহ
- ওজন
- আমরা একটি
- গিয়েছিলাম
- ছিল
- কি
- কখন
- কিনা
- যে
- সমগ্র
- কেন
- উইকিপিডিয়া
- ইচ্ছা
- সঙ্গে
- ছাড়া
- শব্দ
- হয়া যাই ?
- কাজ
- কাজ
- would
- লেখা
- এখনো
- আপনি
- আপনার
- zephyrnet
- জুম্