গুরুত্বপূর্ণ পরিসংখ্যান ডেটা বিজ্ঞানীদের জানা দরকার

উত্স নোড: 1876637

গুরুত্বপূর্ণ পরিসংখ্যান ডেটা বিজ্ঞানীদের জানা দরকার

বেশ কিছু মৌলিক পরিসংখ্যানগত ধারণা অবশ্যই প্রতিটি ডেটা বিজ্ঞানীর দ্বারা ভালভাবে প্রশংসা করা উচিত — উত্সাহী থেকে পেশাদার। এখানে, আমরা পাইথনে কোড স্নিপেট প্রদান করি যাতে আপনার ডেটার প্রাথমিক অন্তর্দৃষ্টি নিয়ে আসে এমন মূল সরঞ্জামগুলি আপনার কাছে আনতে বোঝার জন্য।


By লক্ষ্মী এস সুনীল, IIT ইন্দোর '23 | জিএইচসি '২১ স্কলার.

পরিসংখ্যানগত বিশ্লেষণ আমাদের হাতে থাকা ডেটা থেকে মূল্যবান অন্তর্দৃষ্টি অর্জন করতে দেয়। বিভিন্ন সরঞ্জাম ব্যবহার করে ডেটা বিশ্লেষণ করার জন্য গুরুত্বপূর্ণ পরিসংখ্যানগত ধারণা এবং কৌশলগুলির একটি ভাল উপলব্ধি একেবারে অপরিহার্য।

আমরা বিশদে যাওয়ার আগে, আসুন এই নিবন্ধে কভার করা বিষয়গুলি একবার দেখে নেওয়া যাক:

  • বর্ণনামূলক বনাম অনুমানমূলক পরিসংখ্যান
  • তথ্যের ধরণ
  • সম্ভাব্যতা এবং বেইসের উপপাদ্য
  • কেন্দ্রীয় প্রবণতা ব্যবস্থা
  • স্কিউনেস
  • ক্রুটোসিস
  • বিচ্ছুরণের ব্যবস্থা
  • সমবায়
  • অনুবন্ধ
  • সম্ভাব্য বন্টন
  • প্রস্তাব টেস্টিং
  • প্রত্যাগতি

বর্ণনামূলক বনাম অনুমানমূলক পরিসংখ্যান

পরিসংখ্যান সামগ্রিকভাবে তথ্য সংগ্রহ, সংগঠন, বিশ্লেষণ, ব্যাখ্যা এবং উপস্থাপনা নিয়ে কাজ করে। পরিসংখ্যানের মধ্যে, দুটি প্রধান শাখা রয়েছে:

  1. বর্ণনামূলক পরিসংখ্যান: এর মধ্যে ডেটার বৈশিষ্ট্যগুলি বর্ণনা করা, চার্ট/গ্রাফের মাধ্যমে বা কেন্দ্রীয় প্রবণতা, পরিবর্তনশীলতা এবং বিতরণের পরিমাপ ব্যবহার করে সংখ্যাসূচক গণনার মাধ্যমে ডেটাকে সংগঠিত করা এবং উপস্থাপন করা জড়িত। একটি উল্লেখযোগ্য বিষয় হল যে উপসংহারগুলি ইতিমধ্যে পরিচিত তথ্যের উপর ভিত্তি করে আঁকা হয়।
  2. আনুমানিক পরিসংখ্যান: এর মধ্যে রয়েছে অনুমান আঁকা এবং বৃহত্তর জনসংখ্যা সম্পর্কে সাধারণীকরণ করা তাদের থেকে নেওয়া নমুনাগুলি ব্যবহার করে। অতএব, আরও জটিল গণনা প্রয়োজন। হাইপোথিসিস টেস্টিং, পারস্পরিক সম্পর্ক এবং রিগ্রেশন বিশ্লেষণের মতো কৌশল ব্যবহার করে চূড়ান্ত ফলাফল তৈরি করা হয়। পূর্বাভাসিত ভবিষ্যত ফলাফল এবং টানা উপসংহারগুলি উপলব্ধ ডেটার স্তরের বাইরে চলে যায়।

তথ্যের ধরণ

সবচেয়ে উপযুক্ত পরিসংখ্যানগত কৌশল প্রয়োগ করে সঠিক অনুসন্ধানমূলক ডেটা বিশ্লেষণ (EDA) সম্পাদন করার জন্য, আমাদের বুঝতে হবে আমরা কোন ধরনের ডেটা নিয়ে কাজ করছি।

  1. শ্রেণীবদ্ধ তথ্য

শ্রেণীগত তথ্য একজন ব্যক্তির লিঙ্গ, রক্তের গ্রুপ, মাতৃভাষা ইত্যাদির মতো গুণগত ভেরিয়েবলের প্রতিনিধিত্ব করে। শ্রেণীগত ডেটা কোনো গাণিতিক অর্থ ছাড়াই সংখ্যাসূচক মানের আকারে হতে পারে। উদাহরণস্বরূপ, যদি লিঙ্গ পরিবর্তনশীল হয়, তাহলে একজন মহিলাকে 1 দ্বারা এবং পুরুষকে 0 দ্বারা উপস্থাপন করা যেতে পারে।

  • নামমাত্র তথ্য: মানগুলি ভেরিয়েবলগুলিকে লেবেল করে, এবং বিভাগগুলির মধ্যে কোনও সংজ্ঞায়িত শ্রেণিবিন্যাস নেই, অর্থাত্, কোনও আদেশ বা দিকনির্দেশ নেই—উদাহরণস্বরূপ, ধর্ম, লিঙ্গ ইত্যাদি। শুধুমাত্র দুটি বিভাগ সহ নামমাত্র স্কেলকে "দ্বৈতবাদী" বলা হয়।
  • সাধারণ তথ্য: শ্রেণীবিভাগের মধ্যে ক্রম বা অনুক্রম বিদ্যমান—উদাহরণস্বরূপ, গুণমানের রেটিং, শিক্ষার স্তর, শিক্ষার্থীর চিঠির গ্রেড ইত্যাদি।
  1. সংখ্যাসূচক তথ্য

সংখ্যাসূচক তথ্য শুধুমাত্র সংখ্যার পরিপ্রেক্ষিতে প্রকাশ করা পরিমাণগত ভেরিয়েবলের প্রতিনিধিত্ব করে। উদাহরণস্বরূপ, একজন ব্যক্তির উচ্চতা, ওজন ইত্যাদি।

  • বিচ্ছিন্ন তথ্য: মান গণনাযোগ্য এবং পূর্ণসংখ্যা (প্রায়শই পূর্ণ সংখ্যা)। উদাহরণস্বরূপ, একটি পার্কিং লটে গাড়ির সংখ্যা, দেশের সংখ্যা ইত্যাদি।
  • ক্রমাগত ডেটা: পর্যবেক্ষণ পরিমাপ করা যেতে পারে কিন্তু গণনা করা যাবে না. ডেটা একটি পরিসরের মধ্যে যে কোনও মান ধরে নেয়—উদাহরণস্বরূপ, ওজন, উচ্চতা ইত্যাদি। ক্রমাগত ডেটাকে আরও বিভক্ত করা যেতে পারে ব্যবধান ডেটা (অর্ডার করা মানগুলির মধ্যে একই পার্থক্য রয়েছে তবে কোনও সত্য শূন্য নেই) এবং অনুপাত ডেটা (অর্ডার করা মানগুলির মধ্যে একই পার্থক্য রয়েছে তাদের মধ্যে এবং সত্য শূন্য বিদ্যমান)।

সম্ভাব্যতা এবং বেইসের উপপাদ্য

সম্ভাবনা হল একটি ঘটনা ঘটার সম্ভাবনার পরিমাপ।

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • স্বাধীন ঘটনা: দুটি ঘটনা স্বাধীন হয় যদি একটির ঘটনা অন্যটির সংঘটনের সম্ভাবনাকে প্রভাবিত না করে। P(A∩B) = P(A)P(B) যেখানে P(A) != 0 এবং P(B) != 0।
  • পারস্পরিক একচেটিয়া ঘটনা: দুটি ঘটনা পারস্পরিকভাবে একচেটিয়া বা বিচ্ছিন্ন হয় যদি তারা উভয়ই একই সময়ে ঘটতে না পারে। P(A∩B) = 0 এবং P(A∪B) = P(A)+P(B)।
  • শর্তাধীন সম্ভাবনা: একটি ইভেন্ট A এর সম্ভাব্যতা, যে অন্য একটি ঘটনা B ইতিমধ্যেই ঘটেছে। এটি P(A|B) দ্বারা প্রতিনিধিত্ব করা হয়। P(A|B) = P(A∩B)/P(B), যখন P(B)>0।
  • বেইসের উপপাদ্য

কেন্দ্রীয় প্রবণতা ব্যবস্থা

পরিসংখ্যান মডিউল আমদানি করুন।

  • গড়: ডেটাসেটের গড় মান।

numpy.mean( )ও ব্যবহার করা যেতে পারে।

  • মধ্যমা: ডেটাসেটের মধ্যম মান।

numpy.median( )ও ব্যবহার করা যেতে পারে।

  • মোড: ডেটাসেটের সবচেয়ে ঘন ঘন মান।

কখন গড়, মধ্যমা এবং মোড ব্যবহার করবেন?

গড়, মধ্যমা এবং মোডের মধ্যে সম্পর্ক: মোড = 3 গড় — 2 গড়

স্কিউনেস

প্রতিসাম্যের একটি পরিমাপ, বা আরও সঠিকভাবে, প্রতিসাম্যের অভাব (অসমতা)।

  • সাধারণ/প্রতিসম বন্টন: মোড = মধ্যম = গড়
  • ইতিবাচকভাবে (ডানদিকে) তির্যক বন্টন: মোড < মধ্যম < গড়
  • নেতিবাচকভাবে (বামে) তির্যক বন্টন: গড় < মধ্যম < মোড

ক্রুটোসিস

একটি সাধারণ বিতরণের তুলনায় ডেটা ভারী-টেইলড বা হালকা-টেইল্ড কিনা তার একটি পরিমাপ, অর্থাৎ, এটি একটি বিতরণের "টেইল্ডনেস" বা "পিকডনেস" পরিমাপ করে।

  • লেপ্টোকারটিক - ইতিবাচক কার্টোসিস
  • মেসোকুরটিক - স্বাভাবিক বিতরণ
  • Platykurtic - নেতিবাচক kurtosis

পাইথন ব্যবহার করে স্কুইনেস এবং কার্টোসিস।

বিচ্ছুরণের ব্যবস্থা

একটি কেন্দ্রীয় মানের চারপাশে ডেটার বিস্তার/বিক্ষেপণ বর্ণনা করে।

ব্যাপ্তি: ডেটাসেটের বৃহত্তম এবং ক্ষুদ্রতম মানের মধ্যে পার্থক্য।

কোয়ার্টাইল বিচ্যুতি: একটি ডেটা সেটের চতুর্থাংশ ডেটাকে চারটি সমান অংশে বিভক্ত করে—প্রথম চতুর্থাংশ (Q1) হল ক্ষুদ্রতম সংখ্যা এবং ডেটার মধ্যকার মধ্যবর্তী সংখ্যা৷ দ্বিতীয় চতুর্থাংশ (Q2) হল ডেটা সেটের মধ্যক। তৃতীয় চতুর্থাংশ (Q3) হল মধ্যমা এবং বৃহত্তম সংখ্যার মধ্যবর্তী সংখ্যা। কোয়ার্টাইল বিচ্যুতি হয় Q = ½ × (Q3 - Q1)

ইন্টারকোয়ার্টাইল রেঞ্জ: IQR = Q3 — Q1

ভিন্নতা: প্রতিটি ডেটা পয়েন্ট এবং গড় মধ্যে গড় বর্গ পার্থক্য। পরিমাপ করে কিভাবে ডেটাসেট গড়ের সাথে আপেক্ষিকভাবে ছড়িয়ে পড়ে।

আদর্শ বিচ্যুতি: বৈচিত্র্যের বর্গমূল।

পাইথন ব্যবহার করে বৈচিত্র্য এবং আদর্শ বিচ্যুতি।

সমবায়

এটি এক জোড়া র্যান্ডম ভেরিয়েবলের মধ্যে সম্পর্ক যেখানে একটি ভেরিয়েবলের পরিবর্তন অন্য ভেরিয়েবলের পরিবর্তন ঘটায়।

নেতিবাচক, শূন্য, এবং ইতিবাচক সহভক্তি।

পাইথন ব্যবহার করে কোভেরিয়েন্স ম্যাট্রিক্স এবং এর হিটম্যাপ উপস্থাপনা।

অনুবন্ধ

এটি দেখায় যে ভেরিয়েবলের একটি জোড়া একে অপরের সাথে সম্পর্কিত কিনা এবং কতটা দৃঢ়ভাবে।


কোভারিয়েন্সের জন্য ব্যবহৃত একই ডেটা ব্যবহার করে পারস্পরিক সম্পর্ক ম্যাট্রিক্স।

সহভক্তি বনাম পারস্পরিক সম্পর্ক।

সম্ভাব্য বন্টন

সম্ভাব্যতা বিতরণের দুটি বিস্তৃত প্রকার রয়েছে - বিচ্ছিন্ন এবং অবিচ্ছিন্ন সম্ভাব্যতা বিতরণ।

বিচ্ছিন্ন সম্ভাব্যতা বিতরণ:

  • বার্নোলি বিতরণ

একটি র্যান্ডম ভেরিয়েবল শুধুমাত্র দুটি সম্ভাব্য ফলাফল সহ একটি একক পরীক্ষা নেয়: 1 (সফলতা) সম্ভাব্যতা p সহ এবং 0 (ব্যর্থতা) সম্ভাবনা 1-p সহ।

  • দ্বিপদ ডিস্ট্রিবিউশন

প্রতিটি বিচার স্বাধীন। একটি পরীক্ষায় শুধুমাত্র দুটি সম্ভাব্য ফলাফল আছে- হয় একটি সফলতা বা ব্যর্থতা। মোট সংখ্যা n অভিন্ন ট্রায়াল পরিচালিত হয়. সাফল্য এবং ব্যর্থতার সম্ভাবনা সব পরীক্ষার জন্য একই। (ট্রায়ালগুলি অভিন্ন।)

  • বিষ বিতরণ

একটি নির্দিষ্ট সময়ের মধ্যে একটি নির্দিষ্ট সংখ্যক ঘটনা ঘটার সম্ভাবনা পরিমাপ করে।

ক্রমাগত সম্ভাব্যতা বন্টন:

  • সমবন্টন

আয়তক্ষেত্রাকার বিতরণও বলা হয়। সব ফলাফল সমান সম্ভাবনা.


  • সাধারণ/গাউসিয়ান ডিস্ট্রিবিউশন

ডিস্ট্রিবিউশনের গড়, মাঝামাঝি এবং মোড মিলে যায়। বণ্টনের বক্ররেখাটি ঘণ্টার আকৃতির এবং প্রতিসাম্য x = μ. বক্ররেখার অধীনে মোট ক্ষেত্রফল হল 1। ঠিক অর্ধেক মান কেন্দ্রের বাম দিকে এবং বাকি অর্ধেক ডানে।

একটি স্বাভাবিক বন্টন দ্বিপদী বন্টন থেকে অত্যন্ত ভিন্ন। যাইহোক, যদি ট্রায়াল সংখ্যা অসীম কাছাকাছি, তারপর আকার বেশ অনুরূপ হবে.

  • সূচকীয় বিতরণ

একটি পয়সন পয়েন্ট প্রক্রিয়ায় ইভেন্টগুলির মধ্যে সময়ের সম্ভাব্যতা বণ্টন, অর্থাৎ, একটি প্রক্রিয়া যেখানে ঘটনাগুলি একটি স্থির গড় হারে অবিচ্ছিন্নভাবে এবং স্বাধীনভাবে ঘটে।

প্রস্তাব টেস্টিং

প্রথমে, আসুন নাল হাইপোথিসিস এবং বিকল্প হাইপোথিসিসের মধ্যে পার্থক্যটি দেখে নেওয়া যাক।

শূন্য অনুমান: জনসংখ্যার প্যারামিটার সম্পর্কে বিবৃতি যা হয় সত্য বলে বিশ্বাস করা হয় বা একটি যুক্তি উপস্থাপন করতে ব্যবহৃত হয় যদি না এটি হাইপোথিসিস পরীক্ষার দ্বারা ভুল বলে দেখানো হয়।

বিকল্প অনুমান: জনসংখ্যা সম্পর্কে দাবি যা নাল হাইপোথিসিসের সাথে বিরোধী এবং আমরা যদি নাল হাইপোথিসিস প্রত্যাখ্যান করি তাহলে আমরা কি উপসংহারে আসি।

টাইপ I ত্রুটি: একটি সত্য শূন্য অনুমান প্রত্যাখ্যান

টাইপ II ত্রুটি: একটি মিথ্যা নাল অনুমানের অ-প্রত্যাখ্যান

তাৎপর্য স্তর (α): শূন্য হাইপোথিসিস প্রত্যাখ্যান করার সম্ভাবনা যখন এটি সত্য হয়।

পি-মান: পরীক্ষার পরিসংখ্যানের সম্ভাবনা অন্তত ততটা চরম হবে যতটা পরিলক্ষিত হয়েছে যে নাল হাইপোথিসিসটি সত্য।

  • যখন p-মান > α, আমরা শূন্য অনুমান প্রত্যাখ্যান করতে ব্যর্থ হই।
  • p-মান ≤ α থাকাকালীন, আমরা শূন্য অনুমানকে প্রত্যাখ্যান করি এবং আমরা উপসংহারে আসতে পারি যে আমাদের একটি উল্লেখযোগ্য ফলাফল রয়েছে।

পরিসংখ্যানগত হাইপোথিসিস পরীক্ষায়, একটি ফলাফলের পরিসংখ্যানগত তাৎপর্য থাকে যখন শূন্য অনুমানের কারণে এটি হওয়ার সম্ভাবনা খুব কম থাকে।

সমালোচনামূলক মান: পরীক্ষার পরিসংখ্যানের স্কেলের একটি বিন্দু যার বাইরে আমরা শূন্য হাইপোথিসিস প্রত্যাখ্যান করি। এটি একটি পরীক্ষার পরিসংখ্যানের উপর নির্ভর করে, যা পরীক্ষার প্রকারের জন্য নির্দিষ্ট, এবং তাত্পর্য স্তর, α, যা পরীক্ষার সংবেদনশীলতাকে সংজ্ঞায়িত করে।

লিনিয়ার রিগ্রেশন

লিনিয়ার রিগ্রেশন হল প্রথম এমএল অ্যালগরিদম যা আমরা দেখতে পাই। এটি সহজ, এবং এটি বোঝা অন্যান্য উন্নত ML অ্যালগরিদমের ভিত্তি স্থাপন করে।

সহজ রৈখিক নির্ভরণ

একটি নির্ভরশীল ভেরিয়েবল এবং একটি স্বাধীন পরিবর্তনশীলের মধ্যে সম্পর্ক মডেল করার জন্য রৈখিক পদ্ধতি।

আমাদের প্যারামিটারগুলি খুঁজে বের করতে হবে যাতে মডেলটি ডেটার সাথে সর্বোত্তম ফিট করে। রিগ্রেশন লাইন (অর্থাৎ, সেরা ফিট লাইন) হল সেই লাইন যার জন্য ত্রুটি পূর্বাভাসিত মান এবং পর্যবেক্ষণ করা মানগুলির মধ্যে সর্বনিম্ন।

প্রত্যাগতি সীমা.

এখন, এর বাস্তবায়ন করার চেষ্টা করা যাক.

একাধিক লিনিয়ার রিগ্রেশন

একটি নির্ভরশীল ভেরিয়েবল এবং দুই বা ততোধিক স্বাধীন ভেরিয়েবলের মধ্যে সম্পর্ক মডেল করার জন্য রৈখিক পদ্ধতি।

মূল। অনুমতি নিয়ে পোস্ট করা।

সম্পর্কিত:



শীর্ষ গল্পগুলি গত 30 দিন
সবচেয়ে জনপ্রিয়
  1. আপনি কি পাইথন দিয়ে এক্সেল ফাইল পড়েন? 1000x দ্রুততর পথ আছে
  2. ডেটা ইঞ্জিনিয়ারিং দক্ষতা ছাড়া ডেটা বিজ্ঞানীরা কঠোর সত্যের মুখোমুখি হবেন
  3. একটি ডেটা সায়েন্স পোর্টফোলিও যা আপনাকে চাকরি দেবে
  4. পাইথন ব্যবহার করে মাইক্রোসফট এক্সেল এবং ওয়ার্ড স্বয়ংক্রিয় করুন
  5. কিভাবে আপনার ডেটা সায়েন্স প্রজেক্টের জন্য অত্যাশ্চর্য ওয়েব অ্যাপস তৈরি করবেন
সর্বাধিক ভাগ করা
  1. ডাটা পুন Re ব্যালেন্স না করে কিভাবে ভারসাম্যহীন শ্রেণীবিভাগের সাথে মোকাবিলা করতে হয়
  2. আপনার মেশিন লার্নিং মডেলগুলিতে দুর্বলতাগুলি কীভাবে সন্ধান করবেন
  3. মেশিন ও ডিপ লার্নিং কম্পেন্ডিয়াম ওপেন বুক
  4. ডেটা ইঞ্জিনিয়ারিং দক্ষতা ছাড়া ডেটা বিজ্ঞানীরা কঠোর সত্যের মুখোমুখি হবেন
  5. হাইপোথিসিস টেস্টিং ব্যাখ্যা করা হয়েছে

সূত্র: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

সময় স্ট্যাম্প:

থেকে আরো কেডনুগেটস