داده های آماری مهمی که دانشمندان باید بدانند

گره منبع: 1876637

داده های آماری مهمی که دانشمندان باید بدانند

چندین مفهوم آماری اساسی باید توسط هر دانشمند داده - از علاقه مندان گرفته تا حرفه ای ها - به خوبی مورد توجه قرار گیرد. در اینجا، ما تکه‌های کد را در پایتون برای افزایش درک ارائه می‌کنیم تا ابزارهای کلیدی را به شما ارائه دهیم که بینش اولیه را نسبت به داده‌های شما به ارمغان می‌آورند.


By لکشمی اس سونیل, IIT Indore '23 | GHC '21 Scholar.

تجزیه و تحلیل آماری به ما امکان می دهد تا بینش های ارزشمندی را از داده های موجود بدست آوریم. درک صحیح مفاهیم و تکنیک های مهم آماری برای تجزیه و تحلیل داده ها با استفاده از ابزارهای مختلف کاملاً ضروری است.

قبل از اینکه به جزئیات بپردازیم، بیایید نگاهی به موضوعات مطرح شده در این مقاله بیندازیم:

  • آمار توصیفی در مقابل آمار استنباطی
  • انواع داده ها
  • احتمال و قضیه بیز
  • اقدامات گرایش مرکزی
  • سیب زمینی
  • کورتوز
  • اقدامات پراکندگی
  • کواریانس
  • ارتباط
  • توزیع احتمال
  • آزمایش فرضیه
  • رگرسیون

آمار توصیفی در مقابل آمار استنباطی

آمار به طور کلی با جمع آوری، سازماندهی، تجزیه و تحلیل، تفسیر و ارائه داده ها سروکار دارد. در آمار، دو شاخه اصلی وجود دارد:

  1. آمار توصیفی: این شامل توصیف ویژگی‌های داده، سازمان‌دهی و ارائه داده‌ها به صورت بصری از طریق نمودارها/نمودارها یا از طریق محاسبات عددی با استفاده از معیارهای تمایل مرکزی، تغییرپذیری و توزیع است. یک نکته قابل توجه این است که نتیجه گیری بر اساس داده های شناخته شده از قبل انجام می شود.
  2. آمار استنباطی: این شامل استنتاج و تعمیم در مورد جمعیت های بزرگتر با استفاده از نمونه های گرفته شده از آنها است. از این رو محاسبات پیچیده تری مورد نیاز است. نتایج نهایی با استفاده از تکنیک هایی مانند آزمون فرضیه، همبستگی و تحلیل رگرسیون تولید می شود. نتایج و نتایج پیش‌بینی‌شده آتی فراتر از سطح داده‌های موجود است.

انواع داده ها

برای انجام صحیح تجزیه و تحلیل داده های اکتشافی (EDA) با استفاده از مناسب ترین تکنیک های آماری، باید بدانیم که روی چه نوع داده ای کار می کنیم.

  1. داده های دسته بندی

داده‌های طبقه‌ای نشان‌دهنده متغیرهای کیفی مانند جنسیت، گروه خون، زبان مادری و غیره است. به عنوان مثال، اگر جنسیت متغیر باشد، یک زن را می توان با 1 و یک مرد را با 0 نشان داد.

  • داده های اسمی: ارزش ها متغیرها را برچسب گذاری می کنند، و هیچ سلسله مراتبی تعریف شده ای بین دسته ها وجود ندارد، به عنوان مثال، هیچ ترتیب یا جهتی وجود ندارد - برای مثال، مذهب، جنسیت و غیره. مقیاس های اسمی تنها با دو دسته، "دوگانه" نامیده می شوند.
  • داده های ترتیبی: ترتیب یا سلسله مراتب بین دسته ها وجود دارد - به عنوان مثال، رتبه بندی کیفیت، سطح تحصیلات، نمرات نامه دانش آموز و غیره.
  1. داده های عددی

داده های عددی نشان دهنده متغیرهای کمی هستند که فقط بر حسب اعداد بیان می شوند. به عنوان مثال، قد، وزن یک فرد و غیره.

  • داده های گسسته: مقادیر قابل شمارش هستند و اعداد صحیح هستند (اغلب اعداد کامل). به عنوان مثال، تعداد خودروها در یک پارکینگ، تعداد کشورها و غیره.
  • داده های پیوسته: مشاهدات را می توان اندازه گیری کرد اما نمی توان آنها را شمرد. داده‌ها هر مقداری را در یک محدوده فرض می‌کنند - برای مثال، وزن، قد و غیره. داده‌های پیوسته را می‌توان به داده‌های بازه‌ای (مقادیر مرتب شده که تفاوت‌های یکسانی بین آنها دارند اما صفر واقعی ندارند) و داده‌های نسبت (مقادیر مرتب شده با تفاوت‌های یکسان) تقسیم می‌شوند. بین آنها و صفر واقعی وجود دارد).

احتمال و قضیه بیز

احتمال اندازه گیری احتمال وقوع یک رویداد است.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) - P(A∩B)
  • رویدادهای مستقل: دو رویداد مستقل هستند اگر وقوع یکی بر احتمال وقوع دیگری تأثیری نداشته باشد. P(A∩B) = P(A)P(B) که در آن P(A) != 0 و P(B) != 0.
  • رویدادهای انحصاری متقابل: اگر هر دو نتوانند همزمان اتفاق بیفتند، دو رویداد متقابلاً انحصاری یا از هم جدا هستند. P(A∩B) = 0 و P(A∪B) = P(A)+P(B).
  • احتمال شرطی: احتمال یک رویداد A، با توجه به اینکه یک رویداد دیگر B قبلاً رخ داده است. این با P(A|B) نشان داده می شود. P(A|B) = P(A∩B)/P(B)، زمانی که P(B)> 0.
  • قضیه بیز

اقدامات گرایش مرکزی

ماژول آمار را وارد کنید.

  • منظور داشتن: مقدار متوسط ​​مجموعه داده.

numpy.mean( ) نیز می تواند استفاده شود.

  • متوسط: مقدار میانی مجموعه داده.

numpy.median( ) نیز می تواند استفاده شود.

  • حالت: بیشترین مقدار در مجموعه داده.

چه زمانی از میانگین، میانه و حالت استفاده کنیم؟

رابطه میانگین، میانه و مد: حالت = 3 میانه - 2 میانگین

سیب زمینی

معیاری از تقارن، یا دقیق تر، عدم تقارن (عدم تقارن).

  • توزیع نرمال/متقارن: حالت = میانه = میانگین
  • توزیع اریب مثبت (راست): حالت < میانه < میانگین
  • توزیع اریب منفی (چپ): میانگین < میانه < حالت

کورتوز

معیاری است که نشان می‌دهد داده‌ها دارای دنباله سنگین یا سبک‌دم نسبت به توزیع نرمال هستند، به‌عنوان مثال، «پایه بودن» یا «اوج بودن» یک توزیع را اندازه‌گیری می‌کند.

  • لپتوکورتیک - کشیدگی مثبت
  • Mesokurtic - توزیع نرمال
  • Platykurtic - کشش منفی

چولگی و کشیدگی با استفاده از پایتون.

اقدامات پراکندگی

گسترش/پراکندگی داده ها در اطراف یک مقدار مرکزی را توصیف می کند.

محدوده: تفاوت بین بزرگترین و کوچکترین مقدار در مجموعه داده.

انحراف ربع: ربع های یک مجموعه داده، داده ها را به چهار قسمت مساوی تقسیم می کنند - چارک اول (Q1) عدد میانی بین کوچکترین عدد و میانه داده ها است. چارک دوم (Q2) میانه مجموعه داده است. چارک سوم (Q3) عدد میانی بین میانه و بزرگترین عدد است. انحراف چارک است Q = ½ × (Q3 - Q1)

محدوده بین چارکی: IQR = Q3 - Q1

واریانس: میانگین مجذور اختلاف بین هر نقطه داده و میانگین. میزان پراکندگی مجموعه داده نسبت به میانگین را اندازه گیری می کند.

انحراف معیار: جذر واریانس

واریانس و انحراف استاندارد با استفاده از پایتون.

کواریانس

این رابطه بین یک جفت متغیر تصادفی است که در آن تغییر در یک متغیر باعث تغییر در متغیر دیگر می شود.

کوواریانس منفی، صفر و مثبت.

ماتریس کوواریانس و نمایش نقشه حرارتی آن با استفاده از پایتون

ارتباط

نشان می دهد که آیا یک جفت متغیر با یکدیگر مرتبط هستند یا خیر.


ماتریس همبستگی با استفاده از همان داده های مورد استفاده برای کوواریانس.

کوواریانس در مقابل همبستگی.

توزیع احتمال

دو نوع گسترده از توزیع احتمال وجود دارد - توزیع احتمال گسسته و پیوسته.

توزیع احتمال گسسته:

  • توزیع برنولی

یک متغیر تصادفی یک آزمایش منفرد با دو نتیجه ممکن انجام می دهد: 1 (موفقیت) با احتمال p و 0 (شکست) با احتمال 1-p.

  • توزیع دو جمله ای

هر آزمایشی مستقل است. تنها دو نتیجه ممکن در یک آزمایش وجود دارد: موفقیت یا شکست. تعداد کل n کارآزمایی یکسان انجام شده است. احتمال موفقیت و شکست برای همه آزمایش ها یکسان است. (آزمایش ها یکسان هستند.)

  • توزیع پواسون

احتمال وقوع تعداد معینی از رویدادها را در یک دوره زمانی مشخص اندازه گیری می کند.

توزیع احتمال پیوسته:

  • توزیع یکنواخت

توزیع مستطیلی نیز نامیده می شود. همه نتایج به یک اندازه محتمل هستند.


  • توزیع عادی/گاوسی

میانگین، میانه و حالت توزیع منطبق هستند. منحنی توزیع به شکل زنگ و متقارن در مورد خط است x = μ. مساحت کل زیر منحنی 1 است. دقیقاً نیمی از مقادیر در سمت چپ مرکز و نیمی دیگر در سمت راست قرار دارند.

توزیع نرمال با توزیع دو جمله ای بسیار متفاوت است. با این حال، اگر تعداد آزمایش‌ها به بی‌نهایت نزدیک شود، اشکال کاملاً مشابه خواهند بود.

  • توزیع نمایی

توزیع احتمال زمان بین رویدادها در یک فرآیند نقطه پواسون، یعنی فرآیندی که در آن رویدادها به طور پیوسته و مستقل با نرخ میانگین ثابت رخ می‌دهند.

آزمایش فرضیه

ابتدا، بیایید تفاوت بین فرضیه صفر و فرضیه جایگزین را بررسی کنیم.

فرضیه صفر: بیانیه ای در مورد پارامتر جمعیت که یا باور بر این است که درست است یا برای ارائه یک استدلال استفاده می شود، مگر اینکه بتوان با آزمون فرضیه نادرست بودن آن را نشان داد.

فرضیه جایگزین: ادعای جمعیتی که با فرضیه صفر مغایرت دارد و در صورت رد فرضیه صفر چه نتیجه ای می گیریم.

خطای نوع I: رد یک فرضیه صفر واقعی

خطای نوع دوم: عدم رد فرضیه صفر نادرست

سطح معنی داری (α): احتمال رد فرضیه صفر در صورت صحت.

p-value: با توجه به اینکه فرضیه صفر درست است، احتمال اینکه آمار آزمون حداقل به اندازه آمار مشاهده شده شدید باشد.

  • وقتی p-value > α، ما در رد فرضیه صفر شکست می خوریم.
  • در حالی که p-value ≤ α، فرضیه صفر را رد می کنیم و می توانیم نتیجه بگیریم که نتیجه قابل توجهی داریم.

در آزمون فرضیه های آماری، یک نتیجه زمانی دارای اهمیت آماری است که احتمال وقوع آن با توجه به فرضیه صفر بسیار کم است.

ارزش بحرانی: نقطه ای در مقیاس آمار آزمون که بیش از آن فرض صفر را رد می کنیم. این بستگی به یک آمار آزمون، که مخصوص نوع آزمون است، و سطح معناداری α، که حساسیت آزمون را مشخص می کند، دارد.

رگرسیون خطی

رگرسیون خطی معمولاً اولین الگوریتم ML است که با آن مواجه می شویم. این ساده است و درک آن پایه و اساس دیگر الگوریتم های پیشرفته ML را می گذارد.

رگرسیون خطی ساده

رویکرد خطی برای مدل سازی رابطه بین یک متغیر وابسته و یک متغیر مستقل.

ما باید پارامترها را پیدا کنیم تا مدل به بهترین وجه با داده ها مطابقت داشته باشد. خط رگرسیون (یعنی بهترین خط مناسب) خطی است که برای آن خطا وجود دارد بین مقادیر پیش بینی شده و مقادیر مشاهده شده حداقل است.

خط رگرسیون

حالا بیایید سعی کنیم این را پیاده سازی کنیم.

رگرسیون خطی چندگانه

رویکرد خطی برای مدل سازی رابطه بین یک متغیر وابسته و دو یا چند متغیر مستقل.

اصلی. مجدداً با اجازه دوباره ارسال شد.

مرتبط:

منبع: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

تمبر زمان:

بیشتر از kdnuggets