Важливі статистичні дані, які повинні знати вчені

Вихідний вузол: 1876637

Важливі статистичні дані, які повинні знати вчені

Кожен науковець даних — від ентузіаста до професіонала — повинен добре оцінити декілька фундаментальних статистичних концепцій. Тут ми надаємо фрагменти коду на Python, щоб розширити розуміння, щоб надати вам ключові інструменти, які дають змогу отримати раннє уявлення про ваші дані.


By Лекшмі С. Суніл, IIT Indore '23 | Стипендіат GHC '21.

Статистичний аналіз дозволяє нам отримати цінну інформацію з наявних даних. Грамотне розуміння важливих статистичних концепцій і методів абсолютно необхідно для аналізу даних за допомогою різних інструментів.

Перш ніж перейти до деталей, давайте подивимося на теми, які розглядаються в цій статті:

  • Описова та висновкова статистика
  • Типи даних
  • Ймовірність і теорема Байєса
  • Заходи центральної тенденції
  • Асиметрія
  • Куртоз
  • Заходи дисперсії
  • Коваріація
  • Кореляція
  • Розподіли ймовірностей
  • Перевірка гіпотез
  • Регресія

Описова та висновкова статистика

Статистика в цілому займається збором, організацією, аналізом, інтерпретацією та представленням даних. У статистиці виділяють дві основні галузі:

  1. Описова статистика: Це включає в себе опис особливостей даних, упорядкування та представлення даних або візуально за допомогою діаграм/графіків, або за допомогою числових розрахунків із використанням вимірювань центральної тенденції, мінливості та розподілу. Заслуговує на увагу те, що висновки робляться на основі вже відомих даних.
  2. Висновок статистики: Це передбачає робити висновки та робити узагальнення щодо більших популяцій, використовуючи вибірки, взяті з них. Тому потрібні більш складні розрахунки. Остаточні результати отримують за допомогою таких методів, як перевірка гіпотез, кореляційний та регресійний аналіз. Прогнозовані майбутні результати та зроблені висновки виходять за межі рівня наявних даних.

Типи даних

Щоб виконати правильний аналіз дослідницьких даних (EDA) із застосуванням найбільш відповідних статистичних методів, нам потрібно зрозуміти, з яким типом даних ми працюємо.

  1. Категоричні дані

Категоричні дані представляють якісні змінні, такі як стать особи, група крові, рідна мова тощо. Категоричні дані також мають форму числових значень без будь-якого математичного значення. Наприклад, якщо стать є змінною, жінка може бути представлена ​​1, а чоловік 0.

  • Номінальні дані: Значення позначають змінні, і немає визначеної ієрархії між категоріями, тобто немає порядку чи напряму, наприклад, релігія, стать тощо. Номінальні шкали лише з двома категоріями називаються «дихотомічними».
  • Порядкові дані: між категоріями існує порядок або ієрархія, наприклад, рейтинги якості, рівень освіти, літерні оцінки учнів тощо.
  1. Числові дані

Числові дані представляють собою кількісні змінні, виражені лише в цифрах. Наприклад, зріст, вага тощо.

  • Дискретні дані: Значення є лічильними і є цілими числами (найчастіше цілими). Наприклад, кількість автомобілів на стоянці, кількість країн тощо.
  • Безперервні дані: Спостереження можна виміряти, але не можна порахувати. Дані приймають будь-яке значення в межах діапазону — наприклад, вага, зріст тощо. Безперервні дані можна далі розділити на дані інтервалу (впорядковані значення мають однакові відмінності між ними, але не мають справжнього нуля) і дані про співвідношення (впорядковані значення мають однакові відмінності між ними існує істинний нуль).

Ймовірність і теорема Байєса

Ймовірність — це міра ймовірності того, що подія відбудеться.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • Незалежні події: дві події є незалежними, якщо настання однієї не впливає на ймовірність появи іншої. P(A∩B) = P(A)P(B), де P(A) != 0 і P(B) != 0.
  • Взаємно виключаючі події: дві події є взаємовиключними або не перетинаються, якщо обидві не можуть відбутися одночасно. P(A∩B) = 0 і P(A∪B) = P(A)+P(B).
  • Умовна ймовірність: Ймовірність події A, враховуючи, що інша подія B вже відбулася. Це представлено P(A|B). P(A|B) = P(A∩B)/P(B), коли P(B)>0.
  • Теорема Байеса

Заходи центральної тенденції

Імпортуйте модуль статистики.

  • Середня: середнє значення набору даних.

numpy.mean() також можна використовувати.

  • Медіана: Середнє значення набору даних.

numpy.median() також можна використовувати.

  • режим: Найчастіше значення в наборі даних.

Коли використовувати середнє значення, медіану та моду?

Відношення між середнім, медіаною та модою: Режим = 3 Медіана — 2 Середнє

Асиметрія

Міра симетрії, а точніше, відсутність симетрії (асиметрія).

  • Нормальний/симетричний розподіл: мода = медіана = середнє
  • Позитивно (праворуч) скошений розподіл: мода < медіана < середнє
  • Негативний (ліворуч) скошений розподіл: середнє < медіана < режим

Куртоз

Міра того, чи є дані важкохвостими чи легкохвостими відносно нормального розподілу, тобто вимірює «хвост» або «піковість» розподілу.

  • Лептокуртик – позитивний ексцес
  • Мезокуртик – нормальний розподіл
  • Platykurtic – негативний ексцес

Перекос і ексцес за допомогою Python.

Заходи дисперсії

Описує поширення/розсіювання даних навколо центрального значення.

Діапазон: Різниця між найбільшим і найменшим значенням у наборі даних.

Квартильне відхилення: квартилі набору даних ділять дані на чотири рівні частини — перший квартиль (Q1) — це середнє число між найменшим числом і медіаною даних. Другий квартиль (Q2) є медіаною набору даних. Третій квартиль (Q3) є середнім числом між медіаною та найбільшим числом. Квартильне відхилення є Q = ½ × (Q3 — Q1)

Міжквартильний діапазон: IQR = Q3 — Q1

Дисперсія: Середня квадратична різниця між кожною точкою даних і середнім. Вимірює, наскільки поширений набір даних є відносно середнього.

Стандартне відхилення: Квадратний корінь дисперсії.

Дисперсія та стандартне відхилення за допомогою Python.

Коваріація

Це зв’язок між парою випадкових величин, коли зміна однієї змінної спричиняє зміну іншої.

Від’ємна, нульова та позитивна коваріація.

Коваріаційна матриця та її теплова карта за допомогою Python.

Кореляція

Він показує, чи і наскільки сильно пара змінних пов’язана одна з одною.


Матриця кореляції з використанням тих самих даних, що використовуються для коваріації.

Коваріація проти кореляції.

Розподіли ймовірностей

Існує два широкі типи розподілу ймовірностей — дискретний і безперервний розподіл ймовірностей.

Дискретний розподіл ймовірностей:

  • Розподіл Бернуллі

Випадкова величина приймає одне випробування лише з двома можливими результатами: 1 (успіх) з ймовірністю p і 0 (невдача) з ймовірністю 1-p.

  • Біноміальний розподіл

Кожне випробування є незалежним. У випробуванні є лише два можливих результату - або успіх, або невдача. Всього проведено n ідентичних випробувань. Імовірність успіху і невдачі однакова для всіх випробувань. (Випробування ідентичні.)

  • Розподіл Пуассона

Вимірює ймовірність того, що певна кількість подій відбудеться за певний період часу.

Неперервний розподіл ймовірностей:

  • Рівномірний розподіл

Також називається прямокутним розподілом. Усі результати однаково вірогідні.


  • Нормальний/Гаусів розподіл

Середнє значення, медіана та спосіб розподілу збігаються. Крива розподілу має форму дзвону і симетрична відносно лінії х = μ. Загальна площа під кривою дорівнює 1. Рівно половина значень знаходиться ліворуч від центру, а інша половина — праворуч.

Нормальний розподіл сильно відрізняється від біноміального розподілу. Однак якщо кількість випробувань наближається до нескінченності, то форми будуть досить схожими.

  • Експоненційний розподіл

Розподіл імовірності часу між подіями в процесі точки Пуассона, тобто в процесі, в якому події відбуваються безперервно і незалежно з постійною середньою швидкістю.

Перевірка гіпотез

Спочатку давайте подивимося на різницю між нульовою гіпотезою та альтернативною гіпотезою.

Нульова гіпотеза: Твердження щодо параметра сукупності, яке або вважається істинним, або використовується для висунення аргументу, якщо перевірка гіпотези не доведе, що він неправильний.

Альтернативна гіпотеза: Твердження про сукупність, що суперечить нульовій гіпотезі, і те, що ми робимо, якщо відхиляємо нульову гіпотезу.

Помилка I типу: Відмова від істинної нульової гіпотези

Помилка II типу: Невідмова від хибної нульової гіпотези

Рівень значимості (α): Ймовірність відхилення нульової гіпотези, коли вона істинна.

p-значення: Ймовірність того, що тестова статистика буде принаймні настільки ж екстремальною, як і спостережувана, враховуючи, що нульова гіпотеза вірна.

  • Коли p-значення > α, ми не можемо відхилити нульову гіпотезу.
  • Поки p-значення ≤ α, ми відкидаємо нульову гіпотезу і можемо зробити висновок, що маємо значущий результат.

При перевірці статистичної гіпотези результат має статистичну значущість, коли малоймовірно, що він відбувся з урахуванням нульової гіпотези.

Критичне значення: Точка на шкалі тестової статистики, за межами якої ми відхиляємо нульову гіпотезу. Це залежить від статистики тесту, яка є специфічною для типу тесту, і рівня значущості α, який визначає чутливість тесту.

Linear Regression

Лінійна регресія зазвичай є першим алгоритмом ML, з яким ми стикаємося. Це просто, і розуміння цього закладає основу для інших передових алгоритмів ML.

Проста лінійна регресія

Лінійний підхід до моделювання зв’язку між залежною змінною та однією незалежною змінною.

Ми повинні знайти параметри, щоб модель найкраще відповідала даним. Лінія регресії (тобто, найкраща відповідна лінія) – це лінія, для якої помилка між прогнозованими значеннями і спостережуваними значеннями мінімальна.

Лінія регресії.

Тепер спробуємо це реалізувати.

Множина лінійна регресія

Лінійний підхід до моделювання зв’язку між залежною змінною та двома чи більше незалежними змінними.

Оригінал. Повідомлено з дозволу.

За темою:

Джерело: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Часова мітка:

Більше від KDnuggets