Важные статистические данные, которые необходимо знать ученым

Исходный узел: 1876637

Важные статистические данные, которые необходимо знать ученым

Каждый специалист по данным — от энтузиаста до профессионала — должен хорошо понимать несколько фундаментальных статистических концепций. Здесь мы предоставляем фрагменты кода на Python, чтобы улучшить понимание, чтобы предоставить вам ключевые инструменты, которые обеспечивают раннее понимание ваших данных.


By Лекшми С. Сунил, ИИТ Индор '23 | Ученый GHC '21.

Статистический анализ позволяет нам извлечь ценную информацию из имеющихся данных. Хорошее понимание важных статистических концепций и методов абсолютно необходимо для анализа данных с использованием различных инструментов.

Прежде чем мы углубимся в детали, давайте взглянем на темы, затронутые в этой статье:

  • Описательная статистика против логической статистики
  • Типы данных
  • Вероятность и теорема Байеса
  • Меры центральной тенденции
  • перекос
  • эксцесс
  • Меры Дисперсии
  • ковариации
  • Корреляция
  • Распределение вероятностей
  • Проверка гипотезы
  • Регрессия

Описательная статистика против логической статистики

Статистика в целом занимается сбором, организацией, анализом, интерпретацией и представлением данных. В статистике есть две основные ветви:

  1. Описательная статистика: Это включает в себя описание характеристик данных, организацию и представление данных либо визуально с помощью диаграмм / графиков, либо с помощью численных расчетов с использованием показателей центральной тенденции, изменчивости и распределения. Примечательно, что выводы делаются на основе уже известных данных.
  2. Выведенный статистика: это включает в себя выводы и обобщения о более крупных популяциях с использованием взятых из них выборок. Следовательно, требуются более сложные расчеты. Окончательные результаты получаются с использованием таких методов, как проверка гипотез, корреляция и регрессионный анализ. Прогнозируемые будущие результаты и сделанные выводы выходят за рамки имеющихся данных.

Типы данных

Чтобы выполнить надлежащий исследовательский анализ данных (EDA) с применением наиболее подходящих статистических методов, нам необходимо понять, с каким типом данных мы работаем.

  1. Категориальные данные

Категориальные данные представляют собой качественные переменные, такие как пол человека, группа крови, родной язык и т. д. Категориальные данные также могут быть в форме числовых значений без какого-либо математического смысла. Например, если пол является переменной, женский пол может быть представлен 1, а мужской — 0.

  • Номинальные данные: значения обозначают переменные, и между категориями нет определенной иерархии, т. е. нет порядка или направления — например, религия, пол и т. д. Номинальные шкалы только с двумя категориями называются «дихотомическими».
  • Порядковые данные: между категориями существует порядок или иерархия — например, рейтинги качества, уровень образования, письменные оценки учащихся и т. д.
  1. Числовые данные

Числовые данные представляют собой количественные переменные, выраженные только в виде чисел. Например, рост человека, вес и т.

  • Дискретные данные: значения являются исчисляемыми и являются целыми числами (чаще всего целыми числами). Например, количество автомобилей на парковке, количество стран и т. д.
  • Непрерывные данные: Наблюдения можно измерить, но нельзя подсчитать. Данные предполагают любое значение в пределах диапазона, например, вес, рост и т. д. Непрерывные данные можно дополнительно разделить на интервальные данные (упорядоченные значения, имеющие одинаковые различия между ними, но не имеющие истинного нуля) и данные отношения (упорядоченные значения, имеющие одинаковые различия). между ними и существует истинный нуль).

Вероятность и теорема Байеса

Вероятность – это мера вероятности того, что событие произойдет.

  • Р(А) + Р(А') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • Независимые события: два события независимы, если появление одного из них не влияет на вероятность появления другого. P(A∩B) = P(A)P(B), где P(A) != 0 и P(B) != 0.
  • Взаимоисключающие события: два события являются взаимоисключающими или непересекающимися, если они не могут произойти оба одновременно. P(A∩B) = 0 и P(A∪B) = P(A)+P(B).
  • Условная возможность: Вероятность события А при условии, что другое событие В уже произошло. Это представлено P (A | B). P(A|B) = P(A∩B)/P(B), когда P(B)>0.
  • Теорема Байеса

Меры центральной тенденции

Импортируйте модуль статистики.

  • среднее: Среднее значение набора данных.

Также можно использовать numpy.mean().

  • медиана: Среднее значение набора данных.

Также можно использовать numpy.median().

  • режим: наиболее часто встречающееся значение в наборе данных.

Когда использовать среднее значение, медиану и моду?

Соотношение между средним значением, медианой и модой: Мода = 3 Медиана — 2 Среднее

перекос

Мера симметрии, точнее, отсутствие симметрии (асимметрия).

  • Нормальное/симметричное распределение: мода = медиана = среднее
  • Положительно (справа) асимметричное распределение: мода <медиана <среднее
  • Отрицательно (слева) асимметричное распределение: среднее < медиана < мода

эксцесс

Мера того, являются ли данные тяжелыми или легкими хвостами по отношению к нормальному распределению, т. е. измеряет «хвост» или «остроконечность» распределения.

  • Лептокуртик – положительный эксцесс
  • Мезокуртический - нормальное распределение
  • Платикуртик - отрицательный эксцесс

Асимметрия и эксцесс с использованием Python.

Меры Дисперсии

Описывает распространение/разброс данных вокруг центрального значения.

Диапазон: Разница между наибольшим и наименьшим значением в наборе данных.

Квартильное отклонение: Квартили набора данных делят данные на четыре равные части — первый квартиль (Q1) — это среднее число между наименьшим числом и медианой данных. Второй квартиль (Q2) является медианой набора данных. Третий квартиль (Q3) — это среднее число между медианой и наибольшим числом. Квартильное отклонение Q = ½ × (Q3 — Q1)

Межквартильный диапазон: IQR = Q3 — Q1

Разница: Среднеквадратическая разница между каждой точкой данных и средним значением. Измеряет, насколько разбросан набор данных по отношению к среднему значению.

Среднеквадратичное отклонение: Квадратный корень из дисперсии.

Дисперсия и стандартное отклонение с использованием Python.

ковариации

Это отношение между парой случайных величин, при котором изменение одной переменной вызывает изменение другой переменной.

Отрицательная, нулевая и положительная ковариация.

Ковариационная матрица и ее представление тепловой карты с использованием Python.

Корреляция

Он показывает, связаны ли и насколько сильно пары переменных друг с другом.


Матрица корреляции с использованием тех же данных, что и для ковариации.

Ковариация против корреляции.

Распределение вероятностей

Существует два основных типа распределений вероятностей — дискретные и непрерывные распределения вероятностей.

Дискретное распределение вероятностей:

  • Бернулли Распределение

Случайная величина принимает одно испытание только с двумя возможными исходами: 1 (успех) с вероятностью p и 0 (неудача) с вероятностью 1-p.

  • Биномиальное распределение

Каждое испытание является независимым. В испытании есть только два возможных исхода — либо успех, либо неудача. Всего проводится n одинаковых испытаний. Вероятность успеха и неудачи одинакова для всех испытаний. (Испытания идентичны.)

  • Распределение Пуассона

Измеряет вероятность того, что заданное количество событий произойдет в указанный период времени.

Непрерывное распределение вероятностей:

  • Равномерное распределение

Также называется прямоугольным распределением. Все исходы равновероятны.


  • Нормальное/гауссово распределение

Среднее значение, медиана и мода распределения совпадают. Кривая распределения имеет колоколообразную форму и симметрична относительно линии х = μ. Общая площадь под кривой равна 1. Ровно половина значений находится слева от центра, а другая половина — справа.

Нормальное распределение сильно отличается от биномиального распределения. Однако если число испытаний приближается к бесконечности, то формы будут очень похожими.

  • Экспоненциальное распределение

Распределение вероятностей времени между событиями в точечном процессе Пуассона, т. е. в процессе, в котором события происходят непрерывно и независимо с постоянной средней скоростью.

Проверка гипотезы

Во-первых, давайте посмотрим на разницу между нулевой гипотезой и альтернативной гипотезой.

Нулевая гипотеза: Утверждение о параметре совокупности, которое либо считается истинным, либо используется для выдвижения аргумента, если не может быть доказано, что его неверность проверкой гипотезы.

Альтернативная гипотеза: Утверждение о населении, которое противоречит нулевой гипотезе, и к чему мы придем, если отклоним нулевую гипотезу.

Ошибка I рода: Отказ от истинной нулевой гипотезы

Ошибка II рода: Неопровержение ложной нулевой гипотезы

Уровень значимости (α): Вероятность отклонения нулевой гипотезы, если она верна.

р-значение: Вероятность того, что тестовая статистика будет по крайней мере такой же экстремальной, как наблюдаемая, при условии, что нулевая гипотеза верна.

  • Когда p-значение > α, мы не можем отвергнуть нулевую гипотезу.
  • Пока p-значение ≤ α, мы отвергаем нулевую гипотезу и можем сделать вывод, что имеем значимый результат.

При проверке статистической гипотезы результат имеет статистическую значимость, когда маловероятно, что он возник при нулевой гипотезе.

Критическое значение: Точка на шкале тестовой статистики, выше которой мы отвергаем нулевую гипотезу. Это зависит от статистики теста, которая специфична для типа теста, и уровня значимости α, который определяет чувствительность теста.

Линейная регрессия

Линейная регрессия обычно является первым алгоритмом машинного обучения, с которым мы сталкиваемся. Это просто, и его понимание закладывает основу для других продвинутых алгоритмов машинного обучения.

Простая линейная регрессия

Линейный подход к моделированию связи между зависимой переменной и одной независимой переменной.

Мы должны найти параметры, чтобы модель лучше всего соответствовала данным. Линия регрессии (т. е. линия наилучшего соответствия) — это линия, для которой ошибка между прогнозируемыми значениями и наблюдаемыми значениями является минимальным.

Линия регрессии.

Теперь попробуем это реализовать.

Множественная линейная регрессия

Линейный подход к моделированию взаимосвязи между зависимой переменной и двумя или более независимыми переменными.

Оригинал, Перемещено с разрешения.

Связанный:

Источник: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html.

Отметка времени:

Больше от КДнаггетс