Парадокс Берксона-Джекеля и его значение для науки о данных

Парадокс Берксона-Джекеля и его значение для науки о данных

Исходный узел: 2550862

Парадокс Берксона-Джекеля и его значение для науки о данных
Изображение по автору
 

Если вы Data Scientist или начинающий, вы будете знать важность статистики в этом секторе. Статистика помогает специалистам по данным собирать, анализировать и интерпретировать данные, выявляя закономерности и тенденции, а затем делать прогнозы на будущее.

Статистический парадокс — это когда статистический результат противоречит ожиданиям. Может быть очень сложно определить точную причину, так как трудно понять данные без использования дополнительных методов. Тем не менее, они являются важным элементом для специалистов по данным, поскольку они дают им представление о том, что может быть причиной вводящих в заблуждение результатов. 

Вот список статистических парадоксов, имеющих отношение к науке о данных:

  • Парадокс Симпсона
  • Парадокс Берксона
  • Ложноположительный парадокс
  • Парадокс точности
  • Парадокс Обучаемости-Геделя

В этой статье мы сосредоточимся на парадоксе Берксона-Джекеля и его значении для науки о данных. 

Парадокс Берксона-Джекеля заключается в том, что две переменные коррелируют в данных, однако, когда данные сгруппированы или разделены на подмножества, корреляция не выявляется. Проще говоря, корреляция различна в разных подгруппах данных.

Парадокс Берксона-Джекеля назван в честь первых статистиков, описавших парадокс, Джозефа Берксона и Джона Джекеля. Открытие парадокса Берксона-Джекеля произошло, когда два статистика изучали взаимосвязь между курением и раком легких. Во время своего исследования они обнаружили корреляцию между людьми, которые были госпитализированы с пневмонией и раком легких, по сравнению с населением в целом. Тем не менее, они провели дальнейшее исследование, которое показало, что корреляция была связана с тем, что курильщики чаще госпитализировались с пневмонией по сравнению с людьми, которые не курили.

Почему это происходит?

Основываясь на первом исследовании парадокса Берксона-Джекеля, проведенном статистиком, можно сказать, что потребовались дополнительные исследования, чтобы выяснить точную причину корреляции. Однако есть и другие причины возникновения парадокса Берксона-Джекеля.

  • Скрытые переменные. Наборы данных могут содержать скрытые переменные, влияющие на результаты. Поэтому, когда проводится исследование корреляции двух переменных, ученые и исследователи данных, возможно, не учитывают все потенциальные факторы. 
  • Смещение выборки: выборка данных может не быть репрезентативной для населения, что может привести к вводящим в заблуждение корреляциям. 
  • Корреляция против причинно-следственной связи. В науке о данных важно помнить, что корреляция не означает причинно-следственную связь. Две переменные могут коррелировать, но это не означает, что одна вызывает другую.

Статистические рассуждения очень важны в науке о данных, и основная проблема связана с вводящими в заблуждение результатами. Как специалист по данным, вы хотите быть уверены, что получаете точные результаты, которые можно использовать в процессе принятия решений и для будущих прогнозов. Делать неправильные прогнозы или вводящие в заблуждение результаты — это последнее, что может случиться. 

Как избежать парадокса Берксона-Джекеля

Есть несколько методов, которые вы можете использовать, чтобы избежать парадокса Берксона-Джекеля:

Используйте статистические методы для контроля скрытых переменных

  • Статистическое моделирование: вы можете использовать статистическое моделирование, чтобы лучше понять взаимосвязь между двумя или более переменными. Таким образом, вы можете определить скрытые переменные, которые потенциально могут повлиять на результат.
  • Рандомизированные контролируемые испытания: это когда участников случайным образом распределяют в группу лечения или контрольную группу. Это может помочь специалистам по данным контролировать скрытые переменные, которые могут повлиять на результаты их исследования.
  • Объединение результатов. Вы можете объединить результаты нескольких исследований, чтобы лучше понять исследование. Таким образом, специалисты по данным лучше понимают и контролируют скрытые переменные в каждом исследовании. 

Разнообразие источников данных

Если вы имеете дело с вводящими в заблуждение результатами из-за того, что данные выборки не являются репрезентативными для генеральной совокупности, решением будет использование данных из различных источников. Это поможет вам получить более репрезентативную выборку населения, больше изучить переменные и получить лучшее понимание.

Вводящие в заблуждение результаты могут сдерживать компанию. Поэтому при работе с данными специалистам по данным необходимо понимать ограничения данных, с которыми они работают, различные переменные и взаимосвязь между ними, а также то, как уменьшить количество вводящих в заблуждение результатов. 

Если вы хотите узнать больше о парадоксе Симпсона, прочтите это: Парадокс Симпсона и его значение в науке о данных

Если вы хотите узнать больше о других статистических парадоксах, прочитайте это: 5 статистических парадоксов, которые следует знать ученым
 
 
Ниша Арья является специалистом по данным, внештатным техническим писателем и менеджером сообщества в KDnuggets. Она особенно заинтересована в предоставлении карьерных советов или учебных пособий по науке о данных, а также теоретических знаний по науке о данных. Она также хочет изучить различные способы, которыми искусственный интеллект может способствовать долголетию человеческой жизни. Страстная ученица, стремящаяся расширить свои технические знания и навыки письма, одновременно помогая другим.
 

Отметка времени:

Больше от КДнаггетс