Изображение по автору
Если вы Data Scientist или начинающий, вы будете знать важность статистики в этом секторе. Статистика помогает специалистам по данным собирать, анализировать и интерпретировать данные, выявляя закономерности и тенденции, а затем делать прогнозы на будущее.
Статистический парадокс — это когда статистический результат противоречит ожиданиям. Может быть очень сложно определить точную причину, так как трудно понять данные без использования дополнительных методов. Тем не менее, они являются важным элементом для специалистов по данным, поскольку они дают им представление о том, что может быть причиной вводящих в заблуждение результатов.
Вот список статистических парадоксов, имеющих отношение к науке о данных:
- Парадокс Симпсона
- Парадокс Берксона
- Ложноположительный парадокс
- Парадокс точности
- Парадокс Обучаемости-Геделя
В этой статье мы сосредоточимся на парадоксе Берксона-Джекеля и его значении для науки о данных.
Парадокс Берксона-Джекеля заключается в том, что две переменные коррелируют в данных, однако, когда данные сгруппированы или разделены на подмножества, корреляция не выявляется. Проще говоря, корреляция различна в разных подгруппах данных.
Парадокс Берксона-Джекеля назван в честь первых статистиков, описавших парадокс, Джозефа Берксона и Джона Джекеля. Открытие парадокса Берксона-Джекеля произошло, когда два статистика изучали взаимосвязь между курением и раком легких. Во время своего исследования они обнаружили корреляцию между людьми, которые были госпитализированы с пневмонией и раком легких, по сравнению с населением в целом. Тем не менее, они провели дальнейшее исследование, которое показало, что корреляция была связана с тем, что курильщики чаще госпитализировались с пневмонией по сравнению с людьми, которые не курили.
Почему это происходит?
Основываясь на первом исследовании парадокса Берксона-Джекеля, проведенном статистиком, можно сказать, что потребовались дополнительные исследования, чтобы выяснить точную причину корреляции. Однако есть и другие причины возникновения парадокса Берксона-Джекеля.
- Скрытые переменные. Наборы данных могут содержать скрытые переменные, влияющие на результаты. Поэтому, когда проводится исследование корреляции двух переменных, ученые и исследователи данных, возможно, не учитывают все потенциальные факторы.
- Смещение выборки: выборка данных может не быть репрезентативной для населения, что может привести к вводящим в заблуждение корреляциям.
- Корреляция против причинно-следственной связи. В науке о данных важно помнить, что корреляция не означает причинно-следственную связь. Две переменные могут коррелировать, но это не означает, что одна вызывает другую.
Статистические рассуждения очень важны в науке о данных, и основная проблема связана с вводящими в заблуждение результатами. Как специалист по данным, вы хотите быть уверены, что получаете точные результаты, которые можно использовать в процессе принятия решений и для будущих прогнозов. Делать неправильные прогнозы или вводящие в заблуждение результаты — это последнее, что может случиться.
Как избежать парадокса Берксона-Джекеля
Есть несколько методов, которые вы можете использовать, чтобы избежать парадокса Берксона-Джекеля:
Используйте статистические методы для контроля скрытых переменных
- Статистическое моделирование: вы можете использовать статистическое моделирование, чтобы лучше понять взаимосвязь между двумя или более переменными. Таким образом, вы можете определить скрытые переменные, которые потенциально могут повлиять на результат.
- Рандомизированные контролируемые испытания: это когда участников случайным образом распределяют в группу лечения или контрольную группу. Это может помочь специалистам по данным контролировать скрытые переменные, которые могут повлиять на результаты их исследования.
- Объединение результатов. Вы можете объединить результаты нескольких исследований, чтобы лучше понять исследование. Таким образом, специалисты по данным лучше понимают и контролируют скрытые переменные в каждом исследовании.
Разнообразие источников данных
Если вы имеете дело с вводящими в заблуждение результатами из-за того, что данные выборки не являются репрезентативными для генеральной совокупности, решением будет использование данных из различных источников. Это поможет вам получить более репрезентативную выборку населения, больше изучить переменные и получить лучшее понимание.
Вводящие в заблуждение результаты могут сдерживать компанию. Поэтому при работе с данными специалистам по данным необходимо понимать ограничения данных, с которыми они работают, различные переменные и взаимосвязь между ними, а также то, как уменьшить количество вводящих в заблуждение результатов.
Если вы хотите узнать больше о парадоксе Симпсона, прочтите это: Парадокс Симпсона и его значение в науке о данных
Если вы хотите узнать больше о других статистических парадоксах, прочитайте это: 5 статистических парадоксов, которые следует знать ученым
Ниша Арья является специалистом по данным, внештатным техническим писателем и менеджером сообщества в KDnuggets. Она особенно заинтересована в предоставлении карьерных советов или учебных пособий по науке о данных, а также теоретических знаний по науке о данных. Она также хочет изучить различные способы, которыми искусственный интеллект может способствовать долголетию человеческой жизни. Страстная ученица, стремящаяся расширить свои технические знания и навыки письма, одновременно помогая другим.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://www.kdnuggets.com/2023/03/berksonjekel-paradox-importance-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=the-berkson-jekel-paradox-and-its-importance-to-data-science
- :является
- a
- О нас
- точность
- точный
- совет
- затрагивающий
- После
- Все
- анализировать
- и
- МЫ
- около
- гайд
- искусственный
- искусственный интеллект
- AS
- стремящийся
- назначенный
- At
- назад
- основанный
- BE
- за
- не являетесь
- польза
- Лучшая
- между
- смещение
- расширять
- by
- CAN
- рак
- Карты
- Карьера
- Вызывать
- Причины
- Причинение
- собирать
- объединять
- сообщество
- Компания
- сравнение
- проводятся
- считается
- контроль
- контроль
- Корреляция
- может
- данным
- наука о данных
- ученый данных
- Наборы данных
- занимавшийся
- Принятие решений
- описано
- DID
- различный
- трудный
- открытие
- в течение
- каждый
- элемент
- обеспечивать
- ожидания
- Больше
- факторы
- несколько
- фигура
- Во-первых,
- фокусировка
- Что касается
- найденный
- внештатно
- от
- далее
- будущее
- Общие
- получить
- дает
- группы
- инструкция
- происходить
- Случай
- Жесткий
- Есть
- помощь
- помощь
- Скрытый
- держать
- Как
- How To
- Однако
- HTML
- HTTPS
- человек
- идентифицированный
- определения
- идентифицирующий
- последствия
- значение
- важную
- in
- Интеллекта
- заинтересованный
- вопрос
- IT
- ЕГО
- John
- КДнаггетс
- Острый
- Знать
- знания
- Фамилия
- вести
- ученик
- ЖИЗНЬЮ
- такое как
- недостатки
- Список
- долговечность
- Главная
- сделать
- Создание
- менеджер
- методы
- моделирование
- БОЛЕЕ
- с разными
- Названный
- Необходимость
- of
- on
- ONE
- Другое
- Другое
- Парадокс
- новыми участниками
- особенно
- паттеранами
- Люди
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- пневмония
- население
- положительный
- потенциал
- потенциально
- Predictions
- процесс
- профессионалы
- обеспечение
- положил
- Читать
- причины
- уменьшить
- отношения
- актуальность
- соответствующие
- помнить
- представитель
- обязательный
- исследованиям
- исследователи
- результат
- Итоги
- s
- Наука
- Ученый
- Ученые
- сектор
- поиск
- должен
- навыки
- Дым
- курильщики
- курение
- Решение
- Источники
- статистический
- статистике
- Кабинет
- изучение
- технологии
- Технический
- terms
- который
- Ассоциация
- их
- Их
- следовательно
- задача
- в
- лечение
- Тенденции
- испытания
- учебные пособия
- понимать
- понимание
- использование
- разнообразие
- vs
- Путь..
- способы
- Что
- , которые
- В то время как
- КТО
- будете
- пожелания
- без
- работает
- бы
- писатель
- письмо
- зефирнет