Ошибка базовой ставки и ее влияние на науку о данных

Ошибка базовой ставки и ее влияние на науку о данных

Исходный узел: 2597848
Ошибка базовой ставки и ее влияние на науку о данных
Изображение по автору
 

При работе с данными и различными переменными легко присвоить одной переменной или значению большее значение, чем другое. Мы можем предположить, что конкретная переменная или точка данных оказали большее влияние на результат, но насколько мы уверены, что другие переменные имеют такое же влияние?

В статистике базовую ставку можно рассматривать как вероятность классов, которые безоговорочно основаны на «особых доказательствах». Вы можете рассматривать базовую ставку как ваше предварительное предположение о вероятности. 

Базовые ставки являются важными инструментами в исследованиях. Например, если мы являемся фармацевтической компанией и находимся в процессе разработки и отправки новой вакцины, мы хотим проверить успех лечения. Если у нас есть 4000 человек, которые готовы сделать эту прививку, и наша базовая ставка составляет 1/25. 

Это означает, что только 160 человек будут успешно вылечены лечением из 4000 человек. В фармацевтическом мире это очень низкий показатель успеха. Вот как можно использовать базовые ставки для улучшения исследований, точности и гарантии того, что продукт будет работать хорошо. 

Если мы разделим слова, это даст нам лучшее понимание. Заблуждение означает ошибочное убеждение или ошибочное рассуждение. Если мы теперь объединим это с нашим определением базовой ставки выше. 

Ошибка базовой ставки, также известная как предвзятость базовой ставки и пренебрежение базовой ставкой, представляет собой вероятность оценки конкретной ситуации без учета всех соответствующих данных. 

Ошибка базовой ставки содержит информацию о базовой ставке, а также другую соответствующую информацию. Это может быть связано с различными причинами, такими как недостаточно тщательное изучение и анализ данных или незнание в пользу определенной части данных. 

Ошибка базовой ставки описывает склонность кого-то игнорировать существующую информацию о базовой ставке, продвигать и поддерживать новую информацию. Это противоречит фундаментальным правилам аргументации, основанной на доказательствах.

Обычно вы слышите об этом в финансовой индустрии. Например, инвесторы будут основывать свою тактику покупки или обмена на иррациональной информации, что приводит к колебаниям на рынке, несмотря на то, что, насколько им известно, имеется базовая ставка. 

Итак, теперь мы лучше понимаем базовую ставку и ошибочность базовой ставки. Какова его актуальность и влияние на науку о данных?

Мы говорили о «вероятностях классов» и «принимании во внимание всех соответствующих данных». Если вы специалист по данным, инженер по машинному обучению или только начинаете работать, вы будете знать, насколько важны вероятности и соответствующие данные для получения точных результатов, процесса обучения вашей модели машинного обучения и создания высокопроизводительных моделей. 

Чтобы анализировать и делать прогнозы относительно данных или чтобы ваша модель машинного обучения давала точные результаты, вам необходимо принять во внимание каждый бит данных. Когда вы просматриваете свои данные в первый раз, когда видите их, вы можете посчитать некоторые их части значимыми, а другие — несущественными. Однако это ваше суждение, и оно еще не фактическое, пока не будет проведен надлежащий анализ. 

Как упоминалось выше, начальная базовая скорость помогает вам обеспечить точность и создавать высокопроизводительные модели. Итак, как мы можем сделать это в науке о данных?

Матрица путаницы

Матрица путаницы — это измерение производительности, которое предоставляет сводку результатов прогнозирования по проблеме классификации. Все матрицы путаницы основаны на результатах: True, False, Positive и Negative.

Матрица путаницы представляет собой прогнозы нашей модели на этапе тестирования. Ложноотрицательные и ложноположительные значения в матрице путаницы являются примерами ошибки базовой ставки.

  • True Positive (TP) — ваша модель предсказала положительный результат, и он положительный. 
  • True Negative (TN) — ваша модель предсказала отрицательный результат, и он отрицательный.
  • Ложное срабатывание (FP) — ваша модель предсказала положительный результат, а она — отрицательный.
  • Ложноотрицательный (FN) — ваша модель предсказывала отрицательный результат, а он положительный. 

Матрица путаницы может рассчитать 5 различных показателей, которые помогут нам измерить достоверность нашей модели:

  1. Неправильная классификация = FP + FN / TP + TN + FP + FN
  2. Точность = TP / TP + FP
  3. Точность = TP + TN / TP + TN + FP + FN
  4. Специфичность = TN / TN + FP
  5. Чувствительность, она же Recall = TP / TP + FN

Чтобы лучше понять матрицу путаницы, лучше взглянуть на визуализацию: 
 

Ошибка базовой ставки и ее влияние на науку о данных
Изображение по автору

Просматривая эту статью, вы, вероятно, можете подумать о различных причинах ошибки базовой скорости, таких как непринятие во внимание всех соответствующих данных, человеческая ошибка или отсутствие точности. 

Хотя все они верны и дополняют причину ошибки базовой ставки. Все они связаны с самой большой проблемой игнорирования информации о базовых ставках. Информация о базовой ставке часто игнорируется, поскольку считается неактуальной, однако информация о базовой ставке может сэкономить людям много времени и денег. Использование доступной информации о базовой частоте позволяет вам более точно определить вероятность того, произойдет ли данное событие. 

Использование информации о базовой ставке поможет вам избежать ошибки базовой ставки. 

Осведомленность об ошибках, таких как мнения, автоматические процессы и т. д., позволит вам бороться с проблемой ошибки базовой ставки и уменьшить потенциальные ошибки. Когда вы измеряете вероятность наступления определенного события, байесовские методы могут помочь в этом, чтобы уменьшить ошибку базовой ставки.  

Базовая ставка важна в науке о данных, поскольку она дает вам базовое понимание того, как оценивать ваше исследование или проект, а также точно настраивать вашу модель, обеспечивая общее повышение точности и производительности.

Если вы хотите посмотреть видео об ошибке базовой ставки в области медицины, посмотрите это видео: Парадокс медицинских тестов
 
 
Ниша Арья является специалистом по данным, внештатным техническим писателем и менеджером сообщества в KDnuggets. Она особенно заинтересована в предоставлении карьерных советов или учебных пособий по науке о данных, а также теоретических знаний по науке о данных. Она также хочет изучить различные способы, которыми искусственный интеллект может способствовать долголетию человеческой жизни. Страстная ученица, стремящаяся расширить свои технические знания и навыки письма, одновременно помогая другим.
 

Отметка времени:

Больше от КДнаггетс