Помилка базової ставки та її вплив на науку про дані

Помилка базової ставки та її вплив на науку про дані

Вихідний вузол: 2597848

Помилка базової ставки та її вплив на науку про дані
Зображення автора
 

Під час роботи з даними та різними змінними легко призначити одній змінній або значенню більше, ніж інше. Ми можемо припустити, що певна змінна чи точка даних мала більший вплив на результат, але наскільки ми впевнені, що інші змінні мають такий же вплив?

У статистиці базову ставку можна розглядати як ймовірності класів, які є безумовними за «ознаками». Ви можете розглядати базову ставку як ваше попереднє припущення ймовірності. 

Базові ставки є важливим інструментом дослідження. Наприклад, якщо ми є фармацевтичною компанією та знаходимося в процесі розробки та відвантаження нової вакцини, ми хочемо перевірити успіх лікування. Якщо у нас буде 4000 людей, які готові зробити це щеплення, і наша базова ставка буде 1/25. 

Це означає, що з 160 осіб успішно вилікуються лише 4000 осіб. У фармацевтичному світі це дуже низький рівень успіху. Таким чином базові ставки можна використовувати для покращення досліджень, точності та гарантії того, що продукт працюватиме добре. 

Якщо ми розділимо слова, це дасть нам краще розуміння. Помилка означає помилкове переконання або неправильне міркування. Якщо ми тепер поєднаємо це з нашим визначенням базової ставки вище. 

Помилка базової ставки, також відома як зміщення базової ставки та нехтування базовою ставкою, — це ймовірність оцінки конкретної ситуації без урахування всіх відповідних даних. 

Помилка базової ставки містить інформацію про базову ставку, а також іншу відповідну інформацію. Це може бути викликано різними причинами, такими як недостатнє ретельне вивчення та аналіз даних належним чином або незнання надавати перевагу певній частині даних. 

Помилка базової ставки описує тенденцію когось ігнорувати існуючу інформацію про базову ставку, наполягати та підтримувати нову інформацію. Це суперечить основним правилам аргументації на основі доказів.

Зазвичай ви почуєте про це у фінансовій галузі. Наприклад, інвестори базуватимуть свою тактику купівлі чи обміну на ірраціональній інформації, що призводить до коливань на ринку, незважаючи на те, що вони мають базову ставку. 

Тож тепер ми маємо краще розуміння базової ставки та її помилковості. Яка його актуальність і вплив на Data Science?

Ми говорили про «ймовірності класів» і «врахування всіх відповідних даних». Якщо ви фахівець з обробки даних, інженер машинного навчання або ви знаєте, наскільки важливі ймовірності та відповідні дані для отримання точних результатів, процесу навчання вашої моделі машинного навчання та створення високопродуктивних моделей. 

Щоб аналізувати та робити прогнози щодо даних або щоб ваша модель машинного навчання створювала точні результати, вам потрібно враховувати кожен біт даних. Коли ви вперше переглядаєте свої дані, ви можете вважати деякі частини релевантними, а інші – нерелевантними. Однак це ваше судження, яке ще не відповідає дійсності, доки не буде проведено належний аналіз. 

Як згадувалося вище, початкова базова ставка допомагає вам забезпечити точність і створювати високоефективні моделі. Отже, як ми можемо це зробити в Data Science?

Матриця плутанини

Матриця плутанини — це вимірювання продуктивності, яке надає зведення результатів прогнозування щодо проблеми класифікації. Усі матриці плутанини базуються на результатах: Істинний, Хибний, Позитивний і Негативний.

Матриця плутанини представляє прогнози нашої моделі на етапі тестування. Хибнонегативні та хибнопозитивні результати в матриці плутанини є прикладами помилкової базової ставки.

  • True Positive (TP) – ваша модель передбачила позитивний результат, і він позитивний 
  • True Negative (TN) – ваша модель передбачила негатив, і він негативний
  • Хибнопозитивний (FP) – ваша модель передбачила позитивний результат, а він негативний
  • Помилково негативний (FN) – ваша модель передбачила негативний результат і він позитивний 

Матриця плутанини може обчислити 5 різних показників, які допоможуть нам виміряти достовірність нашої моделі:

  1. Неправильна класифікація = FP + FN / TP + TN + FP + FN
  2. Точність = TP / TP + FP
  3. Точність = TP + TN / TP + TN + FP + FN
  4. Специфічність = TN / TN + FP
  5. Чутливість aka Recall = TP / TP + FN

Щоб краще зрозуміти матрицю плутанини, краще поглянути на візуалізацію: 
 

Помилка базової ставки та її вплив на науку про дані
Зображення автора

Читаючи цю статтю, ви, ймовірно, можете згадати різні причини помилкової базової ставки, наприклад, неврахування всіх відповідних даних, людська помилка або недостатня точність. 

Хоча все це правда і додає причину помилкової базової ставки. Усі вони стосуються найбільшої проблеми ігнорування інформації про базову ставку. Інформація про базову ставку часто ігнорується, оскільки вона вважається нерелевантною, однак інформація про базову ставку може заощадити людям багато часу та грошей. Використання доступної інформації про базову ставку дозволяє точніше визначити ймовірність того, чи відбудеться дана подія. 

Використання інформації про базову ставку допоможе вам уникнути помилок щодо базової ставки. 

Усвідомлення таких помилок, як думки, автоматичні процеси тощо, дозволить вам боротися з проблемою помилкової базової ставки та зменшити потенційні помилки. Коли ви вимірюєте ймовірність виникнення певної події, байєсівські методи можуть допомогти в цьому, щоб зменшити помилковість базової ставки.  

Базова ставка важлива в науці про дані, оскільки вона дає вам базове розуміння того, як оцінити ваше дослідження чи проект і як налаштувати свою модель, забезпечуючи загальне підвищення точності та продуктивності.

Якщо ви хочете переглянути відео про помилковість базової ставки в медичній галузі, перегляньте це відео: Парадокс медичного тесту
 
 
Ніша Арья є дослідником даних, позаштатним технічним автором і менеджером спільноти в KDnuggets. Вона особливо зацікавлена ​​в наданні кар’єрних порад щодо Data Science або навчальних посібників і теоретичних знань щодо Data Science. Вона також хоче вивчити різні способи, якими штучний інтелект приносить/може підвищити тривалість людського життя. Завзято навчається, прагне розширити свої технічні знання та навички письма, водночас допомагаючи керувати іншими.
 

Часова мітка:

Більше від KDnuggets