La falacia de la tasa base y su impacto en la ciencia de datos

La falacia de la tasa base y su impacto en la ciencia de datos

Nodo de origen: 2597848

La falacia de la tasa base y su impacto en la ciencia de datos
Imagen del autor
 

Cuando se trabaja con datos y diferentes variables, es fácil asignar una variable o un valor mayor que el otro. Podemos suponer que una variable específica o un punto de datos tuvo un mayor impacto en el resultado, pero ¿qué tan seguros estamos de que las otras variables tienen el mismo impacto?

En estadística, la tasa base puede verse como probabilidades de clases que son incondicionales a la "evidencia característica". Puede ver la tasa base como su suposición de probabilidad anterior. 

Las tasas base son herramientas importantes en la investigación. Por ejemplo, si somos una empresa farmacéutica y estamos en proceso de desarrollar y distribuir una nueva vacuna, queremos investigar el éxito del tratamiento. Si tenemos 4000 personas que están dispuestas a vacunarse, y nuestra tasa base es 1/25. 

Esto significa que solo 160 personas se curarán con éxito con el tratamiento de 4000 personas. En el mundo farmacéutico, esta es una tasa de éxito muy baja. Así es como se pueden usar las tarifas base para mejorar la investigación y la precisión y garantizar que el producto funcione bien. 

Si dividimos las palabras, nos dará una mejor comprensión. Falacia significa una creencia errónea o un razonamiento defectuoso. Si ahora combinamos eso con nuestra definición de la tasa base anterior. 

La falacia de la tasa base, también conocida como sesgo de la tasa base y negligencia de la tasa base, es la probabilidad de juzgar una situación específica sin tener en cuenta todos los datos relevantes. 

La falacia de la tasa base tiene información sobre la tasa base, así como otra información relevante. Esto puede deberse a varias razones, como no examinar y analizar a fondo los datos correctamente, o la ignorancia para favorecer una parte específica de los datos. 

La falacia de la tasa base describe la tendencia de alguien a ignorar la información de la tasa base existente, para presionar y estar a favor de la nueva información. Esto va en contra de las reglas fundamentales del razonamiento basado en la evidencia.

Por lo general, escuchará que esto sucede en la industria financiera. Por ejemplo, los inversores basarán sus tácticas de compra o intercambio en información irracional, lo que conduce a fluctuaciones en el mercado, a pesar de tener conocimiento de la tasa base. 

Así que ahora tenemos una mejor comprensión de la tasa base y la falacia de la tasa base. ¿Cuál es su relevancia e impacto en Data Science?

Hemos hablado de 'probabilidades de clases' y 'tomando en consideración todos los datos relevantes'. Si es un científico de datos, o un ingeniero de aprendizaje automático, o está comenzando, sabrá cuán importantes son las probabilidades y los datos relevantes para producir resultados precisos, el proceso de aprendizaje de su modelo de aprendizaje automático y la producción de modelos de alto rendimiento. 

Para analizar y hacer predicciones sobre los datos o para que su modelo de aprendizaje automático produzca resultados precisos, debe tener en cuenta cada bit de datos. A medida que escanea sus datos la primera vez que los ve, puede considerar algunas partes relevantes y otras irrelevantes. Sin embargo, este es su juicio y aún no es un hecho hasta que se haya realizado un análisis adecuado. 

Como se mencionó anteriormente, la tasa base inicial lo ayuda a garantizar la precisión y producir modelos de alto rendimiento. Entonces, ¿cómo podemos hacer esto en Data Science?

Matriz de confusión

Una matriz de confusión es una medida de rendimiento que proporciona un resumen de los resultados de predicción sobre un problema de clasificación. Todas las matrices de confusión se basan en el resultado: Verdadero, Falso, Positivo y Negativo.

La matriz de confusión representa las predicciones de nuestro modelo durante la fase de prueba. Los falsos negativos y falsos positivos en la matriz de confusión son ejemplos de falacia de tasa base.

  • Verdadero positivo (TP): su modelo predijo positivo y es positivo 
  • Negativo verdadero (TN): su modelo predijo negativo y es negativo
  • Falso positivo (FP): su modelo predijo positivo y es negativo
  • Falso negativo (FN): su modelo predijo negativo y es positivo 

Una matriz de confusión puede calcular 5 métricas diferentes para ayudarnos a medir la validez de nuestro modelo:

  1. Clasificación errónea = FP + FN / TP + TN + FP + FN
  2. Precisión = TP / TP + FP
  3. Precisión = TP + TN / TP + TN + FP + FN
  4. Especificidad = TN / TN + FP
  5. Sensibilidad aka Recall = TP / TP + FN

Para entender mejor una matriz de confusión, es mejor mirar una visualización: 
 

La falacia de la tasa base y su impacto en la ciencia de datos
Imagen del autor

A medida que avanza en este artículo, probablemente pueda pensar en una variedad de causas de la falacia de la tasa base, como no tener en cuenta todos los datos relevantes, errores humanos o falta de precisión. 

Aunque todo esto es cierto y se suma a la causa de la falacia de la tasa base. Todos se relacionan con el mayor problema de ignorar la información de la tasa base en primer lugar. La información de la tarifa base a menudo se ignora porque se considera irrelevante; sin embargo, la información de la tarifa base puede ahorrarle a las personas mucho tiempo y dinero. El uso de la información de tasa base disponible le permite ser más preciso al hacer probabilidades sobre si ocurrirá un evento determinado. 

El uso de la información de la tasa base lo ayudará a evitar la falacia de la tasa base. 

Ser consciente de las falacias, como opiniones, procesos automáticos, etc., le permitirá combatir el problema de la falacia de la tasa base y reducir los posibles errores. Cuando está midiendo la probabilidad de que ocurra un determinado evento, los métodos bayesianos pueden ayudar con esto para reducir la falacia de la tasa base.  

La tasa base es importante en la ciencia de datos, ya que le brinda una comprensión básica de cómo evaluar su estudio o proyecto y ajustar su modelo, lo que proporciona un aumento general en la precisión y el rendimiento.

Si desea ver un video sobre la falacia de la tasa base en el campo de la medicina, consulte este video: Paradoja de la prueba médica
 
 
nisha aria es científico de datos, escritor técnico independiente y administrador de la comunidad en KDnuggets. Ella está particularmente interesada en proporcionar consejos o tutoriales sobre la carrera de Data Science y conocimiento basado en la teoría sobre Data Science. También desea explorar las diferentes formas en que la Inteligencia Artificial es o puede beneficiar la longevidad de la vida humana. Una estudiante entusiasta que busca ampliar sus conocimientos tecnológicos y sus habilidades de escritura, mientras ayuda a guiar a otros.
 

Sello de tiempo:

Mas de nuggets