基本速率谬误及其对数据科学的影响

由柏拉图重新发布

关注： 0

基本利率谬误及其对数据科学的影响
图片作者

在处理数据和不同的变量时，很容易将一个变量或值指定为大于另一个。我们可能会假设特定变量或数据点对输出的影响更大，但我们如何确定其他变量具有相同的影响？

在统计学中，基本比率可以看作是无条件地以“特征证据”为条件的类别概率。您可以将基本利率视为您的先验概率假设。

基准利率是研究中的重要工具。例如，如果我们是一家制药公司，并且正在开发和分发新疫苗，我们希望了解治疗是否成功。如果我们有 4000 人愿意接受这种疫苗接种，我们的基本比率是 1/25。

这意味着160人中只有4000人能通过治疗成功治愈。在制药界，这是一个非常低的成功率。这就是如何使用基本费率来改进研究和准确性，并确保产品性能良好。

如果我们把这些词分开，它会让我们更好地理解。谬误是指错误的信念或错误的推理。如果我们现在将其与我们上面对基本利率的定义结合起来。

基准利率谬误，也称为基准利率偏差和基准利率忽视，是在不考虑所有相关数据的情况下判断特定情况的可能性。

基本利率谬误包含有关基本利率的信息以及其他相关信息。这可能是由于各种原因造成的，例如没有彻底检查和正确分析数据，或者无视数据的特定部分。

基本利率谬误描述了某人忽视现有基本利率信息、推动和支持新信息的倾向。这违背了循证推理的基本规则。

您通常会听说金融行业发生了这种情况。例如，投资者会将他们的购买或共享策略基于非理性信息，这会导致市场波动——尽管他们知道基准利率。

所以现在我们对基本利率和基本利率谬误有了更好的理解。它在数据科学中的相关性和影响是什么？

我们已经谈到了“类别概率”和“考虑所有相关数据”。如果您是一名数据科学家、机器学习工程师，或者刚刚踏入大门——您就会知道概率和相关数据对于生成准确的输出、机器学习模型的学习过程和生成高性能模型有多么重要。

要分析和预测数据或让您的机器学习模型产生准确的输出——您需要考虑每一位数据。当您第一次浏览数据时，您可能会认为某些部分相关而其他部分不相关。但是，这是您的判断，在进行适当的分析之前还不是事实。

如上所述，初始基准率可帮助您确保准确性并生成高性能模型。那么我们如何在数据科学中做到这一点呢？

混淆矩阵

混淆矩阵是一种性能度量，可提供分类问题预测结果的摘要。混淆矩阵都基于结果：True、False、Positive 和 Negative。

混淆矩阵代表我们模型在测试阶段的预测。混淆矩阵中的假阴性和假阳性是基本率谬误的例子。

真阳性 (TP) – 您的模型预测为阳性，结果为阳性
真阴性 (TN) – 您的模型预测为阴性，结果为阴性
假阳性 (FP) – 您的模型预测为阳性，结果为阴性
假阴性 (FN) – 您的模型预测为阴性，结果为阳性

混淆矩阵可以计算 5 个不同的指标来帮助我们衡量模型的有效性：

误分类 = FP + FN / TP + TN + FP + FN
精度 = TP / TP + FP
精度 = TP + TN / TP + TN + FP + FN
特异性 = TN / TN + FP
灵敏度又名召回 = TP / TP + FN

为了更好地理解混淆矩阵，最好看一下可视化：

基本利率谬误及其对数据科学的影响
图片作者

在阅读本文时，您可能会想到导致基本利率谬误的各种原因，例如没有考虑所有相关数据、人为错误或缺乏精确性。

尽管这些都是真实的并且增加了基本利率谬误的原因。它们都与最初忽略基本速率信息的最大问题有关。基本利率信息通常被忽略，因为它被认为是无关紧要的，但是，基本利率信息可以为人们节省大量时间和金钱。使用可用的基本速率信息可以让您更准确地确定给定事件是否会发生的概率。

使用基本利率信息将帮助您避免基本利率谬误。

意识到观点、自动流程等谬误——将使您能够解决基本利率谬误问题并减少潜在错误。当您测量某个事件发生的概率时，贝叶斯方法可以帮助减少基本率谬误。

基本比率在数据科学中很重要，因为它使您对如何评估您的研究或项目以及微调您的模型有一个基本的了解——从而全面提高准确性和性能。

如果您想观看有关医学领域基本率谬误的视频，请查看此视频：医学测试悖论

妮莎·艾莉亚 是 KDnuggets 的数据科学家、自由技术作家和社区经理。她对提供数据科学职业建议或教程以及围绕数据科学的理论知识特别感兴趣。她还希望探索人工智能是/可以有益于人类长寿的不同方式。一个敏锐的学习者，寻求拓宽她的技术知识和写作技巧，同时帮助指导他人。