数据插补方法

数据插补方法

源节点: 1895750

数据插补方法
照片由 罗恩·拉克
 

现实世界的数据集很少是完美的,并且经常带有缺失值或不完整的信息。 这些故障可能是由于人为因素(错误填写或未填写的调查)或技术(传感器故障)造成的。 无论情况如何,您经常会留下缺失的值或信息。

当然,这带来了一个问题。 如果没有缺失值,整个数据集可能被视为不可用。 但由于需要大量的时间、精力和(在许多情况下)金钱 获取高质量数据,处理不正确的数据并重新开始可能不是可行的选择。 相反,我们必须找到一种方法来解决或替换这些缺失的值。 这就是数据插补的用武之地。 

本指南将讨论什么是数据插补以及它支持的方法类型。

虽然我们无法替换丢失或损坏的数据,但我们可以采用一些方法来使数据集仍然可用。 数据插补是实现这一目标的最可靠的技术之一。 然而,我们必须首先确定缺少什么类型的数据以及原因。 

在统计学和数据科学中,缺失数据主要分为三种类型:

  • 随机缺失 (MAR),其中缺失的数据与变量相关联,并且最终可以被观察或追踪。 在许多情况下,这可以为您提供有关人口统计或数据主体的更多信息。 例如,特定年龄的人可能决定跳过调查中的问题或在特定时间从其设备中删除跟踪系统。 
  • 完全随机缺失 (MCAR),其中 缺失数据 无法观察或追踪到变量。 几乎不可能辨别数据丢失的原因。
  • 非随机缺失的缺失数据 (NMAR),其中缺失的数据与感兴趣的变量相关。 在大多数情况下,可以忽略这些缺失的数据。 当调查接受者跳过不适用于他们的问题时,就会发生 NMAR。

处理丢失的数据

目前,您有三个主要选项来处理缺失的数据值:

  • 缺失
  • 归因
  • 漠视

您可以使用所谓的列表式删除,而不是处理整个数据集。 这涉及删除缺少信息或值的记录。 按列表删除的主要优点是它支持所有三类缺失数据。 

但是,这可能会导致额外的数据丢失。 建议您只使用 列表删除 在缺失(观察到的)值数量多于当前(观察到的)值的情况下,主要是因为没有足够的数据来推断或替换它们。 

如果观察到的缺失数据并不重要(可忽略)并且仅缺失几个值,则您可以忽略它们并使用现有的数据。 然而,这并不总是可能的。 数据插补提供了第三种可能更可行的解决方案。 

数据插补涉及替换缺失的值,以便数据集仍然可用。 数据插补方法有两类:

  • 集成的

平均插补 (MI) 是最著名的单数据插补形式之一。

平均插补 (MI)

MI 是简单插补的一种形式。 这涉及计算观测值的平均值并使用结果推断缺失值。 不幸的是,这种方法已被证明效率低下。 即使数据完全随机丢失,它也可能导致许多有偏差的估计。 此外,估计的“准确性”取决于缺失值的数量。 

例如,如果存在大量缺失的观测值, 使用平均插补 可能会导致价值被低估。 因此,它更适合仅缺少少量值的数据集和变量。 

手动更换

在这种情况下,操作员可以使用数据集值的先验知识来替换缺失值。 它是一种依赖于操作员的记忆或知识的单一插补方法,有时被称为理想数的先验知识。 准确性取决于操作员回忆值的能力,因此该方法可能更适合仅缺少少量值的数据集。

K 最近邻 (K-NN)

K 最近邻是机器学习中广泛使用的一项技术,用于解决回归和分类问题。 它使用缺失数据值的邻居缺失数据值的平均值来计算和插补它。 这 K-NN方法 比简单的均值插补有效得多,并且非常适合 MCAR 和 MAR 值。 

换人

替代涉及寻找新的个体或接受调查或测试。 这应该是原始样本中没有选择的受试者。

回归插补

回归试图确定因变量(通常指定为 Y)相对于自变量集合(通常表示为 X)的强度。 线性回归是最著名的回归形式。 它使用最佳拟合线来预测或确定缺失值。 因此,它是通过回归模型直观地表示数据的最佳方法。

当线性回归是确定性回归的一种形式时,在缺失值和当前值之间建立了精确关系,缺失值将替换为回归模型的 100% 预测。 然而,这种方法有一个限制。 确定性线性回归通常会导致高估值之间关系的紧密程度。

随机 线性回归 通过引入(随机)误差项来补偿确定性回归的“过于精确”,因为两种情况或变量很少完美连接。 这使得使用回归来填充缺失值更加合适。

热甲板采样

该方法涉及从具有与缺少该值的受试者相似的其他值的受试者中随机选择的值。 它要求您搜索主题或个人,然后使用他们的值填充缺失的数据。 

热甲板采样方法限制了可达到的值的范围。 例如,如果您的样本仅限于 20 至 25 岁之间的年龄组,则您的结果将始终在这些数字之间,从而提高了替换值的潜在准确性。 这种插补方法的受试者/个人是随机选择的。

冷甲板取样

该方法涉及搜索对于数据集中的所有其他变量/参数具有相似或相同值的个体/受试者。 例如,该主体可能与价值观缺失的主体具有相同的身高、文化背景和年龄。 它与热甲板抽样的不同之处在于,受试者是系统地选择和重复使用的。 

虽然处理缺失数据的选项和技术有很多,但预防总是胜于治疗。 研究人员必须严格执行 计划实验 和研究。 研究必须有明确的使命宣言或目标。 

通常,研究人员使研究过于复杂或未能针对障碍制定计划,从而导致数据丢失或不足。 最好简化研究设计,同时精确关注数据收集。 

仅收集实现研究目标所需的数据,仅收集其他数据。 您还应该确保研究或实验中涉及的所有仪器和传感器始终功能齐全。 随着研究的进展,考虑定期创建数据/响应的备份。 

数据丢失是很常见的情况。 即使您实施了最佳实践,您仍然可能会遇到数据不完整的问题。 幸运的是,事后有一些方法可以解决这个问题。   

 
 
娜拉·戴维斯(Nahla Davies) 是一名软件开发人员和技术作家。 在将全职工作投入到技术写作之前,她曾在一家拥有 5,000 名体验品牌的公司担任首席程序员,其客户包括三星、时代华纳、Netflix 和索尼。
 

时间戳记:

更多来自 掘金队