数据可解释性:模型可解释性的对应物 - DATAVERSITY

数据可解释性:模型可解释性的对应物 – DATAVERSITY

源节点: 2658143

如今,人工智能和机器学习无处不在。 

不管是大家一起玩 ChatGPT (最快的 历史上采用的应用程序) 或最近的建议添加 红绿灯的第四种颜色 为了更安全地过渡到自动驾驶汽车,人工智能已经彻底渗透到我们的生活中。 虽然 AI 似乎比以往任何时候都更容易获得,但 AI 模型的复杂性呈指数级增长。 

人工智能模型分为黑盒和白盒模型两大类。 黑盒模型在没有解释的情况下做出决定,而白盒模型根据产生该结果的规则提供结果。 

随着我们继续走向一个完整的深度学习方法的世界,大多数都在很大程度上倾向于黑盒模型。 

这种方法的问题是什么? 不能直接使用黑盒模型(如内置计算机视觉的模型)。 这通常被称为黑盒问题。 虽然重新训练黑盒模型可以让用户快速入门,但随着模型复杂性的增加,解释模型和理解黑盒模型的结果变得更加困难。

解决黑盒难题的一种策略是制作一个非常定制和可解释的模型。 

但是,这不是世界前进的方向。 

模型可解释性结束的地方,数据可解释性开始的地方

可解释性至关重要,因为它可以提高模型的透明度、准确性和公平性,还可以提高对 AI 的信心。 虽然模型可解释性是一种传统方法,但现在也需要一种新类型:数据可解释性。

模型可解释性意味着理解算法,以便理解最终结果。 例如,如果肿瘤科中使用的模型旨在测试生长是否癌变,则医疗保健提供者应该了解产生最终结果的变量。 虽然这在理论上听起来不错,但模型的可解释性并不能完全解决黑盒问题。 

随着模型变得越来越复杂,大多数从业者将无法精确定位转换并解释模型内层的计算。 他们在很大程度上依赖于他们可以控制的东西,即训练数据集和他们观察到的东西、结果和预测措施。  

让我们以数据科学家为例,构建一个模型来从数千张照片中检测咖啡杯的照片——但该模型也开始检测水杯和啤酒杯的图像。 虽然玻璃杯和啤酒杯可能与咖啡杯有一些相似之处,但它们之间存在明显差异,例如典型材料、颜色、不透明度和结构比例。

对于以更高可靠性检测咖啡杯的模型,数据科学家必须知道以下问题的答案:

  • 模型拾取了哪些图像而不是咖啡杯? 
  • 模型失败是因为我没有提供足够或正确的咖啡杯示例吗?
  • 该模型是否足以满足我要实现的目标?
  • 我需要挑战我对模型的看法吗?
  • 我可以最终确定导致模型失败的原因是什么? 
  • 我应该生成模型的新假设吗?
  • 我是否刚刚为工作选择了错误的型号?

正如您所看到的,每次出现问题时都提供这种洞察力、理解力和模型可解释性是极不可能的。

数据可解释性是理解 data 用于训练和输入模型,以了解模型的最终结果是如何达到的。 随着 ML 算法变得越来越复杂,但在各个专业和行业中的应用越来越广泛,数据可解释性将成为快速解锁和解决常见问题的关键,例如我们的咖啡杯示例。

通过数据可解释性提高 ML 的公平性和透明度

ML 模型中的公平性是一个热门话题,通过应用数据可解释性可以使这个话题变得更加热门。

为什么嗡嗡声? 人工智能中的偏见会给一个群体带来偏见的结果。 记录最详尽的案例之一是种族用例中的偏见。 让我们看一个例子。 

假设一家大型知名消费平台正在招聘新的营销总监职位。 为了处理每天收到的大量简历,人力资源部门部署了人工智能/机器学习模型,通过选择关键特征或合格的申请人来简化申请和招聘流程。 

为了执行此任务,并辨别和分桶每份简历,模型将通过理解关键的主导特征来做到这一点。 不幸的是,这 还 意味着该模型也可以隐含地了解候选人的普遍种族偏见。 这到底是怎么发生的? 如果申请人池中某个种族的百分比较小,则机器会认为该组织更喜欢不同种族或占主导地位的数据集的成员。

如果一个模型失败了,即使是无意的,公司也必须解决这个问题。 本质上,部署该模型的人必须能够捍卫该模型的使用。

在招聘和种族偏见案例中,辩护人必须能够向愤怒的公众和/或应用程序池解释使用数据集来训练模型、基于该训练的模型的初步成功结果、在极端情况下采用的模型,以及这如何导致无意的数据不平衡,最终造成种族偏见的过滤过程。

对于大多数人来说,这种关于人工智能、不平衡数据集、模型训练以及数据监督最终失败的细节不会被很好地接受甚至理解。 但是从这个故事中会理解和坚持什么? XYZ 公司在招聘时存在种族偏见。 

这个非常常见的例子的寓意是,一个非常聪明的模型确实会发生意外错误,并且会对人类产生负面影响并产生可怕的后果。 

数据可解释性将我们带到何处

数据可解释性不是通过理解复杂的机器学习模型来翻译结果,而是使用数据来解释预测和失败。

数据可解释性是查看测试数据的组合  了解模型将从该数据中提取什么。 这包括了解代表性不足的数据样本、过度代表性的样本(如在招聘示例中)以及模型检测的透明度,以便准确理解预测和错误预测。

这种对数据可解释性的理解不仅会提高模型的准确性和公平性,还会帮助模型更快地加速。

随着我们继续依赖复杂的 AI 和 ML 程序并将其融入我们的日常生活,解决黑匣子问题变得至关重要,特别是对于失败和错误预测。 

虽然模型的可解释性始终占有一席之地,但它需要另一层。 我们需要数据的可解释性,因为经典模型的可解释性永远无法理解模型正在看到和阅读的内容。

时间戳记:

更多来自 数据多样性