人工智能和开源软件：一出生就分开？ - KDnuggets

由柏拉图重新发布

关注： 0

人工智能和开源软件：一出生就分开？
图片由编辑

自去年年底以来，我一直在阅读、写作和演讲有关开源软件和机器学习的交叉点，试图了解未来可能会带来什么。

当我开始时，我预计我会主要谈论机器学习社区如何使用开源软件。但我探索得越多，就越意识到这两个实践领域之间有很多相似之处。在本文中，我将讨论其中的一些相似之处，以及机器学习可以从开源软件中学习什么，不能从开源软件中学习什么。

简单而明显的相似之处在于，现代机器学习和现代软件几乎完全是用开源软件构建的。对于软件来说，就是编译器和代码编辑器；对于机器学习，它是像 PyTorch 和 TensorFlow 这样的训练和推理框架。这些领域由开源软件主导，而且似乎没有任何东西可以改变这一点。

有一个明显的例外：所有这些框架都依赖于非常专有的 Nvidia 硬件和软件堆栈。这实际上比乍一看更加并行。长期以来，开源软件主要运行在由专有硬件供应商销售的专有 Unix 操作系统上。直到 Linux 出现之后，我们才开始理所当然地认为堆栈的开放“底部”是可能的，并且现在很多开放开发都是在 MacOS 和 Windows 上完成的。目前尚不清楚这将如何在机器学习中发挥作用。亚马逊（AWS）、谷歌（云和安卓）和苹果都在投资竞争芯片和堆栈，其中一个或多个可能会遵循 Linus（和 Intel）释放了整个堆.

开源软件的构建方式和机器学习的构建方式之间更重要的相似之处是各自构建的数据的复杂性和公共可用性。

如本文所述预印本纸 “数据来源项目” 我与人合着的《现代机器学习》是建立在数千个数据源之上的，就像现代开源软件建立在数十万个库之上一样。就像每个开放图书馆都会带来法律、安全和维护方面的挑战一样，每个公共数据集也会带来完全相同的困难。

在我的组织中，我们将这一挑战的开源软件版本称为“意外供应链”。软件行业开始构建东西，因为开源库令人难以置信的构建块意味着我们可以。这意味着该行业开始将开源软件视为供应链——这令许多“供应商”感到惊讶。

为了缓解这些挑战，开源软件开发了许多复杂的（尽管不完美）技术，例如用于识别正在使用的内容的扫描仪，以及用于在部署后跟踪事物的元数据。我们还开始投资于人类，试图解决工业需求和志愿者动机之间的不匹配问题。

不幸的是，机器学习社区似乎准备陷入同样的“意外”供应链错误——做很多事情，因为它可以，而没有停下来思考一旦整个经济都基于这些数据集的长期影响。

最后一个重要的相似之处是，我强烈怀疑机器学习将扩展到填补许多许多领域，就像开源软件一样。目前，（当之无愧的）炒作是关于大型生成模型的，但也有许多小型模型，以及对大型模型的调整。事实上，托管网站 HuggingFace（机器学习的主要托管平台）报告称，其网站上的模型数量正在呈指数级增长。

这些模型可能会很丰富并且可以改进，就像开源软件的小片段一样。这将使它们变得异常灵活和强大。例如，我正在使用一个基于机器学习的小型工具在我的街道上进行廉价、隐私敏感的流量测量，这是几年前除非在昂贵的设备上否则不可能实现的用例。

但这种扩散意味着它们需要被跟踪——模型可能变得不太像大型机，而更像开源软件或 SaaS，由于低成本和易于部署，它们随处可见。

那么，如果存在这些重要的相似之处（特别是复杂的供应链和激增的分销），机器学习可以从开源软件中学到什么？

我们可以得出的第一个类似的教训是，要理解机器学习的许多挑战，机器学习将需要元数据和工具。开源软件通过版权和许可合规性偶然进入元数据工作，但随着软件意外供应链的成熟，元数据已被证明在各个方面都非常有用。

在机器学习中，元数据跟踪是一项正在进行的工作。举几个例子：

A 2019年重点论文被业界广泛引用，敦促模型开发人员用“模型卡”记录他们的工作。不幸的是，最近的研究表明他们野外实施仍然薄弱.
SPDX 和 CycloneDX 软件物料清单 (SBOM) 规范都致力于人工智能物料清单 (AI BOM)，以比模型卡更加结构化的方式帮助跟踪机器学习数据和模型（符合人们预期的复杂性，如果这真正做到并行开源软件）。
HuggingFace 已创建各种规格和工具允许模型和数据集作者记录其来源。
上面引用的麻省理工学院数据来源论文试图了解数据许可的“基本事实”，以帮助用现实世界的数据充实规范。
有趣的是，许多从事机器学习培训工作的公司似乎与数据跟踪有一些随意的关系，以“越多越好”为借口，将数据铲入料斗，但不一定能很好地跟踪它。

如果我们从开放中学到了什么，那就是正确获取元数据（首先是规格，然后是实际数据）将是一个耗时数年的项目，并且可能需要政府干预。机器学习应该尽早应对元数据的暴跌。

安全性是开源软件元数据需求的另一个主要驱动因素——如果您不知道自己在运行什么，就无法知道自己是否容易受到看似无穷无尽的攻击。

机器学习不会受到大多数类型的传统软件攻击，但这并不意味着它们是无懈可击的。（我最喜欢的例子是可以毒物图像训练集因为它们经常取自死域。）这一领域的研究已经足够热门，以至于我们已经超越了“概念验证”并进入“有足够的攻击来名单和分类设立的区域办事处外，我们在美国也开设了办事处，以便我们为当地客户提供更多的支持。“

不幸的是，开源软件无法为机器学习提供任何安全灵丹妙药——如果我们有的话，我们就会使用它们。但开源软件如何传播到如此多的利基市场的历史表明，机器学习必须认真对待这一挑战，从跟踪使用和部署元数据开始，正是因为它可能会以超出目前用途的多种方式应用部署。

推动开源元数据（许可，然后是安全）的动机指向了下一个重要的相似之处：随着一个部门重要性的增长，必须衡量和跟踪的事物的范围将会扩大，因为监管和责任将会扩大。

在开源软件中，多年来主要的政府“监管”是版权法，因此元数据的发展是为了支持这一点。但开源软件现在面临着各种安全和产品责任规则，我们必须成熟我们的供应链以满足这些新要求。

随着人工智能变得越来越重要，它也会以越来越多的方式受到同样的监管。监管来源将极其多样化，包括内容（投入和产出）、歧视和产品责任。这有时需要所谓的“确保端到端”——了解模型是如何构建的，以及这些选择（包括数据源）如何影响模型的结果。

这个核心要求——我们有什么？它是如何形成的？——现在已为企业开源软件开发人员所熟悉。然而，对于机器学习开发人员来说，这可能是一个根本性的变化，需要接受。

机器学习可以从开源软件（实际上是之前的许多软件浪潮，至少可以追溯到大型机）中汲取的另一个平行教训是，它的使用寿命将非常非常长。一旦一项技术“足够好”，它就会被部署，因此必须维护非常非常长的时间。这意味着我们必须尽早考虑这个软件的维护，思考这个软件可能存活几十年意味着什么。 “几十年”并不夸张；我遇到的许多客户都在使用足够老的投票软件。许多开源软件公司和一些项目现在都有所谓的“长期支持”版本，专门用于此类用例。

相比之下，OpenAI 保留其 Codex 工具的时间不到两年——引起很多愤怒，尤其是在学术界。考虑到机器学习的快速变化，并且大多数采用者可能对使用最前沿的技术感兴趣，这可能不是没有道理的，但是这一天将会到来，比业界想象的要早，需要为此做好计划某种“长期”——包括它如何与责任和安全相互作用。

最后，很明显，就像开源软件一样，将会有大量资金流入机器学习，但其中大部分资金将集中在一位作者所说的领域 “处理器丰富”的公司。如果与开源软件的相似之处得到体现，这些公司将与模型的中位创建者（或用户）有非常不同的关注点和支出优先级。

我们公司 Tidelift 一段时间以来一直在思考开源软件的激励问题，而像世界上最大的软件购买者——美国政府——这样的实体正在也在研究问题.

机器学习公司，尤其是那些寻求创建创作者社区的公司，应该认真思考这一挑战。如果他们依赖于数千个数据集，那么他们将如何确保这些数据集能够在几十年内获得维护、法律合规和安全方面的资金？如果大公司最终在公司内部部署了数十或数百个模型，那么他们将如何确保那些拥有最佳专业知识的人（创建模型的人）仍然能够在发现新问题时继续解决问题？

与安全一样，这一挑战也没有简单的答案。但机器学习越早认真对待这个问题——不是作为慈善行为，而是作为长期增长的关键组成部分——整个行业和整个世界就会变得更好。

机器学习深深植根于学术界的实验主义文化和硅谷的快速迭代文化，这对其起到了很好的作用，导致了惊人的创新爆炸，不到十年前似乎很神奇。开源软件在过去十年中的历程也许不那么光鲜亮丽，但在那段时间里，它已成为所有企业软件的基础，并在此过程中吸取了很多教训。希望机器学习不会重新发明这些轮子。

路易斯·维拉 是 Tidelift 的联合创始人兼总法律顾问。此前，他是一名顶级开源律师，为从财富 50 强公司到领先初创公司的客户提供产品开发和开源许可方面的咨询服务。