微软研究院训练神经网络来理解它们所阅读的内容

由柏拉图重新发布

关注： 0

Sumber: https://www.quantamagazine.org/machines-beat-humans-on-a-reading-test-but-do-they-understand-20191017/

我最近开始了一份有关AI教育和 已经有超过50,000个订阅者。 TheSequence是无BS（意味着没有大肆宣传，没有新闻等），它是专注于AI的新闻通讯，需要5分钟的阅读时间。目标是让您了解机器学习项目，研究论文和概念的最新动态。请通过以下订阅尝试一下：

机器阅读理解（MRC）是深度学习领域的一门新兴学科。从概念的角度来看，MRC 专注于可以回答有关特定文本文档的智能问题的深度学习模型。对于人类来说，阅读理解是一种从上学初期甚至更早开始就发展起来的固有认知技能。当我们阅读一篇文章时，我们会本能地提取关键思想，这些思想将使我们能够回答有关该主题的未来问题。就人工智能（AI）模型而言，这项技能在很大程度上仍然不发达。

第一代广泛采用的自然语言理解（NLU）技术主要侧重于检测与特定句子相关的意图和概念。我们可以将这些模型视为实现阅读理解的第一层知识。然而，完整的机器阅读理解需要额外的构建块，这些构建块可以将问题推断和关联到文本的特定部分，并从文档的特定部分构建知识。

MRC 领域最大的挑战之一是，大多数模型都基于监督训练，数据集不仅包含文档，还包含潜在的问题和答案。正如您可以想象的那样，这种方法不仅非常难以扩展，而且在某些数据根本不可用的领域中实际上不可能实现。最近，微软的研究人员提出了一种有趣的方法来应对 MRC 算法中的这一挑战。

在一篇题为“ “机器理解中迁移学习的两阶段综合网络”，微软的研究推出了一种称为两阶段合成网络或同步网应用迁移学习来减少训练 MRC 模型的工作量。同步网可以被视为构建与特定文本相关的知识的两阶段方法。在第一阶段，同步网学习识别文本文档中潜在“兴趣”的一般模式。这些是关键知识点、命名实体或语义概念，通常是人们可能询问的答案。然后，在第二阶段，模型学习在文章的上下文中围绕这些潜在答案形成自然语言问题。

关于的迷人之处同步网就是，经过训练，模型可以应用于新领域，读取新领域中的文档，然后针对这些文档生成伪问题和答案。然后，它形成必要的训练数据，为该新领域训练 MRC 系统，这可能是一种新疾病、新公司的员工手册或新产品手册。

许多人错误地将 MRC 技术与更发达的机器翻译领域联系起来。对于 MRC 模型，例如同步网，挑战在于他们需要综合这两个问题和文档的答案。虽然问题是句法流畅的自然语言句子，但答案主要是段落中的显着语义概念，例如命名实体、动作或数字。由于答案与问题具有不同的语言结构，因此将答案和问题视为两种不同类型的数据可能更合适。同步网该理论通过将生成问答对的过程分解为两个基本步骤来具体化：以段落为条件的答案生成以及以段落和答案为条件的问题生成。