OpenAI Codex 背后：关于构建 Codex 你不知道的 5 个迷人挑战

= 上篇文章

标签：法典, NLP, OpenAI

在 Codex 构建过程中遇到的一些 ML 工程和建模挑战。

By 耶稣罗德里格斯，进入街区。

注释

Sumber: https://bdtechtalks.com/2021/07/15/openai-codex-ai-programming/

几周前，OpenAI 通过发布 Codex 震惊了人工智能 (AI) 世界，这是一个可以将自然语言转换为代码的大型模型。 Codex 可以有效地从基本语言指令生成端到端。如果你不相信我，你应该观看这个视频，它可以被认为是有史以来最好的 AI 演示之一😉

视频来源：OpenAI

自 Codex 首次推出以来，已经有很多关于 Codex 功能的文章。

然而，我对构建这种规模的模型变得非常相关的小需求更感兴趣。深入研究 Codex，我发现有一些有趣的事情值得强调：

1. Codex 精通大约十几种语言，但它接受过 Python 培训

我发现这非常有见地。 OpenAI 的最初目标是让 Codex 精通 Python，但事实证明，该模型在预训练过程中采用了其他语言。这说明了语言预训练模型的独特能力。

2. 测试 Codex 不仅仅是棘手的问题

人工智能社区对 Codex 背后的研究感到惊讶，但我认为工程方面同样令人印象深刻。我特别感兴趣的一个方面是测试部分。您究竟如何在不冒巨大风险的情况下测试实时代码。事实证明，OpenAI 团队投入了大量工作来构建非常复杂的沙箱来单独测试 Codex 的输出。

3. 将语义与代码匹配绝非易事

用世界上所有的源代码训练模型听起来很酷，但绝非易事。毕竟，并非所有代码都是平等的。 Github 中的代码可能没有很好的文档记录，而 notebook 可能有丰富的语义信息。同样，Stack Overflow 中的代码片段具有更丰富的语义信息级别。将代码部分映射到语言语义是构建 Codex 的挑战之一。

4. Codex 仍在与任务分解作斗争

如果您认为程序员是如何工作的，我们倾向于将问题分解为更小的任务并为这些任务生成代码。事实证明，Codex 在后者方面做得很好，但在问题分解任务中仍然很挣扎。如果我们认为问题分解需要非常复杂的认知技能，这应该不足为奇。

5. 监督微调是构建 Codex 的重要组成部分

互联网中的代码以各种完整性、文档、语法丰富度等形式出现。在如此多样化的代码集中训练模型可能会产生不可靠的结果。从这个意义上说，OpenAI 必须经过大规模的监督微调工作。

这些是关于 Codex 的一些方面，虽然不是超级知名，但它们是该模型第一个版本成功的主要贡献者。 Codex 的成功归功于先进的 ML 研究作为大规模的 ML 工程和基础设施工作。

简介：耶稣罗德里格斯 目前是 Intotheblock 的 CTO。他是技术专家、执行投资者和创业顾问。耶稣创立了 Tellago，这是一家屡获殊荣的软件开发公司，专注于通过利用新的企业软件趋势帮助公司成为伟大的软件组织。

原版。经许可重新发布。

相关新闻：

= 上篇文章

过去30天的热门故事

最受欢迎的产品
数据科学家和机器学习工程师之间的区别您应该使用线性回归模型而不是神经网络的 3 个原因最常见的数据科学面试问题和答案 GitHub Copilot 开源替代品来自谷歌研究总监的学习数据科学建议

最共享
数据科学家和机器学习工程师之间的区别如何查询您的 Pandas 数据框为什么以及如何学习“生产数据科学”？不仅适用于深度学习：GPU 如何加速数据科学和数据分析使用 Ray 编写您的第一个分布式 Python 应用程序