Dolly 2.0：ChatGPT 商业用途开源替代方案

由柏拉图重新发布

关注： 0

Dolly 2.0：用于商业用途的 ChatGPT 开源替代方案
图片来自作者 | 必应图像创作者

多莉 2.0 是一种开源的、指令遵循的大型语言模型 (LLM)，它在人工生成的数据集上进行了微调。它可以用于研究和商业目的。

Dolly 2.0：用于商业用途的 ChatGPT 开源替代方案
图片来源： RamAnanth1 的拥抱面空间

此前，Databricks 团队发布了 多莉 1.0, LLM，它展示了类似于 ChatGPT 的指令遵循能力，并且培训成本不到 30 美元。它使用的是 Stanford Alpaca 团队数据集，该数据集受限制许可（仅限研究）。

Dolly 2.0 通过微调 12B 参数语言模型（皮提亚) 在以下数据集中的高质量人工生成指令上，由 Datbricks 员工标记。模型和数据集均可用于商业用途。

Dolly 1.0 在 Stanford Alpaca 数据集上进行了训练，该数据集是使用 OpenAI API 创建的。该数据集包含 ChatGPT 的输出，并防止任何人使用它与 OpenAI 竞争。简而言之，您不能基于此数据集构建商业聊天机器人或语言应用程序。

过去几周发布的大多数最新型号都遇到了同样的问题，例如羊驼, 考拉, GPT4全部及骆马. 为了解决这个问题，我们需要创建可用于商业用途的新的高质量数据集，这就是 Databricks 团队对 databricks-dolly-15k 数据集所做的。

新数据集包含 15,000 个高质量的人工标记提示/响应对，可用于设计指令调优大型语言模型。这 databricks-dolly-15k 数据集附带知识共享署名-相同方式共享 3.0 未移植许可证，它允许任何人使用它、修改它并在其上创建商业应用程序。

他们是如何创建 databricks-dolly-15k 数据集的？

OpenAI 研究纸声明原始 InstructGPT 模型接受了 13,000 个提示和响应的训练。通过使用这些信息，Databricks 团队开始研究它，结果证明生成 13k 个问题和答案是一项艰巨的任务。他们不能使用合成数据或 AI 生成数据，他们必须对每个问题生成原始答案。在这里，他们决定使用 Databricks 的 5,000 名员工来创建人工生成的数据。

Databricks 举办了一场比赛，前 20 名贴标签者将获得大奖。本次大赛共有5,000名对LLM非常感兴趣的Databricks员工参与

dolly-v2-12b 不是最先进的模型。它在某些评估基准中表现不及 dolly-v1-6b。这可能是由于底层微调数据集的组成和大小。 Dolly 模型系列正在积极开发中，因此您将来可能会看到性能更好的更新版本。

简而言之，dolly-v2-12b 模型的表现优于 EleutherAI/gpt-neox-20b 和 EleutherAI/pythia-6.9b。

Dolly 2.0：用于商业用途的 ChatGPT 开源替代方案
图片来源：免费多莉

Dolly 2.0 是 100% 开源的。它带有训练代码、数据集、模型权重和推理管道。所有组件都适合商业用途。您可以在 Hugging Face Spaces 上试用该模型 RamAnanth2 的 Dolly V1.

Dolly 2.0：用于商业用途的 ChatGPT 开源替代方案
图片来源：拥抱脸

资源：

多莉 2.0 演示： RamAnanth2 的 Dolly V1

阿比德·阿里·阿万 (@1abidaliawan) 是一名经过认证的数据科学家专业人士，他热爱构建机器学习模型。目前，他专注于内容创建和撰写有关机器学习和数据科学技术的技术博客。 Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图形神经网络为患有精神疾病的学生构建一个人工智能产品。