在 Google Colab 上免费运行 Mixtral 8x7b - KDnuggets

在 Google Colab 上免费运行 Mixtral 8x7b – KDnuggets

源节点: 3059535

在 Google Colab 上免费运行 Mixtral 8x7b
图片作者
 

在这篇文章中,我们将探索名为 Mixtral 8x7b 的最先进的新开源模型。我们还将学习如何使用 LLaMA C++ 库访问它以及如何在减少的计算和内存上运行大型语言模型。

混合8x7b 是由 Mistral AI 创建的具有开放权重的高质量稀疏专家混合 (SMoE) 模型。它在 Apache 2.0 下获得许可,在大多数基准测试中均优于 Llama 2 70B,同时推理速度提高了 6 倍。 Mixtral 在大多数标准基准测试中均匹配或击败 GPT3.5,并且是就成本/性能而言最佳的开放权重模型。

 

在 Google Colab 上免费运行 Mixtral 8x7b
图片来源: 专家荟萃
 

Mixtral 8x7B 使用仅解码器的稀疏专家混合网络。这涉及到前馈块从 8 组参数中进行选择,路由器网络为每个令牌选择其中的两组,并相加地组合它们的输出。此方法增强了模型的参数数量,同时管理成本和延迟,使其与 12.9B 模型一样高效,尽管总参数为 46.7B。

Mixtral 8x7B 模型擅长处理 32k 令牌的广泛上下文,并支持多种语言,包括英语、法语、意大利语、德语和西班牙语。它在代码生成方面表现出强大的性能,并且可以微调为指令跟踪模型,在 MT-Bench 等基准测试中取得高分。

LLaMA.cpp 是一个 C/C++ 库,为基于 Facebook 的 LLM 架构的大型语言模型 (LLM) 提供高性能接口。它是一个轻量级且高效的库,可用于各种任务,包括文本生成、翻译和问答。 LLaMA.cpp 支持多种 LLM,包括 LLaMA、LLaMA 2、Falcon、Alpaca、Mistral 7B、Mixtral 8x7B 和 GPT4ALL。它与所有操作系统兼容,并且可以在 CPU 和 GPU 上运行。

在本节中,我们将在 Colab 上运行 llama.cpp Web 应用程序。通过编写几行代码,您将能够在 PC 或 Google Colab 上体验新的最先进的模型性能。

入门

首先,我们将使用以下命令行下载 llama.cpp GitHub 存储库: 

!git clone --depth 1 https://github.com/ggerganov/llama.cpp.git

之后,我们将目录更改为存储库并使用“make”命令安装 llama.cpp。我们正在为安装了 CUDA 的 NVidia GPU 安装 llama.cpp。 

%cd llama.cpp

!make LLAMA_CUBLAS=1

下载模型

我们可以通过选择适当版本的“.gguf”模型文件从 Hugging Face Hub 下载模型。有关各种版本的更多信息可以在 TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF.

 

在 Google Colab 上免费运行 Mixtral 8x7b
图片来源: TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF
 

您可以使用命令“wget”将模型下载到当前目录中。 

!wget https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF/resolve/main/mixtral-8x7b-instruct-v0.1.Q2_K.gguf

LLaMA 服务器的外部地址

当我们运行 LLaMA 服务器时,它会给我们一个本地主机 IP,这对我们在 Colab 上毫无用处。我们需要使用 Colab 内核代理端口连接到本地主机代理。 

运行下面的代码后,您将获得全局超链接。稍后我们将使用此链接访问我们的网络应用程序。 

from google.colab.output import eval_js
print(eval_js("google.colab.kernel.proxyPort(6589)"))

 

https://8fx1nbkv1c8-496ff2e9c6d22116-6589-colab.googleusercontent.com/

运行服务器

要运行 LLaMA C++ 服务器,您需要向服务器命令提供模型文件的位置和正确的端口号。确保端口号与我们在上一步中为代理端口启动的端口号相匹配非常重要。  

%cd /content/llama.cpp

!./server -m mixtral-8x7b-instruct-v0.1.Q2_K.gguf -ngl 27 -c 2048 --port 6589

 

在 Google Colab 上免费运行 Mixtral 8x7b
 

由于服务器不在本地运行,因此可以通过单击上一步中的代理端口超链接来访问聊天 Web 应用程序。

LLaMA C++ 网络应用程序

在开始使用聊天机器人之前,我们需要对其进行自定义。在提示部分将“LLaMA”替换为您的型号名称。此外,修改用户名和机器人名称以区分生成的响应。

 

在 Google Colab 上免费运行 Mixtral 8x7b
 

向下滚动并在聊天部分中输入内容即可开始聊天。请随意提出其他开源模型未能正确回答的技术问题。 

 

在 Google Colab 上免费运行 Mixtral 8x7b
 

如果您遇到应用程序问题,您可以尝试使用我的 Google Colab 自行运行它:https://colab.research.google.com/drive/1gQ1lpSH-BhbKN-DdBmq5r8-8Rw8q1p9r?usp=sharing

本教程提供了有关如何使用 LLaMA C++ 库在 Google Colab 上运行高级开源模型 Mixtral 8x7b 的全面指南。与其他模型相比,Mixtral 8x7b 提供了卓越的性能和效率,对于那些想要尝试大型语言模型但没有大量计算资源的人来说,它是一个出色的解决方案。您可以轻松地在笔记本电脑或免费云计算上运行它。它是用户友好的,您甚至可以部署您的聊天应用程序以供其他人使用和试验。

我希望您发现这个运行大型模型的简单解决方案很有帮助。我一直在寻找简单且更好的选择。如果您有更好的解决方案,请告诉我,我下次会介绍。
 
 

阿比德·阿里·阿万 (@1abidaliawan) 是一名经过认证的数据科学家专业人士,他热爱构建机器学习模型。 目前,他专注于内容创建和撰写有关机器学习和数据科学技术的技术博客。 Abid 拥有技术管理硕士学位和电信工程学士学位。 他的愿景是使用图形神经网络为患有精神疾病的学生构建一个人工智能产品。

时间戳记:

更多来自 掘金队