在 Amazon SageMaker 上托管 Whisper 模型：探索推理选项 |亚马逊网络服务

由柏拉图重新发布

关注： 0

OpenAI 耳语是具有 MIT 许可证的高级自动语音识别 (ASR) 模型。 ASR 技术可用于转录服务、语音助手以及增强听力障碍人士的无障碍服务。这种最先进的模型是在从网络收集的庞大且多样化的多语言和多任务监督数据数据集上进行训练的。其高精度和适应性使其成为各种语音相关任务的宝贵资产。

在不断发展的机器学习和人工智能领域，亚马逊SageMaker 提供了一个全面的生态系统。 SageMaker 使数据科学家、开发人员和组织能够大规模开发、训练、部署和管理机器学习模型。它提供广泛的工具和功能，简化了整个机器学习工作流程，从数据预处理和模型开发到轻松部署和监控。 SageMaker 的用户友好界面使其成为释放 AI 全部潜力的关键平台，使其成为人工智能领域改变游戏规则的解决方案。

在这篇文章中，我们开始探索 SageMaker 的功能，特别关注托管 Whisper 模型。我们将深入探讨实现此目的的两种方法：一种使用 Whisper PyTorch 模型，另一种使用 Whisper 模型的 Hugging Face 实现。此外，我们将对 SageMaker 的推理选项进行深入检查，对速度、成本、有效负载大小和可扩展性等参数进行比较。此分析使用户能够在将 Whisper 模型集成到其特定用例和系统时做出明智的决策。

解决方案概述

下图显示了该解决方案的主要组件。

为了在 Amazon SageMaker 上托管模型，第一步是保存模型工件。这些工件是指各种应用程序所需的机器学习模型的基本组件，包括部署和再训练。它们可以包括模型参数、配置文件、预处理组件以及元数据，例如版本详细信息、作者身份以及与其性能相关的任何注释。值得注意的是，PyTorch 和 Hugging Face 实现的 Whisper 模型由不同的模型工件组成。
接下来，我们创建自定义推理脚本。在这些脚本中，我们定义如何加载模型并指定推理过程。这也是我们可以根据需要合并自定义参数的地方。此外，您可以在以下位置列出所需的 Python 包： requirements.txt 文件。在模型部署过程中，这些Python包会在初始化阶段自动安装。
然后我们选择由以下公司提供和维护的 PyTorch 或 Hugging Face 深度学习容器 (DLC) AWS。这些容器是预先构建的 Docker 镜像，带有深度学习框架和其他必要的 Python 包。欲了解更多信息，您可以查看此链接.
借助模型工件、自定义推理脚本和选定的 DLC，我们将分别为 PyTorch 和 Hugging Face 创建 Amazon SageMaker 模型。
最后，模型可以部署在 SageMaker 上并与以下选项一起使用：实时推理端点、批量转换作业和异步推理端点。我们将在本文后面更详细地探讨这些选项。

此解决方案的示例笔记本和代码可在此处找到 GitHub存储库.

图 1. 关键解决方案组件概述

演练

在 Amazon SageMaker 上托管 Whisper 模型

在本节中，我们将分别解释使用 PyTorch 和 Hugging Face 框架在 Amazon SageMaker 上托管 Whisper 模型的步骤。要试验此解决方案，您需要一个 AWS 账户并能够访问 Amazon SageMaker 服务。

PyTorch框架

保存模型工件

托管模型的第一个选项是使用 Whisper官方Python包，可以使用安装 pip install openai-whisper。该包提供了 PyTorch 模型。在本地存储库中保存模型工件时，第一步是将模型的可学习参数（例如神经网络中每层的模型权重和偏差）保存为“pt”文件。您可以选择不同的模型大小，包括“微型”、“基本”、“小型”、“中型”和“大型”。较大的模型大小可提供更高的准确度性能，但代价是推理延迟更长。此外，您还需要保存模型状态字典和维度字典，其中包含一个 Python 字典，将 PyTorch 模型的每个层或参数映射到其相应的可学习参数，以及其他元数据和自定义配置。下面的代码显示了如何保存 Whisper PyTorch 工件。

### PyTorch
import whisper
# Load the PyTorch model and save it in the local repo
model = whisper.load_model("base")
torch.save(
    {
        'model_state_dict': model.state_dict(),
        'dims': model.dims.__dict__,
    },
    'base.pt'
)

选择DLC

下一步是从中选择预构建的 DLC 链接。选择正确的图像时要小心，考虑以下设置：框架 (PyTorch)、框架版本、任务（推理）、Python 版本和硬件（即 GPU）。建议尽可能使用最新版本的框架和 Python，因为这会带来更好的性能并解决先前版本中的已知问题和错误。

创建 Amazon SageMaker 模型

接下来，我们利用 SageMaker Python 开发工具包创建 PyTorch 模型。创建 PyTorch 模型时请务必记住添加环境变量。默认情况下，TorchServe 只能处理最大 6MB 的文件大小，无论使用何种推理类型。

# Create a PyTorchModel for deployment
from sagemaker.pytorch.model import PyTorchModel

whisper_pytorch_model = PyTorchModel(
    model_data=model_uri,
    image_uri=image,
    role=role,
    entry_point="inference.py",
    source_dir='code',
    name=model_name,
    env = {
        'TS_MAX_REQUEST_SIZE': '100000000',
        'TS_MAX_RESPONSE_SIZE': '100000000',
        'TS_DEFAULT_RESPONSE_TIMEOUT': '1000'
    }
)

下表显示了不同 PyTorch 版本的设置：

骨架	环境变量
PyTorch 1.8（基于TorchServe）	“`TS_MAX_REQUEST_SIZE`'：'100000000' “`TS_MAX_RESPONSE_SIZE`'：'100000000' “`TS_DEFAULT_RESPONSE_TIMEOUT`'：'1000'
PyTorch 1.4（基于MMS）	“`MMS_MAX_REQUEST_SIZE`'：'1000000000' “`MMS_MAX_RESPONSE_SIZE`'：'1000000000' “`MMS_DEFAULT_RESPONSE_TIMEOUT`'：'900'

在inference.py中定义模型加载方法

在风俗中 inference.py 脚本中，我们首先检查支持 CUDA 的 GPU 的可用性。如果这样的 GPU 可用，那么我们分配 'cuda' 设备到 DEVICE 多变的;否则，我们分配 'cpu' 设备。此步骤确保将模型放置在可用的硬件上以进行高效计算。我们使用 Whisper Python 包加载 PyTorch 模型。

### PyTorch
DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
def model_fn(model_dir):
    """
    Load and return the model
    """
    model = whisper.load_model(os.path.join(model_dir, 'base.pt'))
    model = model.to(DEVICE)
    return model

抱脸框架

保存模型工件

第二种选择是使用拥抱脸的低语执行。可以使用以下命令加载模型 AutoModelForSpeechSeq2Seq 变压器类。可学习的参数使用以下命令保存在二进制 (bin) 文件中 save_pretrained 方法。分词器和预处理器也需要单独保存，以确保 Hugging Face 模型正常工作。或者，您可以通过设置两个环境变量，直接从 Hugging Face Hub 在 Amazon SageMaker 上部署模型： HF_MODEL_ID 和 HF_TASK。欲了解更多信息，请参阅此网页.

### Hugging Face
from transformers import WhisperTokenizer, WhisperProcessor, AutoModelForSpeechSeq2Seq

# Load the pre-trained model
model_name = "openai/whisper-base"
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_name)
tokenizer = WhisperTokenizer.from_pretrained(model_name)
processor = WhisperProcessor.from_pretrained(model_name)

# Define a directory where you want to save the model
save_directory = "./model"

# Save the model to the specified directory
model.save_pretrained(save_directory)
tokenizer.save_pretrained(save_directory)
processor.save_pretrained(save_directory)

选择DLC

与 PyTorch 框架类似，您可以从相同的框架中选择预构建的 Hugging Face DLC 链接。确保选择支持最新 Hugging Face 转换器并包含 GPU 支持的 DLC。

创建 Amazon SageMaker 模型

同样，我们利用 SageMaker Python 开发工具包创建拥抱脸模型。 Hugging Face Whisper 模型有一个默认限制，即只能处理最长 30 秒的音频片段。要解决此限制，您可以包括 chunk_length_s 创建 Hugging Face 模型时将参数添加到环境变量中，稍后在加载模型时将此参数传递到自定义推理脚本中。最后，设置环境变量以增加 Hugging Face 容器的有效负载大小和响应超时。

# Create a HuggingFaceModel for deployment
from sagemaker.huggingface.model import HuggingFaceModel

whisper_hf_model = HuggingFaceModel(
    model_data=model_uri,
    role=role, 
    image_uri = image,
    entry_point="inference.py",
    source_dir='code',
    name=model_name,
    env = {
        "chunk_length_s":"30",
        'MMS_MAX_REQUEST_SIZE': '2000000000',
        'MMS_MAX_RESPONSE_SIZE': '2000000000',
        'MMS_DEFAULT_RESPONSE_TIMEOUT': '900'
    }
)

骨架环境变量

HuggingFace 推理容器

（基于彩信）

“MMS_MAX_REQUEST_SIZE'：'2000000000'
“MMS_MAX_RESPONSE_SIZE'：'2000000000'
“MMS_DEFAULT_RESPONSE_TIMEOUT'：'900'

在inference.py中定义模型加载方法

在为 Hugging Face 模型创建自定义推理脚本时，我们利用管道，允许我们传递 chunk_length_s 作为参数。该参数使模型能够在推理过程中有效地处理长音频文件。

### Hugging Face
DEVICE = "cuda:0" if torch.cuda.is_available() else "cpu"
chunk_length_s = int(os.environ.get('chunk_length_s'))
def model_fn(model_dir):
    """
    Load and return the model
    """
    model = pipeline(
        "automatic-speech-recognition",
        model=model_dir,
        chunk_length_s=chunk_length_s,
        device=DEVICE,
        )
    return model

探索 Amazon SageMaker 上的不同推理选项

PyTorch 和 Hugging Face 模型选择推理选项的步骤是相同的，因此下面我们不会区分它们。然而，值得注意的是，在撰写本文时，无服务器推理 SageMaker 的选项不支持 GPU，因此，我们在此用例中排除此选项。

实时推断

我们可以将模型部署为实时端点，以毫秒为单位提供响应。但请务必注意，此选项仅限于处理 6 MB 以下的输入。我们将序列化器定义为音频序列化器，它负责将输入数据转换为适合部署模型的格式。我们利用 GPU 实例进行推理，从而加速音频文件的处理。推理输入是来自本地存储库的音频文件。

from sagemaker.serializers import DataSerializer
from sagemaker.deserializers import JSONDeserializer

# Define serializers and deserializer
audio_serializer = DataSerializer(content_type="audio/x-audio")
deserializer = JSONDeserializer()

# Deploy the model for real-time inference
endpoint_name = f'whisper-real-time-endpoint-{id}'

real_time_predictor = whisper_model.deploy(
    initial_instance_count=1,
    instance_type="ml.g4dn.xlarge",
    endpoint_name = endpoint_name,
    serializer=audio_serializer,
    deserializer = deserializer
    )

# Perform real-time inference
audio_path = "sample_audio.wav" 
response = real_time_predictor.predict(data=audio_path)

批量转换作业

第二个推理选项是批量转换作业，它能够处理高达 100 MB 的输入有效负载。但是，此方法可能需要几分钟的延迟。每个实例一次只能处理一个批量请求，并且实例的启动和关闭也需要几分钟的时间。推理结果保存在 Amazon Simple Storage Service (Amazon S3）批量转换作业完成后的存储桶。

配置批处理变压器时，请务必包括 max_payload = 100 有效地处理更大的有效载荷。推理输入应该是音频文件的 Amazon S3 路径或包含音频文件列表的 Amazon S3 存储桶文件夹，每个文件的大小小于 100 MB。

批量转换按键对输入中的 Amazon S3 对象进行分区，并将 Amazon S3 对象映射到实例。例如，当您有多个音频文件时，一个实例可能会处理 input1.wav，另一个实例可能会处理名为 input2.wav 的文件，以增强可扩展性。批量转换允许您配置 max_concurrent_transforms 增加对每个单独的转换器容器发出的 HTTP 请求的数量。然而，值得注意的是（max_concurrent_transforms* max_payload) 不得超过 100 MB。

# Create a transformer
whisper_transformer = whisper_model.transformer(
    instance_count = 1,
    instance_type = "ml.g4dn.xlarge", 
    output_path="s3://{}/{}/batch-transform/".format(bucket, prefix),
    max_payload = 100
)
# Start batch transform job
whisper_transformer.transform(data = data, job_name= job_name, wait = False)

异步推理

最后，Amazon SageMaker 异步推理非常适合同时处理多个请求，提供适度的延迟并支持高达 1 GB 的输入负载。此选项提供出色的可扩展性，支持为端点配置自动缩放组。当请求激增时，它会自动扩展以处理流量，处理完所有请求后，端点会缩小到 0 以节省成本。

使用异步推理，结果会自动保存到 Amazon S3 存储桶中。在里面 AsyncInferenceConfig，您可以配置成功或失败完成的通知。输入路径指向音频文件的 Amazon S3 位置。如需更多详细信息，请参阅以下代码 GitHub上.

from sagemaker.async_inference import AsyncInferenceConfig

# Create an AsyncInferenceConfig object
async_config = AsyncInferenceConfig(
    output_path=f"s3://{bucket}/{prefix}/output", 
    max_concurrent_invocations_per_instance = 4,
    # notification_config = {
            #   "SuccessTopic": "arn:aws:sns:us-east-2:123456789012:MyTopic",
            #   "ErrorTopic": "arn:aws:sns:us-east-2:123456789012:MyTopic",
    #}, #  Notification configuration 
)

# Deploy the model for async inference
endpoint_name = f'whisper-async-endpoint-{id}'
async_predictor = whisper_model.deploy(
    async_inference_config=async_config,
    initial_instance_count=1, 
    instance_type ='ml.g4dn.xlarge',
    endpoint_name = endpoint_name
)

# Perform async inference
initial_args = {'ContentType':"audio/x-audio"}
response = async_predictor.predict_async(initial_args = initial_args, input_path=input_path)

可选的： 如前所述，我们可以选择为异步推理端点配置自动缩放组，这使其能够处理突然激增的推理请求。这里提供了一个代码示例 GitHub存储库。在下图中，您可以观察到显示两个指标的折线图亚马逊CloudWatch: ApproximateBacklogSize 和 ApproximateBacklogSizePerInstance。最初，当触发 1000 个请求时，只有一个实例可用于处理推理。在三分钟内，积压的大小始终超过 XNUMX（请注意，这些数字是可以配置的），自动扩展组通过启动其他实例来有效地清除积压进行响应。这导致了显着下降 ApproximateBacklogSizePerInstance，使得积压请求的处理速度比初始阶段快得多。

图 2. 说明 Amazon CloudWatch 指标随时间变化的折线图

推理选项的比较分析

不同推理选项的比较基于常见的音频处理用例。实时推理提供最快的推理速度，但将有效负载大小限制为 6 MB。这种推理类型适用于音频命令系统，其中用户使用语音命令或口头指令控制设备或软件或与设备或软件交互。语音命令通常尺寸较小，低推理延迟对于确保转录的命令能够及时触发后续操作至关重要。当每个音频文件的大小低于 100 MB，并且对快速推理响应时间没有具体要求时，批量转换非常适合计划的离线任务。异步推理允许上传高达 1 GB 的数据，并提供适度的推理延迟。这种推理类型非常适合转录电影、电视剧和需要处理较大音频文件的录制会议。

实时和异步推理选项都提供自动扩展功能，允许端点实例根据请求量自动扩展或缩小。在没有请求的情况下，自动扩展会删除不必要的实例，帮助您避免与未主动使用的预配置实例相关的成本。然而，对于实时推理，必须保留至少一个持久实例，如果端点连续运行，这可能会导致更高的成本。相比之下，异步推理允许实例体积在不使用时减少到0。配置批量转换作业时，可以使用多个实例来处理该作业，并调整 max_concurrent_transforms 以使一个实例能够处理多个请求。因此，所有三个推理选项都提供了出色的可扩展性。

打扫干净

使用完该解决方案后，请确保删除 SageMaker 端点，以防止产生额外费用。您可以使用提供的代码分别删除实时和异步推理端点。

# Delete real-time inference endpoint
real_time_predictor.delete_endpoint()

# Delete asynchronous inference endpoint
async_predictor.delete_endpoint()

结论

在这篇文章中，我们向您展示了部署用于音频处理的机器学习模型如何在各个行业中变得越来越重要。以 Whisper 模型为例，我们演示了如何使用 PyTorch 或 Hugging Face 方法在 Amazon SageMaker 上托管开源 ASR 模型。此次探索涵盖了 Amazon SageMaker 上的各种推理选项，提供了有关有效处理音频数据、进行预测和有效管理成本的见解。这篇文章旨在为有兴趣利用 Whisper 模型执行音频相关任务并就推理策略做出明智决策的研究人员、开发人员和数据科学家提供知识。

有关在 SageMaker 上部署模型的更多详细信息，请参阅此开发者指南。此外，可以使用 SageMaker JumpStart 部署 Whisper 模型。如需了解更多详情，请查看 Amazon SageMaker JumpStart 现已提供用于自动语音识别的 Whisper 模型帖子。

请随意查看该项目的笔记本和代码 GitHub上并与我们分享您的评论。

关于作者

侯颖博士是 AWS 的机器学习原型架构师。她的主要兴趣领域包括深度学习，重点是 GenAI、计算机视觉、NLP 和时间序列数据预测。在业余时间，她喜欢与家人共度美好时光，沉浸在小说中，并在英国国家公园徒步旅行。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/host-the-whisper-model-on-amazon-sagemaker-exploring-inference-options/

时间戳记： 2024 年 1 月 16 日

时间戳记： 2023 年 8 月 7 日

由柏拉图重新发布

在 Amazon SageMaker JumpStart 上使用大型语言模型构建无服务器会议摘要后端 | 亚马逊网络服务

使用 Amazon SageMaker Studio 加速 BMW 集团的 AI/ML 开发 | 亚马逊网络服务

在 NFL 的 Next Gen Stats 中识别防御覆盖方案

人工参与的自动化探索性数据分析和模型操作化框架

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理