使用 Amazon EMR Serverless 和 Amazon SageMaker 快速且经济高效地预处理和微调 LLM |亚马逊网络服务

由柏拉图重新发布

关注： 0

大型语言模型 (LLM) 越来越受欢迎，新的用例不断被探索。一般来说，您可以通过将即时工程合并到代码中来构建由法学硕士支持的应用程序。然而，在某些情况下，对现有的法学硕士的激励是不够的。这就是模型微调可以提供帮助的地方。提示工程是通过制作输入提示来指导模型的输出，而微调是在自定义数据集上训练模型，使其更适合特定的任务或领域。

在微调模型之前，您需要找到特定于任务的数据集。常用的一个数据集是通用爬取数据集。 Common Crawl 语料库包含自 2008 年以来定期收集的 PB 级数据，并包含原始网页数据、元数据提取和文本提取。除了确定应使用哪个数据集之外，还需要根据微调的特定需求来清理和处理数据。

我们最近与一位客户合作，他想要预处理最新 Common Crawl 数据集的子集，然后使用清理后的数据微调他们的 LLM。客户正在寻找如何在 AWS 上以最具成本效益的方式实现这一目标。在讨论了需求之后，我们建议使用 Amazon EMR 无服务器作为他们的数据预处理平台。 EMR Serverless 非常适合大规模数据处理，并且无需基础设施维护。在成本方面，它仅根据每个作业使用的资源和持续时间进行收费。客户能够使用 EMR Serverless 在一周内预处理数百 TB 的数据。他们对数据进行预处理后，使用亚马逊SageMaker 微调LLM。

在这篇文章中，我们将引导您了解客户的用例和所使用的架构。

在下面的章节中，我们首先介绍 Common Crawl 数据集以及如何探索和过滤我们需要的数据。亚马逊雅典娜仅按扫描的数据大小收费，用于快速探索和过滤数据，同时具有成本效益。 EMR Serverless 为 Spark 数据处理提供了经济高效且免维护的选项，用于处理过滤后的数据。接下来，我们使用亚马逊SageMaker JumpStart 来微调骆驼2模型与预处理的数据集。 SageMaker JumpStart 为最常见的用例提供了一组解决方案，只需单击几下即可部署。您不需要编写任何代码来微调 Llama 2 等 LLM。最后，我们使用以下命令部署微调后的模型亚马逊SageMaker 并比较原始 Llama 2 模型和微调后的 Llama XNUMX 模型之间同一问题的文本输出差异。

下图说明了此解决方案的体系结构。

在深入了解解决方案详细信息之前，请完成以下先决步骤：

Common Crawl 是通过爬取超过 50 亿个网页获得的开放语料数据集。它包含多种语言的海量非结构化数据，从 2008 年开始，达到 PB 级别。它不断更新。

在GPT-3的训练中，Common Crawl数据集占其训练数据的60%，如下图所示（来源：语言模型是学习者很少).

另一个值得一提的重要数据集是 C4数据集。 C4 是 Colossal Clean Crawled Corpus 的缩写，是对 Common Crawl 数据集进行后处理而得到的数据集。在 Meta 的 LLaMA 论文中，他们概述了所使用的数据集，其中 Common Crawl 占 67%（利用 3.3 TB 数据），C4 占 15%（利用 783 GB 数据）。该论文强调了合并不同预处理的数据对于增强模型性能的重要性。尽管原始 C4 数据是 Common Crawl 的一部分，但 Meta 选择了该数据的重新处理版本。

在本节中，我们将介绍交互、过滤和处理 Common Crawl 数据集的常见方法。

Common Crawl原始数据集包括三种类型的数据文件：原始网页数据（WARC）、元数据（WAT）和文本提取（WET）。

2013年后收集的数据以WARC格式存储，包括相应的元数据（WAT）和文本提取数据（WET）。数据集位于Amazon S3中，每月更新一次，可以直接通过 AWS Marketplace.

$  aws s3 ls s3://commoncrawl/crawl-data/CC-MAIN-2023-23/
PRE segments/
2023-06-21  00:34:08       2164  cc-index-table.paths.gz
2023-06-21  00:34:08        637 cc-index.paths.gz
2023-06-21  05:52:05       2724 index.html
2023-06-21  00:34:09     161064  non200responses.paths.gz
2023-06-21  00:34:10     160888 robotstxt.paths.gz
2023-06-21  00:34:10        480 segment.paths.gz
2023-06-21  00:34:11     161082 warc.paths.gz
2023-06-21  00:34:12     160895 wat.paths.gz
2023-06-21  00:34:12     160898 wet.paths.gz

Common Crawl数据集还提供了一个用于过滤数据的索引表，称为cc-index-table。

cc-index-table 是现有数据的索引，提供基于表的 WARC 文件索引。它允许轻松查找信息，例如哪个 WARC 文件对应于特定的 URL。

例如，您可以使用以下代码创建 Athena 表来映射 cc-index 数据：

CREATE  EXTERNAL TABLE IF NOT EXISTS ccindex (
  url_surtkey                   STRING,
  url                           STRING,
  url_host_name                 STRING,
  url_host_tld                  STRING,
  url_host_2nd_last_part        STRING,
  url_host_3rd_last_part        STRING,
  url_host_4th_last_part        STRING,
  url_host_5th_last_part        STRING,
  url_host_registry_suffix      STRING,
  url_host_registered_domain    STRING,
  url_host_private_suffix       STRING,
  url_host_private_domain       STRING,
  url_host_name_reversed        STRING,
  url_protocol                  STRING,
  url_port                      INT,
  url_path                      STRING,
  url_query                     STRING,
  fetch_time                    TIMESTAMP,
  fetch_status                  SMALLINT,
  fetch_redirect                STRING,
  content_digest                STRING,
  content_mime_type             STRING,
  content_mime_detected         STRING,
  content_charset               STRING,
  content_languages             STRING,
  content_truncated             STRING,
  warc_filename                 STRING,
  warc_record_offset            INT,
  warc_record_length            INT,
  warc_segment                  STRING)
PARTITIONED  BY (
  crawl                         STRING,
  subset                        STRING)
STORED  AS parquet
LOCATION  's3://commoncrawl/cc-index/table/cc-main/warc/';
 
# add partitions
MSCK  REPAIR TABLE ccindex

# query
select  * from ccindex 
where  crawl = 'CC-MAIN-2018-05' 
  and  subset = 'warc' 
  and  url_host_tld = 'no' 
limit  10

前面的 SQL 语句演示了如何创建 Athena 表、添加分区和运行查询。

从 Common Crawl 数据集中过滤数据

从建表SQL语句中可以看到，有几个字段可以帮助过滤数据。例如，如果要获取特定时间段内中文文档的数量，则 SQL 语句可以如下：

SELECT
  url,
  warc_filename,
  content_languages
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-14'
  OR crawl = 'CC-MAIN-2023-23')
  AND subset = 'warc'
  AND content_languages ='zho'
LIMIT  10000

如果您想进行进一步处理，可以将结果保存到另一个S3存储桶中。

分析过滤后的数据

常见爬取 GitHub 存储库提供了几个用于处理原始数据的 PySpark 示例。

我们来看一个运行的例子 server_count.py （Common Crawl GitHub 存储库提供的示例脚本）位于以下位置的数据 s3://commoncrawl/crawl-data/CC-MAIN-2023-23/segments/1685224643388.45/warc/.

首先，您需要一个Spark环境，例如EMR Spark。例如，您可以在 EC2 集群上启动 Amazon EMR us-east-1 （因为数据集位于 us-east-1）。在 EC2 集群上使用 EMR 可以帮助您在将作业提交到生产环境之前进行测试。

在 EC2 集群上启动 EMR 后，您需要通过 SSH 登录集群的主节点。然后，打包Python环境并提交脚本（参考康达文档安装 Miniconda）：

#  create conda environment
conda  create -y -n example -c dmnapolitano python=3.7 botocore boto3 ujson requests  conda-pack warcio

#  package the conda env
conda  activate example
conda  pack -o environment.tar.gz

#  get script from common crawl github
git  clone https://github.com/commoncrawl/cc-pyspark.git

#  copy target file path to local
aws  s3 cp s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz .
gzip  -d warc.paths.gz

#  put warc list to hdfs
hdfs  dfs -put warc.paths

#  submit job
spark-submit  --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./environment/bin/python 
--conf spark.sql.warehouse.dir=s3://xxxx-common-crawl/output/  
--master yarn  
--deploy-mode cluster 
--archives environment.tar.gz#environment 
--py-files cc-pyspark/sparkcc.py  cc-pyspark/server_count.py --input_base_url  s3://commoncrawl/ ./warc.paths count_demo

处理 warc.path 中的所有引用可能需要一些时间。出于演示目的，您可以使用以下策略来缩短处理时间：

下载文件 s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz 到本地计算机，解压缩，然后上传到 HDFS 或 Amazon S3。这是因为 .gzip 文件不可分割。您需要解压缩它才能并行处理该文件。
修改 warc.path 文件，删除其大部分行，只保留两行以使作业运行得更快。

作业完成后，可以看到结果 s3://xxxx-common-crawl/output/，采用 Parquet 格式。

实现自定义拥有逻辑

Common Crawl GitHub 存储库提供了处理 WARC 文件的通用方法。一般来说，您可以延长 CCSparkJob 重写单个方法（process_record），这对于许多情况来说已经足够了。

让我们看一个获取最近电影的 IMDB 评论的示例。首先，您需要过滤掉 IMDB 网站上的文件：

SELECT
  url,
  warc_filename,
  url_host_name
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-06'
  OR crawl = 'CC-MAIN-2023-40')
  AND subset = 'warc'
  AND url like  'https://www.imdb.com/title/%/reviews'
LIMIT  1000

然后，您可以获得包含 IMDB 审阅数据的 WARC 文件列表，并将 WARC 文件名作为列表保存在文本文件中。

或者，您可以使用 EMR Spark 获取 WARC 文件列表并将其存储在 Amazon S3 中。例如：

sql  = """SELECT
  warc_filename
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-06'
  OR crawl = 'CC-MAIN-2023-40')
  AND subset = 'warc'
  AND url like  'https://www.imdb.com/title/%/reviews'
"""

warc_list  = spark.sql(sql)

#  write result list to s3
warc_list.coalesce(1).write.mode("overwrite").text("s3://xxxx-common-crawl/warclist/imdb_warclist")

输出文件应类似于 s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt.

下一步是从这些 WARC 文件中提取用户评论。您可以延长 CCSparkJob 覆盖 process_record() 方法：

from  sparkcc import CCSparkJob
from  bs4 import BeautifulSoup
from  urllib.parse import urlsplit
 
class  IMDB_Extract_Job(CCSparkJob):
    name = "IMDB_Reviews"
 
    def process_record(self, record):
        if self.is_response_record(record):
            # WARC response record
            domain =  urlsplit(record.rec_headers['WARC-Target-URI']).hostname
            if domain == 'www.imdb.com':
                # get web contents
                contents = (
                    record.content_stream()
                        .read()
                        .decode("utf-8", "replace")
                )
 
                # parse with beautiful soup
                soup =  BeautifulSoup(contents, "html.parser")
 
                # get reviews
                review_divs =  soup.find_all(class_="text show-more__control")
                for div in review_divs:
                    yield div.text,1
 
 
if  __name__ == "__main__":
    job = IMDB_Extract_Job()
    job.run()

您可以将前面的脚本保存为 imdb_extractor.py，您将在以下步骤中使用它。准备好数据和脚本后，您可以使用EMR Serverless来处理过滤后的数据。

EMR 无服务器

EMR Serverless 是一种无服务器部署选项，可使用 Apache Spark 和 Hive 等开源框架运行大数据分析应用程序，而无需配置、管理和扩展集群或服务器。

借助 EMR Serverless，您可以运行任何规模的分析工作负载，并通过自动扩展在几秒钟内调整资源大小，以满足不断变化的数据量和处理要求。 EMR Serverless 会自动扩展和缩减资源，以为您的应用程序提供适量的容量，并且您只需为使用的资源付费。

处理 Common Crawl 数据集通常是一项一次性处理任务，使其适合 EMR Serverless 工作负载。

创建 EMR 无服务器应用程序

您可以在 EMR Studio 控制台上创建 EMR Serverless 应用程序。完成以下步骤：

在 EMR Studio 控制台上，选择 应用领域 下 无服务器 在导航窗格中。
建立申请.

提供应用程序的名称并选择 Amazon EMR 版本。

如果需要访问 VPC 资源，请添加自定义网络设置。

建立申请.

然后您的 Spark 无服务器环境就准备好了。

在将作业提交到 EMR Spark Serverless 之前，您仍需要创建执行角色。参考开始使用 Amazon EMR 无服务器以获得更多细节。

使用 EMR Serverless 处理常见爬网数据

当您的 EMR Spark Serverless 应用程序准备就绪后，请完成以下步骤来处理数据：

准备一个Conda环境并上传到Amazon S3，该环境将作为EMR Spark Serverless中的环境。
将要运行的脚本上传到 S3 存储桶。在以下示例中，有两个脚本：
1. imbd_extractor.py – 从数据集中提取内容的定制逻辑。内容可以在本文前面找到。
2. cc-pyspark/sparkcc.py – 来自的示例 PySpark 框架常见爬取 GitHub 存储库，这是必须包括在内的。
将 PySpark 作业提交到 EMR Serverless Spark。定义以下参数以在您的环境中运行此示例：
1. 应用程序 ID – EMR 无服务器应用程序的应用程序 ID。
2. 执行角色 arn – 您的 EMR 无服务器执行角色。要创建它，请参阅创建作业运行时角色.
3. WARC 文件位置 – WARC 文件的位置。 s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt 包含您在本文前面获得的已过滤的 WARC 文件列表。
4. Spark.sql.warehouse.dir – 默认仓库位置（使用您的 S3 目录）。
5. 火花档案 – 准备好的Conda环境的S3位置。
6. Spark.submit.pyFiles – 准备好的PySpark脚本sparkcc.py。

请参见以下代码：

# 1. create conda environment
conda  create -y -n imdb -c dmnapolitano python=3.7 botocore boto3 ujson requests  conda-pack warcio bs4
 
# 2. package the conda  env, and upload to s3
conda  activate imdb 
conda  pack -o imdbenv.tar.gz
aws  s3 cp imdbenv.tar.gz s3://xxxx-common-crawl/env/
 
# 3. upload scripts to S3
aws  s3 cp imdb_extractor.py s3://xxxx-common-crawl/scripts/
aws  s3 cp cc-pyspark/sparkcc.py s3://xxxx-common-crawl/scripts/
 
# 4. submit job to EMR Serverless
#!/bin/bash
aws  emr-serverless start-job-run 
    --application-id 00fdsobht2skro2l 
    --execution-role-arn  arn:aws:iam::xxxx:role/EMR-Serverless-JobExecutionRole 
    --name imdb-retrive 
    --job-driver '{
        "sparkSubmit": {
          "entryPoint":  "s3://xxxx-common-crawl/scripts/imdb_extractor.py",
          "entryPointArguments":  ["--input_base_url" ,"s3://commoncrawl/",  "s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt",  "imdb_reviews", "--num_output_partitions",  "1"],
          "sparkSubmitParameters":  "--conf spark.sql.warehouse.dir=s3://xxxx-common-crawl/output/ --conf  spark.network.timeout=10000000 —conf  spark.executor.heartbeatInterval=10000000 —conf spark.executor.instances=100  —conf spark.executor.cores=4 —conf spark.executor.memory=16g —conf  spark.driver.memory=16g   —conf  spark.archives=s3://xxxx-common-crawl/env/imdbenv.tar.gz#environment —conf  spark.emr-serverless.driverEnv.PYSPARK_DRIVER_PYTHON=./environment/bin/python  —conf spark.emr-serverless.driverEnv.PYSPARK_PYTHON=./environment/bin/python  —conf spark.executorEnv.PYSPARK_PYTHON=./environment/bin/python —conf  spark.submit.pyFiles=s3://xxxx-common-crawl/scripts/sparkcc.py“
        }
}'

作业完成后，提取的评论将存储在 Amazon S3 中。要检查内容，您可以使用 Amazon S3 Select，如以下屏幕截图所示。

需要考虑的事项

使用定制代码处理海量数据时需要考虑以下几点：

某些第三方 Python 库可能在 Conda 中不可用。此时，您可以切换到Python虚拟环境来构建PySpark运行环境。
如果需要处理大量数据，请尝试创建并使用多个 EMR Serverless Spark 应用程序来并行处理。每个应用程序都处理文件列表的子集。
在过滤或处理常见爬网数据时，您可能会遇到 Amazon S3 速度下降的问题。这是因为存储数据的S3存储桶是可公开访问的，其他用户可以同时访问该数据。为了缓解此问题，您可以添加重试机制或将 Common Crawl S3 存储桶中的特定数据同步到您自己的存储桶。

使用 SageMaker 微调 Llama 2

数据准备好后，您可以用它微调 Llama 2 模型。您可以使用 SageMaker JumpStart 执行此操作，而无需编写任何代码。欲了解更多信息，请参阅在 Amazon SageMaker JumpStart 上微调 Llama 2 以生成文本.

在这种情况下，您将执行域适应微调。对于此数据集，输入由 CSV、JSON 或 TXT 文件组成。您需要将所有评论数据放入 TXT 文件中。为此，您可以向 EMR Spark Serverless 提交一个简单的 Spark 作业。请参阅以下示例代码片段：

# disable generating _SUCCESS file
spark.conf.set("mapreduce.fileoutputcommitter.marksuccessfuljobs",  "false")

data  = spark.read.parquet("s3://xxxx-common-crawl/output/imdb_reviews/")

data.select('Key').coalesce(1).write.mode("overwrite").text("s3://xxxx-common-crawl/llama2/train/")

准备好训练数据后，输入数据位置 训练数据集，然后选择培训.

您可以跟踪训练作业状态。

评估微调模型

训练完成后，选择部署在 SageMaker JumpStart 中部署您的微调模型。

模型部署成功后，选择 打开笔记本，这会将您重定向到准备好的 Jupyter 笔记本，您可以在其中运行 Python 代码。

您可以将图像 Data Science 2.0 和 Python 3 内核用于笔记本。

然后，您可以在此笔记本中评估微调后的模型和原始模型。

endpoint_name_original = "jumpstart-dft-meta-textgeneration-llama-2-7b-origin"
endpoint_name_fine_tuned = "jumpstart-ftc-meta-textgeneration-llama-2-7b"

payload = {
    "inputs": "The review of movie 'A Woman of Paris: A Drama of Fate' is ",
    "parameters": {
        "max_new_tokens": 256,
        "top_p": 0.9,
        "temperature": 0.6,
        "return_full_text": True,
    },
        }
    
def query_endpoint(payload, endpoint_name):
    client = boto3.client("sagemaker-runtime")
    response = client.invoke_endpoint(
        EndpointName=endpoint_name,
        ContentType="application/json",
        Body=json.dumps(payload),
        CustomAttributes="accept_eula=true",
    )
    response = response["Body"].read().decode("utf8")
    response = json.loads(response)
    print(endpoint_name + ": n" + response[0]['generation'])


query_endpoint(payload, endpoint_name_original)
print("n-----#################-----n")
query_endpoint(payload, endpoint_name_fine_tuned)

以下是原始模型和微调模型针对同一问题返回的两个响应。

我们为两个模型提供了同一句话：“对电影《巴黎女人：命运之剧》的评论是”，并让他们完成这句话。

原始模型输出无意义的句子：

"The review of movie 'A woman of Paris: A Drama of Fate' is 3.0/5.

A Woman of Paris: A Drama of Fate(1923)

A Woman of Paris: A Drama of Fate movie released on 17 October, 1992. The movie is directed by. A Woman of Paris: A Drama of Fate featured Jeanne Eagles, William Haines, Burr McIntosh and Jack Rollens in lead rols.

..."

相比之下，微调模型的输出更像是电影评论：

" The review of movie 'A Woman of Paris: A Drama of Fate' is 6.3/10. I liked the story, the plot, the character, the background. The performances are amazing. Rory (Judy Davis) is an Australian photographer who travels to Africa to photograph the people, wildlife, and scenery. She meets Peter (Donald Sutherland), a zoologist, and they begin a relationship..."

显然，微调后的模型在这个特定场景中表现更好。

清理

完成本练习后，请完成以下步骤来清理资源：

删除 S3 存储桶存储清理后的数据集。
停止 EMR Serverless 环境.
删除 SageMaker 端点托管 LLM 模型。
删除 SageMaker 域运行你的笔记本。

默认情况下，您创建的应用程序应在 15 分钟不活动后自动停止。

一般来说，您不需要清理 Athena 环境，因为不使用时不会产生任何费用。

结论

在这篇文章中，我们介绍了 Common Crawl 数据集以及如何使用 EMR Serverless 处理数据以进行 LLM 微调。然后我们演示了如何使用 SageMaker JumpStart 微调 LLM 并在无需任何代码的情况下进行部署。有关 EMR Serverless 的更多用例，请参阅 Amazon EMR 无服务器。有关在 Amazon SageMaker JumpStart 上托管和微调模型的更多信息，请参阅 Sagemaker JumpStart 文档.

作者简介

唐世健 是 Amazon Web Services 的分析专家解决方案架构师。

马修连姆 是 Amazon Web Services 的高级解决方案架构经理。

徐大雷 是 Amazon Web Services 的分析专家解决方案架构师。

肖元军 是 Amazon Web Services 的高级解决方案架构师。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://aws.amazon.com/blogs/big-data/preprocess-and-fine-tune-llms-quickly-and-cost-effectively-using-amazon-emr-serverless-and-amazon-sagemaker/

时间戳记： 2024 年 2 月 1 日

时间戳记： 2023 年 1 月 3 日

由柏拉图重新发布

Ontraport 如何利用 AWS Glue 将数据处理成本降低 80% | 亚马逊网络服务

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理