Amazon EMR サーバーレスと Amazon SageMaker を使用して、LLM を迅速かつコスト効率よく前処理および微調整する |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

大規模言語モデル (LLM) の人気が高まっており、新しい使用例が常に模索されています。一般に、プロンプトエンジニアリングをコードに組み込むことで、LLM を利用したアプリケーションを構築できます。ただし、既存の LLM のプロンプトでは不十分な場合があります。ここでモデルの微調整が役に立ちます。プロンプトエンジニアリングは入力プロンプトを作成することでモデルの出力をガイドすることですが、微調整はモデルを特定のタスクやドメインにより適したものにするためにカスタムデータセットでトレーニングすることです。

モデルを微調整する前に、タスク固有のデータセットを見つける必要があります。一般的に使用されるデータセットの 1 つは、共通のクロールデータセット。 Common Crawl corpus には、2008 年以来定期的に収集されたペタバイト単位のデータが含まれており、生の Web ページデータ、メタデータ抽出、およびテキスト抽出が含まれています。どのデータセットを使用するかを決定することに加えて、微調整の特定のニーズに合わせてデータをクレンジングおよび処理する必要があります。

私たちは最近、最新の Common Crawl データセットのサブセットを前処理し、クリーンなデータを使用して LLM を微調整したいと考えているお客様と協力しました。お客様は、AWS で最もコスト効率の高い方法でこれを実現する方法を探していました。要件について話し合った後、次の使用をお勧めします。 Amazon EMR サーバーレスデータ前処理のプラットフォームとして。 EMR サーバーレスは大規模なデータ処理に適しており、インフラストラクチャのメンテナンスの必要がありません。コストに関しては、各ジョブに使用されたリソースと期間に基づいてのみ課金されます。お客様は、EMR サーバーレスを使用して、1 週間以内に数百 TB のデータを前処理することができました。データを前処理した後、次を使用しました。アマゾンセージメーカー LLM を微調整します。

この投稿では、お客様のユースケースと使用されるアーキテクチャについて説明します。

次のセクションでは、まず Common Crawl データセットと、必要なデータを探索してフィルタリングする方法を紹介します。アマゾンアテナスキャンしたデータサイズに対してのみ料金が発生し、データの迅速な探索とフィルタリングに使用され、コスト効率が高くなります。 EMR サーバーレスは、Spark データ処理のためのコスト効率が高くメンテナンス不要のオプションを提供し、フィルターされたデータの処理に使用されます。次に使用するのは、 Amazon SageMaker ジャンプスタートを微調整するラマ2モデル前処理されたデータセットを使用します。 SageMaker JumpStart は、数回クリックするだけでデプロイできる、最も一般的なユースケース向けの一連のソリューションを提供します。 Llama 2 などの LLM を微調整するためのコードを記述する必要はありません。最後に、次を使用して微調整されたモデルをデプロイします。アマゾンセージメーカー元の Llama 2 モデルと微調整された Llama XNUMX モデルの間で、同じ質問に対するテキスト出力の違いを比較します。

次の図は、このソリューションのアーキテクチャを示しています。

ソリューションの詳細を詳しく調べる前に、次の前提条件の手順を完了してください。

Common Crawl は、50 億を超える Web ページをクロールして取得されたオープンコーパスデータセットです。これには、2008 年から始まりペタバイトレベルに達する、複数言語の大量の非構造化データが含まれています。継続的に更新されます。

次の図に示すように、GPT-3 のトレーニングでは、Common Crawl データセットがトレーニングデータの 60% を占めます (出典: 言語モデルはほとんどショットの学習者ではありません).

言及する価値のあるもう 1 つの重要なデータセットは、 C4 データセット。 C4 は、Colossal Clean Crawled Corpus の略で、Common Crawl データセットの後処理から派生したデータセットです。 Meta の LLaMA 論文では、使用されたデータセットの概要が説明されており、Common Crawl が 67% (3.3 TB のデータを使用)、C4 が 15% (783 GB のデータを使用) を占めています。この論文では、モデルのパフォーマンスを向上させるために、さまざまに前処理されたデータを組み込むことの重要性を強調しています。元の C4 データは Common Crawl の一部であるにもかかわらず、Meta はこのデータの再処理バージョンを選択しました。

このセクションでは、共通クロールデータセットを操作、フィルタリング、処理する一般的な方法について説明します。

Common Crawl の生データセットには、生の Web ページデータ (WARC)、メタデータ (WAT)、およびテキスト抽出 (WET) の 3 種類のデータファイルが含まれています。

2013 年以降に収集されたデータは WARC 形式で保存され、対応するメタデータ (WAT) とテキスト抽出データ (WET) が含まれます。データセットは Amazon S3 にあり、毎月更新され、次から直接アクセスできます。 AWS Marketplace.

$  aws s3 ls s3://commoncrawl/crawl-data/CC-MAIN-2023-23/
PRE segments/
2023-06-21  00:34:08       2164  cc-index-table.paths.gz
2023-06-21  00:34:08        637 cc-index.paths.gz
2023-06-21  05:52:05       2724 index.html
2023-06-21  00:34:09     161064  non200responses.paths.gz
2023-06-21  00:34:10     160888 robotstxt.paths.gz
2023-06-21  00:34:10        480 segment.paths.gz
2023-06-21  00:34:11     161082 warc.paths.gz
2023-06-21  00:34:12     160895 wat.paths.gz
2023-06-21  00:34:12     160898 wet.paths.gz

Common Crawl データセットは、cc-index-table と呼ばれる、データをフィルター処理するためのインデックステーブルも提供します。

cc-index-table は既存データのインデックスであり、WARC ファイルのテーブルベースのインデックスを提供します。これにより、どの WARC ファイルが特定の URL に対応するかなどの情報を簡単に検索できます。

たとえば、次のコードを使用して、cc-index データをマップする Athena テーブルを作成できます。

CREATE  EXTERNAL TABLE IF NOT EXISTS ccindex (
  url_surtkey                   STRING,
  url                           STRING,
  url_host_name                 STRING,
  url_host_tld                  STRING,
  url_host_2nd_last_part        STRING,
  url_host_3rd_last_part        STRING,
  url_host_4th_last_part        STRING,
  url_host_5th_last_part        STRING,
  url_host_registry_suffix      STRING,
  url_host_registered_domain    STRING,
  url_host_private_suffix       STRING,
  url_host_private_domain       STRING,
  url_host_name_reversed        STRING,
  url_protocol                  STRING,
  url_port                      INT,
  url_path                      STRING,
  url_query                     STRING,
  fetch_time                    TIMESTAMP,
  fetch_status                  SMALLINT,
  fetch_redirect                STRING,
  content_digest                STRING,
  content_mime_type             STRING,
  content_mime_detected         STRING,
  content_charset               STRING,
  content_languages             STRING,
  content_truncated             STRING,
  warc_filename                 STRING,
  warc_record_offset            INT,
  warc_record_length            INT,
  warc_segment                  STRING)
PARTITIONED  BY (
  crawl                         STRING,
  subset                        STRING)
STORED  AS parquet
LOCATION  's3://commoncrawl/cc-index/table/cc-main/warc/';
 
# add partitions
MSCK  REPAIR TABLE ccindex

# query
select  * from ccindex 
where  crawl = 'CC-MAIN-2018-05' 
  and  subset = 'warc' 
  and  url_host_tld = 'no' 
limit  10

前述の SQL ステートメントは、Athena テーブルの作成、パーティションの追加、クエリの実行方法を示しています。

Common Crawl データセットからのデータのフィルター処理

create table SQL ステートメントからわかるように、データのフィルタリングに役立つフィールドがいくつかあります。たとえば、特定の期間中の中国語ドキュメントの数を取得したい場合、SQL ステートメントは次のようになります。

SELECT
  url,
  warc_filename,
  content_languages
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-14'
  OR crawl = 'CC-MAIN-2023-23')
  AND subset = 'warc'
  AND content_languages ='zho'
LIMIT  10000

さらに処理を行いたい場合は、結果を別の S3 バケットに保存できます。

フィルタリングされたデータを分析する

　共通クロール GitHub リポジトリには、生データを処理するための PySpark の例がいくつか提供されています。

実行例を見てみましょう server_count.py (Common Crawl GitHub リポジトリによって提供されるサンプルスクリプト) s3://commoncrawl/crawl-data/CC-MAIN-2023-23/segments/1685224643388.45/warc/.

まず、EMR Spark などの Spark 環境が必要です。たとえば、EC2 クラスターで Amazon EMR を起動できます。 us-east-1 (データセットが us-east-1）。 EC2 クラスターで EMR を使用すると、本番環境にジョブを送信する前にテストを実行できます。

EC2 クラスターで EMR を起動した後、クラスターのプライマリノードに SSH ログインを行う必要があります。次に、Python 環境をパッケージ化してスクリプトを送信します (「 Conda のドキュメント Miniconda をインストールするには):

#  create conda environment
conda  create -y -n example -c dmnapolitano python=3.7 botocore boto3 ujson requests  conda-pack warcio

#  package the conda env
conda  activate example
conda  pack -o environment.tar.gz

#  get script from common crawl github
git  clone https://github.com/commoncrawl/cc-pyspark.git

#  copy target file path to local
aws  s3 cp s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz .
gzip  -d warc.paths.gz

#  put warc list to hdfs
hdfs  dfs -put warc.paths

#  submit job
spark-submit  --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./environment/bin/python 
--conf spark.sql.warehouse.dir=s3://xxxx-common-crawl/output/  
--master yarn  
--deploy-mode cluster 
--archives environment.tar.gz#environment 
--py-files cc-pyspark/sparkcc.py  cc-pyspark/server_count.py --input_base_url  s3://commoncrawl/ ./warc.paths count_demo

warc.path 内のすべての参照を処理するには時間がかかる場合があります。デモの目的では、次の戦略を使用して処理時間を改善できます。

ファイルをダウンロードする s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz をローカルマシンに保存して解凍し、HDFS または Amazon S3 にアップロードします。これは、.gzip ファイルが分割できないためです。このファイルを並列処理するには、解凍する必要があります。
修正します warc.path ファイルを削除し、その行のほとんどを削除し、ジョブの実行を大幅に高速化するために 2 行だけを残します。

ジョブが完了したら、結果を確認できます。 s3://xxxx-common-crawl/output/、寄木細工形式。

カスタマイズされた所有ロジックを実装する

Common Crawl GitHub リポジトリは、WARC ファイルを処理するための共通のアプローチを提供します。一般に、延長できるのは、 CCSparkJob 単一のメソッドをオーバーライドするには (process_record)、多くの場合、これで十分です。

最近の映画の IMDB レビューを取得する例を見てみましょう。まず、IMDB サイト上のファイルをフィルタリングして除外する必要があります。

SELECT
  url,
  warc_filename,
  url_host_name
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-06'
  OR crawl = 'CC-MAIN-2023-40')
  AND subset = 'warc'
  AND url like  'https://www.imdb.com/title/%/reviews'
LIMIT  1000

その後、IMDB レビューデータを含む WARC ファイルリストを取得し、WARC ファイル名をリストとしてテキストファイルに保存できます。

あるいは、EMR Spark を使用して WARC ファイルリストを取得し、Amazon S3 に保存することもできます。例えば：

sql  = """SELECT
  warc_filename
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-06'
  OR crawl = 'CC-MAIN-2023-40')
  AND subset = 'warc'
  AND url like  'https://www.imdb.com/title/%/reviews'
"""

warc_list  = spark.sql(sql)

#  write result list to s3
warc_list.coalesce(1).write.mode("overwrite").text("s3://xxxx-common-crawl/warclist/imdb_warclist")

出力ファイルは次のようになります。 s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt.

次のステップでは、これらの WARC ファイルからユーザーレビューを抽出します。延長することができます CCSparkJob をオーバーライドするには process_record() 方法：

from  sparkcc import CCSparkJob
from  bs4 import BeautifulSoup
from  urllib.parse import urlsplit
 
class  IMDB_Extract_Job(CCSparkJob):
    name = "IMDB_Reviews"
 
    def process_record(self, record):
        if self.is_response_record(record):
            # WARC response record
            domain =  urlsplit(record.rec_headers['WARC-Target-URI']).hostname
            if domain == 'www.imdb.com':
                # get web contents
                contents = (
                    record.content_stream()
                        .read()
                        .decode("utf-8", "replace")
                )
 
                # parse with beautiful soup
                soup =  BeautifulSoup(contents, "html.parser")
 
                # get reviews
                review_divs =  soup.find_all(class_="text show-more__control")
                for div in review_divs:
                    yield div.text,1
 
 
if  __name__ == "__main__":
    job = IMDB_Extract_Job()
    job.run()

前述のスクリプトを imdb_extractor.py として保存できます。これは次の手順で使用します。データとスクリプトを準備したら、EMR サーバーレスを使用してフィルタリングされたデータを処理できます。

EMR サーバーレス

EMR サーバーレスは、クラスターやサーバーの構成、管理、スケーリングを行わずに、Apache Spark や Hive などのオープンソースフレームワークを使用してビッグデータ分析アプリケーションを実行するサーバーレス展開オプションです。

EMR サーバーレスを使用すると、変化するデータボリュームや処理要件に合わせてリソースのサイズを数秒で変更する自動スケーリングを使用して、あらゆる規模の分析ワークロードを実行できます。 EMR サーバーレスは、アプリケーションに適切な量の容量を提供するためにリソースを自動的にスケールアップおよびスケールダウンします。料金は使用した分だけお支払いいただきます。

Common Crawl データセットの処理は通常 1 回限りの処理タスクであるため、EMR サーバーレスワークロードに適しています。

EMR サーバーレスアプリケーションを作成する

EMR Studio コンソールで EMR サーバーレスアプリケーションを作成できます。次の手順を実行します。

EMR Studio コンソールで、 アプリケーション 下 サーバレス ナビゲーションペインに表示されます。
選択する アプリケーションを作成する.

アプリケーションの名前を入力し、Amazon EMR のバージョンを選択します。

VPC リソースへのアクセスが必要な場合は、カスタマイズされたネットワーク設定を追加します。

選択する アプリケーションを作成する.

これで、Spark サーバーレス環境の準備が整います。

ジョブを EMR Spark サーバーレスに送信する前に、実行ロールを作成する必要があります。参照する Amazon EMR サーバーレスの使用開始のガイドをご参照ください。

EMR サーバーレスを使用して共通のクロールデータを処理する

EMR Spark サーバーレスアプリケーションの準備ができたら、次の手順を実行してデータを処理します。

Conda 環境を準備し、Amazon S3 にアップロードします。これは、EMR Spark サーバーレスの環境として使用されます。
実行するスクリプトを S3 バケットにアップロードします。次の例には、XNUMX つのスクリプトがあります。
1. imbd_extractor.py – データセットからコンテンツを抽出するためのカスタマイズされたロジック。内容はこの投稿の前半でご覧いただけます。
2. cc-pyspark/sparkcc.py – からの PySpark フレームワークの例共通クロール GitHub リポジトリを含める必要があります。
PySpark ジョブを EMR Serverless Spark に送信します。この例を環境で実行するには、次のパラメータを定義します。
1. アプリケーションID – EMR サーバーレスアプリケーションのアプリケーション ID。
2. 実行ロールアーン – EMR サーバーレス実行ロール。作成するには、を参照してください。ジョブランタイムロールを作成する.
3. WARCファイルの場所 – WARC ファイルの場所。 s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt には、この記事の前半で取得したフィルター処理された WARC ファイルリストが含まれています。
4. スパーク.sql.warehouse.dir – デフォルトの倉庫の場所 (S3 ディレクトリを使用)。
5. スパーク.アーカイブ – 準備された Conda 環境の S3 の場所。
6. スパーク.submit.pyFiles – 準備された PySpark スクリプト sparkcc.py。

次のコードを参照してください。

# 1. create conda environment
conda  create -y -n imdb -c dmnapolitano python=3.7 botocore boto3 ujson requests  conda-pack warcio bs4
 
# 2. package the conda  env, and upload to s3
conda  activate imdb 
conda  pack -o imdbenv.tar.gz
aws  s3 cp imdbenv.tar.gz s3://xxxx-common-crawl/env/
 
# 3. upload scripts to S3
aws  s3 cp imdb_extractor.py s3://xxxx-common-crawl/scripts/
aws  s3 cp cc-pyspark/sparkcc.py s3://xxxx-common-crawl/scripts/
 
# 4. submit job to EMR Serverless
#!/bin/bash
aws  emr-serverless start-job-run 
    --application-id 00fdsobht2skro2l 
    --execution-role-arn  arn:aws:iam::xxxx:role/EMR-Serverless-JobExecutionRole 
    --name imdb-retrive 
    --job-driver '{
        "sparkSubmit": {
          "entryPoint":  "s3://xxxx-common-crawl/scripts/imdb_extractor.py",
          "entryPointArguments":  ["--input_base_url" ,"s3://commoncrawl/",  "s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt",  "imdb_reviews", "--num_output_partitions",  "1"],
          "sparkSubmitParameters":  "--conf spark.sql.warehouse.dir=s3://xxxx-common-crawl/output/ --conf  spark.network.timeout=10000000 —conf  spark.executor.heartbeatInterval=10000000 —conf spark.executor.instances=100  —conf spark.executor.cores=4 —conf spark.executor.memory=16g —conf  spark.driver.memory=16g   —conf  spark.archives=s3://xxxx-common-crawl/env/imdbenv.tar.gz#environment —conf  spark.emr-serverless.driverEnv.PYSPARK_DRIVER_PYTHON=./environment/bin/python  —conf spark.emr-serverless.driverEnv.PYSPARK_PYTHON=./environment/bin/python  —conf spark.executorEnv.PYSPARK_PYTHON=./environment/bin/python —conf  spark.submit.pyFiles=s3://xxxx-common-crawl/scripts/sparkcc.py“
        }
}'

ジョブが完了すると、抽出されたレビューが Amazon S3 に保存されます。内容を確認するには、次のスクリーンショットに示すように、Amazon S3 Select を使用できます。

考慮事項

カスタマイズされたコードで大量のデータを処理する場合に考慮すべき点は次のとおりです。

一部のサードパーティの Python ライブラリは Conda では使用できない場合があります。このような場合は、Python 仮想環境に切り替えて PySpark ランタイム環境を構築できます。
処理するデータが大量にある場合は、複数の EMR サーバーレス Spark アプリケーションを作成して使用し、並列化してみてください。各アプリケーションはファイルリストのサブセットを処理します。
Common Crawl データをフィルタリングまたは処理するときに、Amazon S3 で速度低下の問題が発生する可能性があります。これは、データを保存している S3 バケットがパブリックにアクセス可能であり、他のユーザーが同時にデータにアクセスする可能性があるためです。この問題を軽減するには、再試行メカニズムを追加するか、Common Crawl S3 バケットから独自のバケットに特定のデータを同期します。

SageMaker を使用して Llama 2 を微調整する

データを準備したら、それを使用して Llama 2 モデルを微調整できます。これは、コードを書かずに SageMaker JumpStart を使用して行うことができます。詳細については、以下を参照してください。 Amazon SageMaker JumpStart でのテキスト生成用に Llama 2 を微調整する.

このシナリオでは、ドメイン適応の微調整を実行します。このデータセットでは、入力は CSV、JSON、または TXT ファイルで構成されます。すべてのレビューデータを TXT ファイルに入れる必要があります。これを行うには、単純な Spark ジョブを EMR Spark Serverless に送信します。次のサンプルコードスニペットを参照してください。

# disable generating _SUCCESS file
spark.conf.set("mapreduce.fileoutputcommitter.marksuccessfuljobs",  "false")

data  = spark.read.parquet("s3://xxxx-common-crawl/output/imdb_reviews/")

data.select('Key').coalesce(1).write.mode("overwrite").text("s3://xxxx-common-crawl/llama2/train/")

トレーニングデータを準備したら、データの場所を入力します。 トレーニングデータセット、を選択します トレーニング.

トレーニングジョブのステータスを追跡できます。

微調整されたモデルを評価する

トレーニングが完了したら、選択します 配備します SageMaker JumpStart で微調整されたモデルをデプロイします。

モデルが正常にデプロイされたら、次を選択します。 ノートブックを開くをクリックすると、Python コードを実行できる準備された Jupyter ノートブックにリダイレクトされます。

ノートブックにはイメージ Data Science 2.0 と Python 3 カーネルを使用できます。

その後、このノートブックで微調整されたモデルと元のモデルを評価できます。

endpoint_name_original = "jumpstart-dft-meta-textgeneration-llama-2-7b-origin"
endpoint_name_fine_tuned = "jumpstart-ftc-meta-textgeneration-llama-2-7b"

payload = {
    "inputs": "The review of movie 'A Woman of Paris: A Drama of Fate' is ",
    "parameters": {
        "max_new_tokens": 256,
        "top_p": 0.9,
        "temperature": 0.6,
        "return_full_text": True,
    },
        }
    
def query_endpoint(payload, endpoint_name):
    client = boto3.client("sagemaker-runtime")
    response = client.invoke_endpoint(
        EndpointName=endpoint_name,
        ContentType="application/json",
        Body=json.dumps(payload),
        CustomAttributes="accept_eula=true",
    )
    response = response["Body"].read().decode("utf8")
    response = json.loads(response)
    print(endpoint_name + ": n" + response[0]['generation'])


query_endpoint(payload, endpoint_name_original)
print("n-----#################-----n")
query_endpoint(payload, endpoint_name_fine_tuned)

以下は、同じ質問に対して元のモデルと微調整されたモデルによって返された 2 つの応答です。

両方のモデルに「映画『パリの女：運命のドラマ』のレビューは」という同じ文を与え、文を完成させました。

元のモデルは意味のない文を出力します。

"The review of movie 'A woman of Paris: A Drama of Fate' is 3.0/5.

A Woman of Paris: A Drama of Fate(1923)

A Woman of Paris: A Drama of Fate movie released on 17 October, 1992. The movie is directed by. A Woman of Paris: A Drama of Fate featured Jeanne Eagles, William Haines, Burr McIntosh and Jack Rollens in lead rols.

..."

対照的に、微調整されたモデルの出力は映画のレビューに似ています。

" The review of movie 'A Woman of Paris: A Drama of Fate' is 6.3/10. I liked the story, the plot, the character, the background. The performances are amazing. Rory (Judy Davis) is an Australian photographer who travels to Africa to photograph the people, wildlife, and scenery. She meets Peter (Donald Sutherland), a zoologist, and they begin a relationship..."

明らかに、この特定のシナリオでは、微調整されたモデルのパフォーマンスが向上します。

クリーンアップ

この演習を終了したら、次の手順を実行してリソースをクリーンアップします。

S3 バケットを削除するクリーンアップされたデータセットを保存します。
EMRサーバーレス環境を停止する.
SageMaker エンドポイントを削除する LLM モデルをホストします。
SageMaker ドメインを削除するそれがあなたのノートブックを実行します。

作成したアプリケーションは、デフォルトで 15 分間非アクティブ状態が続くと自動的に停止します。

通常、Athena 環境を使用していないときは料金が発生しないため、Athena 環境をクリーンアップする必要はありません。

まとめ

この投稿では、Common Crawl データセットと、EMR サーバーレスを使用して LLM 微調整用のデータを処理する方法を紹介しました。次に、SageMaker JumpStart を使用して LLM を微調整し、コードなしでデプロイする方法をデモしました。 EMR サーバーレスのその他の使用例については、以下を参照してください。 Amazon EMR サーバーレス。 Amazon SageMaker JumpStart でのモデルのホスティングと微調整の詳細については、以下を参照してください。 Sagemaker JumpStart ドキュメント.

著者について

唐世建 アマゾンウェブサービスの分析スペシャリストソリューションアーキテクトです。

マシュー・リーム アマゾンウェブサービスのシニアソリューションアーキテクチャマネージャーです。

ダレイ・シュウ アマゾンウェブサービスの分析スペシャリストソリューションアーキテクトです。

シャオ・ユアンジュン アマゾンウェブサービスのシニアソリューションアーキテクトです。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/big-data/preprocess-and-fine-tune-llms-quickly-and-cost-effectively-using-amazon-emr-serverless-and-amazon-sagemaker/

タイムスタンプ： 2024 年 2 月 1 日

タイムスタンプ： 2022 年 12 月 16 日

プラトン再発行

AWS は、2023 年 Gartner Magic Quadrant for Analytics and Business Intelligence Platforms でチャレンジャーとして認められました

Amazon QuickSight のスーパーチャージされたピボットテーブル

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー