Amazon EMR、Amazon Bedrock、および Apache Spark 用英語 SDK で Generative AI を使用して洞察を解き放つ |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

このビッグデータの時代において、世界中の組織は、膨大なデータセットから価値と洞察を抽出する革新的な方法を常に模索しています。 Apache Spark 大量のデータを効率的に処理するために必要なスケーラビリティと速度を提供します。

アマゾンEMR Apache Spark などのオープンソースフレームワークを使用した、ペタバイト規模のデータ処理、対話型分析、機械学習 (ML) のための業界をリードするクラウドビッグデータソリューションです。 ApacheHive, プレストで。 Amazon EMR は、Apache Spark を実行するのに最適な場所です。マネージド Spark クラスターを迅速かつ簡単に作成できます。 AWSマネジメントコンソール, AWSコマンドラインインターフェイス (AWS CLI)、または Amazon EMR API。高速などの追加の Amazon EMR 機能を使用することもできます。 Amazon シンプルストレージサービス Amazon EMR ファイルシステム (EMRFS) を使用した (Amazon S3) 接続、 Amazon EC2スポット市場と AWSグルー Data Catalog と EMR マネージドスケーリングを使用して、クラスターにインスタンスを追加または削除します。アマゾンEMRスタジオは、データサイエンティストやデータエンジニアが、R、Python、Scala、PySpark で記述されたデータエンジニアリングおよびデータサイエンスアプリケーションを簡単に開発、視覚化、デバッグできるようにする統合開発環境 (IDE) です。 EMR Studio は、フルマネージドの Jupyter ノートブックと、デバッグを簡素化するための Spark UI や YARN Timeline Service などのツールを提供します。

データの山に隠された可能性を解き放つには、従来の分析を超えることが不可欠です。生成 AI は、ML と創造性を組み合わせて人間のようなテキスト、アート、さらにはコードを生成する最先端のテクノロジーです。アマゾンの岩盤これは、基盤モデル (FM) を使用して生成 AI アプリケーションを構築および拡張する最も簡単な方法です。 Amazon Bedrock は、Amazon および主要な AI 企業の FM を API を通じて利用できるようにするフルマネージドサービスです。そのため、プレイグラウンドでさまざまな FM をすばやく実験し、選択したモデルに関係なく推論に単一の API を使用できます。さまざまなプロバイダーの FM を柔軟に使用でき、最小限のコード変更で最新のモデルバージョンを常に最新の状態に保つことができます。

この投稿では、Amazon EMR、Amazon Bedrock、および pyspark-ai 図書館。 pyspark-ai ライブラリは、Apache Spark 用の英語の SDK です。英語で命令を受け取り、それを DataFrame などの PySpark オブジェクトにコンパイルします。これにより、Spark の操作が簡単になり、データから価値を抽出することに集中できるようになります。

ソリューションの概要

次の図は、Amazon EMR および Amazon Bedrock で生成 AI を使用するためのアーキテクチャを示しています。

ソリューションの概要

EMR Studio は、EMR クラスター上で実行されるフルマネージド Jupyter ノートブック用の Web ベースの IDE です。実行中の EMR クラスターに接続されている EMR Studio ワークスペースと対話し、この投稿の一部として提供されているノートブックを実行します。私たちが使用するのは、ニューヨーク市のタクシーユーザーが利用したさまざまなタクシー乗車に関する洞察を得るデータ。 Spark DataFrame にロードされたデータに基づいて自然言語で質問します。次に、pyspark-ai ライブラリは、Amazon Bedrock の Amazon Titan Text FM を使用して、自然言語の質問に基づいた SQL クエリを作成します。 pyspark-ai ライブラリは SQL クエリを取得し、Spark SQL を使用して実行し、結果をユーザーに返します。

このソリューションでは、AWS アカウントに必要なリソースを作成して構成できます。 AWS CloudFormation テンプレート。テンプレートによって作成されるのは、 AWSグルーデータベースとテーブル、S3 バケット、VPC、その他 AWS IDおよびアクセス管理ソリューションで使用される (IAM) リソース。

このテンプレートは、EMR Studio を pyspark-ai パッケージおよび Amazon Bedrock とともに使用する方法を示すために設計されており、変更せずに本番環境で使用することを目的としていません。さらに、テンプレートでは、 us-east-1 リージョンが異なり、変更しないと他のリージョンでは機能しない可能性があります。テンプレートは、使用中にコストが発生するリソースを作成します。この投稿の最後にあるクリーンアップ手順に従ってリソースを削除し、不必要な料金が発生しないようにします。

前提条件

CloudFormation スタックを起動する前に、次のものが揃っていることを確認してください。

AWS サービスへのアクセスを提供する AWS アカウント
AWS CLI を設定するためのアクセスキーとシークレットキー、および AWS CloudFormation で IAM ロール、IAM ポリシー、スタックを作成するためのアクセス許可を持つ IAM ユーザー
Titan Text G1 – Express モデルは現在プレビュー段階にあるため、この投稿の一部として使用するにはプレビューアクセス権が必要です。

AWSCloudFormationでリソースを作成する

CloudFormation は次の AWS リソースを作成します。

EMR Studio、ルートテーブル、NAT ゲートウェイで使用するプライベートサブネットとパブリックサブネットを備えた VPC スタック。
Python 3.9 がインストールされた EMR クラスター。ブートストラップアクションを使用して、Python 3.9 と、pyspark-ai や Amazon Bedrock の依存関係などのその他の関連パッケージをインストールします。 (詳細については、ブートストラップスクリプト.)
EMR Studio ワークスペースおよびノートブックストレージ用の S3 バケット。
EMR Studio のセットアップ、Amazon Bedrock アクセス、ノートブックの実行のための IAM ロールとポリシー

開始するには、次の手順を実行します。

選択する スタックの起動：
選択 このテンプレートが IAM リソースを作成する可能性があることを認めます.

CloudFormation スタックが完了するまでに約 20 ～ 30 分かかります。 AWS CloudFormation コンソールで進行状況を監視できます。ステータスが次のようになった場合 CREATE_COMPLETEの場合、AWS アカウントには、このソリューションを実装するために必要なリソースが含まれます。

EMRスタジオの作成

これで、ノートブックコードを操作するための EMR スタジオとワークスペースを作成できるようになりました。次の手順を実行します。

EMR Studio コンソールで、 スタジオを作成します。
入力する スタジオ名 as GenAI-EMR-Studio そして説明を加えます。
ネットワークとセキュリティ セクションで、次のように指定します。
- VPC、デプロイした CloudFormation スタックの一部として作成した VPC を選択します。 VPCID キーの CloudFormation 出力を使用して VPC ID を取得します。
- サブネット、XNUMX つのサブネットすべてを選択します。
- セキュリティとアクセス選択 カスタムセキュリティグループ.
- クラスター/エンドポイントセキュリティグループ、選択する EMRSparkAI-Cluster-Endpoint-SG.
- ワークスペースセキュリティグループ、選択する EMRSparkAI-Workspace-SG.
スタジオサービスの役割 セクションで、次のように指定します。
- 認証選択 AWS Identity and Access Management（IAM）.
- AWS IAM サービスロール、選択する EMRSparkAI-StudioServiceRole.
ワークスペースストレージ セクションで、ストレージ用の S3 バケットを参照して選択します。 emr-sparkai-<account-id>.
選択する スタジオを作成.
EMR Studio が作成されたら、下のリンクを選択します。 スタジオアクセスURL スタジオにアクセスします。
スタジオにいるときに選択してください ワークスペースを作成する.
Add emr-genai ワークスペースの名前としてを選択し、 ワークスペースを作成する.
ワークスペースが作成されたら、その名前を選択してワークスペースを起動します (ポップアップブロッカーがすべて無効になっていることを確認してください)。

Apache Spark と Amazon EMR および生成 AI を使用したビッグデータ分析

必要なセットアップが完了したので、Apache Spark と Amazon EMR および生成 AI を使用してビッグデータ分析の実行を開始できます。

最初のステップとして、ユースケースで作業するために必要なコードと例を含むノートブックを読み込みます。タクシーの乗車に関する詳細が含まれる NY タクシーデータセットを使用します。

ノートブックファイルをダウンロードする NYタクシー.ipynb そして、アップロードアイコンを選択してワークスペースにアップロードします。
ノートブックがインポートされたら、ノートブックを開いて選択します PySpark カーネルとして。

PySpark AI デフォルトでは、OpenAI の ChatGPT4.0 を LLM モデルとして使用しますが、Amazon Bedrock のモデルをプラグインすることもできます。 Amazon SageMaker ジャンプスタート、およびその他のサードパーティモデル。この投稿では、SQL クエリ生成用に Amazon Bedrock Titan モデルを統合し、Amazon EMR の Apache Spark で実行する方法を示します。

ノートブックの使用を開始するには、ワークスペースをコンピューティングレイヤーに関連付ける必要があります。そのためには、計算ナビゲーションペインのアイコンをクリックし、CloudFormation スタックによって作成された EMR クラスターを選択します。

更新された Python 3.9 パッケージを Amazon EMR で使用するように Python パラメータを設定します。

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

必要なライブラリをインポートします。

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

ライブラリをインポートした後、Amazon Bedrock から LLM モデルを定義できます。この場合、amazon.titan-text-express-v1 を使用します。 Titan Text G1 – Express モデルのプレビューアクセスに基づいて、リージョンと Amazon Bedrock エンドポイント URL を入力する必要があります。
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```
Spark AI を Amazon Bedrock LLM モデルに接続し、自然言語の質問に基づいて SQL クエリを生成します。
```
#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()
```

ここでは、verbose=False で Spark AI を初期化しました。詳細を表示するには、verbose=True を設定することもできます。

Spark DataFrame で NYC Taxi データを読み取り、Spark の生成 AI の力を利用できるようになりました。

たとえば、データセット内のレコード数を尋ねることができます。
```
taxi_records.ai.transform("count the number of records in this dataset").show()
```

次の応答があります。

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

Spark AI が内部で使用するラングチェーン SQL チェーンは、Spark でクエリを操作するエンドユーザーから複雑さを隠します。

このノートブックには、Apache Spark と Amazon EMR を使用した生成 AI の力を探索するためのサンプルシナリオがさらにいくつか含まれています。

クリーンアップ

S3バケットの内容を空にする emr-sparkai-<account-id>、この投稿の一部として作成した EMR Studio ワークスペースを削除してから、デプロイした CloudFormation スタックを削除します。

まとめ

この投稿では、Apache Spark と Amazon EMR および Amazon Bedrock を利用してビッグデータ分析を強化する方法を説明しました。 PySpark AI パッケージを使用すると、データから有意義な洞察を引き出すことができます。これにより、開発と分析の時間が短縮され、手動クエリを作成する時間が短縮され、ビジネスユースケースに集中できるようになります。

著者について

サウラブ・ブティヤニ AWS のプリンシパル分析スペシャリストソリューションアーキテクトです。彼は新しいテクノロジーに情熱を持っています。彼は 2019 年に AWS に入社し、Amazon Bedrock、Amazon SageMaker、Amazon EMR、Amazon Athena、AWS Glue、AWS Lake Formation、そしてAmazon DataZone。

Harsh Vardhan AWS のシニアソリューションアーキテクトであり、分析を専門としています。彼はビッグデータとデータサイエンスの分野で 8 年以上の経験があります。彼は、顧客がベストプラクティスを採用し、データから洞察を発見できるよう支援することに情熱を注いでいます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

タイムスタンプ： 2023 年 11 月 16 日

タイムスタンプ： 2023 年 11 月 15 日

Amazon EMR、Amazon Bedrock、Apache Spark 用英語 SDK で生成 AI を使用して洞察を解き放つ | アマゾンウェブサービス

プラトン再発行

ソリューションの概要

前提条件

AWSCloudFormationでリソースを作成する

EMRスタジオの作成

Apache Spark と Amazon EMR および生成 AI を使用したビッグデータ分析

クリーンアップ

まとめ

著者について

より多くの AWSビッグデータ

Amazon QuickSight は、TalentReef が顧客により多くの情報に基づいた採用決定を行えるよう支援します

トランザクションデータレイクからデータウェアハウスにデータを段階的にロードする | アマゾンウェブサービス

Amazon QuickSight でレーダーチャートを使用して多変量データを視覚化する

Amazon MWAA での共有 VPC サポートの導入 | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー