このビッグデータの時代において、世界中の組織は、膨大なデータセットから価値と洞察を抽出する革新的な方法を常に模索しています。 Apache Spark 大量のデータを効率的に処理するために必要なスケーラビリティと速度を提供します。
アマゾンEMR Apache Spark などのオープンソース フレームワークを使用した、ペタバイト規模のデータ処理、対話型分析、機械学習 (ML) のための業界をリードするクラウド ビッグ データ ソリューションです。 ApacheHive, プレストで。 Amazon EMR は、Apache Spark を実行するのに最適な場所です。 マネージド Spark クラスターを迅速かつ簡単に作成できます。 AWSマネジメントコンソール, AWSコマンドラインインターフェイス (AWS CLI)、または Amazon EMR API。 高速などの追加の Amazon EMR 機能を使用することもできます。 Amazon シンプル ストレージ サービス Amazon EMR ファイル システム (EMRFS) を使用した (Amazon S3) 接続、 Amazon EC2スポット 市場と AWSグルー Data Catalog と EMR マネージド スケーリングを使用して、クラスターにインスタンスを追加または削除します。 アマゾンEMRスタジオ は、データ サイエンティストやデータ エンジニアが、R、Python、Scala、PySpark で記述されたデータ エンジニアリングおよびデータ サイエンス アプリケーションを簡単に開発、視覚化、デバッグできるようにする統合開発環境 (IDE) です。 EMR Studio は、フルマネージドの Jupyter ノートブックと、デバッグを簡素化するための Spark UI や YARN Timeline Service などのツールを提供します。
データの山に隠された可能性を解き放つには、従来の分析を超えることが不可欠です。 生成 AI は、ML と創造性を組み合わせて人間のようなテキスト、アート、さらにはコードを生成する最先端のテクノロジーです。 アマゾンの岩盤 これは、基盤モデル (FM) を使用して生成 AI アプリケーションを構築および拡張する最も簡単な方法です。 Amazon Bedrock は、Amazon および主要な AI 企業の FM を API を通じて利用できるようにするフルマネージド サービスです。そのため、プレイグラウンドでさまざまな FM をすばやく実験し、選択したモデルに関係なく推論に単一の API を使用できます。さまざまなプロバイダーの FM を柔軟に使用でき、最小限のコード変更で最新のモデル バージョンを常に最新の状態に保つことができます。
この投稿では、Amazon EMR、Amazon Bedrock、および pyspark-ai 図書館。 pyspark-ai ライブラリは、Apache Spark 用の英語の SDK です。 英語で命令を受け取り、それを DataFrame などの PySpark オブジェクトにコンパイルします。 これにより、Spark の操作が簡単になり、データから価値を抽出することに集中できるようになります。
ソリューションの概要
次の図は、Amazon EMR および Amazon Bedrock で生成 AI を使用するためのアーキテクチャを示しています。
EMR Studio は、EMR クラスター上で実行されるフルマネージド Jupyter ノートブック用の Web ベースの IDE です。 実行中の EMR クラスターに接続されている EMR Studio ワークスペースと対話し、この投稿の一部として提供されているノートブックを実行します。 私たちが使用するのは、 ニューヨーク市のタクシー ユーザーが利用したさまざまなタクシー乗車に関する洞察を得るデータ。 Spark DataFrame にロードされたデータに基づいて自然言語で質問します。 次に、pyspark-ai ライブラリは、Amazon Bedrock の Amazon Titan Text FM を使用して、自然言語の質問に基づいた SQL クエリを作成します。 pyspark-ai ライブラリは SQL クエリを取得し、Spark SQL を使用して実行し、結果をユーザーに返します。
このソリューションでは、AWS アカウントに必要なリソースを作成して構成できます。 AWS CloudFormation テンプレート。 テンプレートによって作成されるのは、 AWSグルー データベースとテーブル、S3 バケット、VPC、その他 AWS IDおよびアクセス管理 ソリューションで使用される (IAM) リソース。
このテンプレートは、EMR Studio を pyspark-ai パッケージおよび Amazon Bedrock とともに使用する方法を示すために設計されており、変更せずに本番環境で使用することを目的としていません。 さらに、テンプレートでは、 us-east-1
リージョンが異なり、変更しないと他のリージョンでは機能しない可能性があります。 テンプレートは、使用中にコストが発生するリソースを作成します。 この投稿の最後にあるクリーンアップ手順に従ってリソースを削除し、不必要な料金が発生しないようにします。
前提条件
CloudFormation スタックを起動する前に、次のものが揃っていることを確認してください。
- AWS サービスへのアクセスを提供する AWS アカウント
- AWS CLI を設定するためのアクセスキーとシークレットキー、および AWS CloudFormation で IAM ロール、IAM ポリシー、スタックを作成するためのアクセス許可を持つ IAM ユーザー
- Titan Text G1 – Express モデルは現在プレビュー段階にあるため、この投稿の一部として使用するにはプレビュー アクセス権が必要です。
AWSCloudFormationでリソースを作成する
CloudFormation は次の AWS リソースを作成します。
- EMR Studio、ルート テーブル、NAT ゲートウェイで使用するプライベート サブネットとパブリック サブネットを備えた VPC スタック。
- Python 3.9 がインストールされた EMR クラスター。 ブートストラップ アクションを使用して、Python 3.9 と、pyspark-ai や Amazon Bedrock の依存関係などのその他の関連パッケージをインストールします。 (詳細については、 ブートストラップスクリプト.)
- EMR Studio ワークスペースおよびノートブック ストレージ用の S3 バケット。
- EMR Studio のセットアップ、Amazon Bedrock アクセス、ノートブックの実行のための IAM ロールとポリシー
開始するには、次の手順を実行します。
CloudFormation スタックが完了するまでに約 20 ~ 30 分かかります。 AWS CloudFormation コンソールで進行状況を監視できます。 ステータスが次のようになった場合 CREATE_COMPLETE
の場合、AWS アカウントには、このソリューションを実装するために必要なリソースが含まれます。
EMRスタジオの作成
これで、ノートブック コードを操作するための EMR スタジオとワークスペースを作成できるようになりました。 次の手順を実行します。
- EMR Studio コンソールで、 スタジオを作成します。
- 入力する スタジオ名 as
GenAI-EMR-Studio
そして説明を加えます。 - ネットワークとセキュリティ セクションで、次のように指定します。
- VPC、デプロイした CloudFormation スタックの一部として作成した VPC を選択します。 VPCID キーの CloudFormation 出力を使用して VPC ID を取得します。
- サブネット、XNUMX つのサブネットすべてを選択します。
- セキュリティとアクセス選択 カスタムセキュリティグループ.
- クラスター/エンドポイントセキュリティグループ、選択する
EMRSparkAI-Cluster-Endpoint-SG
. - ワークスペースセキュリティグループ、選択する
EMRSparkAI-Workspace-SG
.
- スタジオサービスの役割 セクションで、次のように指定します。
- 認証選択 AWS Identity and Access Management(IAM).
- AWS IAM サービスロール、選択する
EMRSparkAI-StudioServiceRole
.
- ワークスペースストレージ セクションで、ストレージ用の S3 バケットを参照して選択します。
emr-sparkai-<account-id>
. - 選択する スタジオを作成.
- EMR Studio が作成されたら、下のリンクを選択します。 スタジオアクセスURL スタジオにアクセスします。
- スタジオにいるときに選択してください ワークスペースを作成する.
- Add
emr-genai
ワークスペースの名前として を選択し、 ワークスペースを作成する. - ワークスペースが作成されたら、その名前を選択してワークスペースを起動します (ポップアップ ブロッカーがすべて無効になっていることを確認してください)。
Apache Spark と Amazon EMR および生成 AI を使用したビッグデータ分析
必要なセットアップが完了したので、Apache Spark と Amazon EMR および生成 AI を使用してビッグデータ分析の実行を開始できます。
最初のステップとして、ユースケースで作業するために必要なコードと例を含むノートブックを読み込みます。 タクシーの乗車に関する詳細が含まれる NY タクシー データセットを使用します。
- ノートブックファイルをダウンロードする NYタクシー.ipynb そして、アップロード アイコンを選択してワークスペースにアップロードします。
- ノートブックがインポートされたら、ノートブックを開いて選択します
PySpark
カーネルとして。
PySpark AI デフォルトでは、OpenAI の ChatGPT4.0 を LLM モデルとして使用しますが、Amazon Bedrock のモデルをプラグインすることもできます。 Amazon SageMaker ジャンプスタート、およびその他のサードパーティ モデル。 この投稿では、SQL クエリ生成用に Amazon Bedrock Titan モデルを統合し、Amazon EMR の Apache Spark で実行する方法を示します。
- ノートブックの使用を開始するには、ワークスペースをコンピューティング レイヤーに関連付ける必要があります。 そのためには、 計算 ナビゲーションペインの アイコンをクリックし、CloudFormation スタックによって作成された EMR クラスターを選択します。
- 更新された Python 3.9 パッケージを Amazon EMR で使用するように Python パラメータを設定します。
- 必要なライブラリをインポートします。
- ライブラリをインポートした後、Amazon Bedrock から LLM モデルを定義できます。 この場合、amazon.titan-text-express-v1 を使用します。 Titan Text G1 – Express モデルのプレビュー アクセスに基づいて、リージョンと Amazon Bedrock エンドポイント URL を入力する必要があります。
- Spark AI を Amazon Bedrock LLM モデルに接続し、自然言語の質問に基づいて SQL クエリを生成します。
ここでは、verbose=False で Spark AI を初期化しました。 詳細を表示するには、verbose=True を設定することもできます。
Spark DataFrame で NYC Taxi データを読み取り、Spark の生成 AI の力を利用できるようになりました。
- たとえば、データセット内のレコード数を尋ねることができます。
次の応答があります。
Spark AI が内部で使用する ラングチェーン SQL チェーンは、Spark でクエリを操作するエンドユーザーから複雑さを隠します。
このノートブックには、Apache Spark と Amazon EMR を使用した生成 AI の力を探索するためのサンプル シナリオがさらにいくつか含まれています。
クリーンアップ
S3バケットの内容を空にする emr-sparkai-<account-id>
、この投稿の一部として作成した EMR Studio ワークスペースを削除してから、デプロイした CloudFormation スタックを削除します。
まとめ
この投稿では、Apache Spark と Amazon EMR および Amazon Bedrock を利用してビッグデータ分析を強化する方法を説明しました。 PySpark AI パッケージを使用すると、データから有意義な洞察を引き出すことができます。 これにより、開発と分析の時間が短縮され、手動クエリを作成する時間が短縮され、ビジネス ユースケースに集中できるようになります。
著者について
サウラブ・ブティヤニ AWS のプリンシパル分析スペシャリスト ソリューション アーキテクトです。 彼は新しいテクノロジーに情熱を持っています。 彼は 2019 年に AWS に入社し、Amazon Bedrock、Amazon SageMaker、Amazon EMR、Amazon Athena、AWS Glue、AWS Lake Formation、そしてAmazon DataZone。
Harsh Vardhan AWS のシニア ソリューション アーキテクトであり、分析を専門としています。 彼はビッグデータとデータサイエンスの分野で 8 年以上の経験があります。 彼は、顧客がベスト プラクティスを採用し、データから洞察を発見できるよう支援することに情熱を注いでいます。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/
- :持っている
- :は
- :not
- $UP
- 1
- 10
- 100
- 107
- 11
- 20
- 200
- 2019
- 320
- 500
- 521
- 7
- 8
- 9
- 990
- a
- 私たちについて
- アクセス
- アクセス管理
- 認める
- Action
- 加えます
- NEW
- さらに
- 採用
- AI
- aiのユースケース
- すべて
- 許可
- ことができます
- また
- Amazon
- アマゾンアテナ
- アマゾンEMR
- アマゾンセージメーカー
- Amazon Webサービス
- 金額
- an
- 分析
- 分析論
- および
- 回答
- どれか
- アパッチ
- Apache Spark
- API
- 約
- 建築の
- 建築
- です
- 宝品
- AS
- 頼む
- 仲間
- At
- 利用できます
- 避ける
- AWS
- AWS CloudFormation
- AWSグルー
- AWSレイクフォーメーション
- バック
- ベース
- BEST
- ベストプラクティス
- 越えて
- ビッグ
- ビッグデータ
- ブートストラップ
- ビルド
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- (Comma Separated Values) ボタンをクリックして、各々のジョブ実行の詳細(開始/停止時間、変数値など)のCSVファイルをダウンロードします。
- by
- 缶
- 場合
- 例
- カタログ
- チェーン
- 変更
- 課金
- 選択する
- 選択する
- 市町村
- クラウド
- クラウドビッグデータ
- クラスタ
- コード
- 組み合わせ
- 企業
- コンプリート
- 記入済みの
- 複雑さ
- 計算
- 交流
- 接続性
- 領事
- 絶えず
- 含まれています
- 中身
- コスト
- 作ります
- 作成した
- 作成します。
- 創造性
- 現在
- Customers
- 最先端
- データ
- データ分析
- データ処理
- データサイエンス
- データベース
- データセット
- 日付
- デフォルト
- 定義します
- 実証します
- 依存関係
- 展開
- 派生する
- 説明
- 設計
- 細部
- 開発する
- 開発
- 異なります
- 無効
- 発見する
- do
- 効率良く
- 楽
- end
- エンドポイント
- エンジニアリング
- エンジニア
- 英語
- 確保
- 入力します
- 入る
- 環境
- 時代
- 本質的な
- エーテル(ETH)
- さらに
- 例
- 例
- 体験
- 実験
- 探る
- 表現します
- エキス
- スピーディー
- 特徴
- 少数の
- フィールド
- File
- ファイナル
- 名
- 柔軟性
- フォーカス
- フォロー中
- 形成
- Foundation
- 4
- フレームワーク
- から
- 完全に
- g1
- 集める
- ゲートウェイ
- 生成する
- 世代
- 生々しい
- 生成AI
- 取得する
- 与え
- Go
- ガイダンス
- 持ってる
- he
- 助けます
- 助け
- ことができます
- 隠されました
- 隠す
- 認定条件
- How To
- HTTP
- HTTPS
- i
- IAM
- ICON
- ID
- アイデンティティ
- アイデンティティとアクセス管理
- 説明する
- 実装する
- import
- in
- その他の
- 含めて
- 業界をリードする
- 情報
- 革新的な
- 洞察
- install
- インスタンス
- 説明書
- 統合する
- 統合された
- 統合
- 意図された
- 対話
- 相互作用的
- 内部で
- に
- IT
- ITS
- 参加した
- JPG
- キープ
- キー
- 知っている
- 湖
- 言語
- 大
- 最新の
- 起動する
- 層
- 主要な
- 学習
- ライブラリ
- 図書館
- ような
- LINE
- LINK
- 負荷
- 機械
- 機械学習
- make
- 作る
- マネージド
- 管理
- マニュアル
- 市場
- 五月..
- 意味のある
- メッシュ
- 最小限の
- 分
- ML
- モデル
- モニター
- 他には?
- 最も
- 名
- ナチュラル
- 自然言語
- ナビゲーション
- 必要
- 必要
- 必要とされる
- ネットワーキング
- 新作
- 新技術
- ノート
- ノートPC
- 今
- 数
- NY
- NYC
- オブジェクト
- 観察
- of
- オファー
- on
- 開いた
- オープンソース
- or
- 組織
- その他
- outputs
- が
- 概要
- パッケージ
- パッケージ
- ペイン
- パラメータ
- 部
- 情熱的な
- 実行
- パーミッション
- 場所
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 遊び場
- プラグ
- ポリシー
- ポップアップ
- ポスト
- 潜在的な
- 電力
- プラクティス
- プレビュー
- 校長
- プライベート
- プロセス
- 処理
- 生産
- 進捗
- 提供します
- 提供
- プロバイダ
- は、大阪で
- 公共
- Python
- クエリ
- 質問
- 質問
- すぐに
- R
- 読む
- 記録
- 減らします
- 縮小
- 参照する
- 関係なく
- 地域
- 地域
- 関連した
- 削除します
- の提出が必要です
- リソース
- 応答
- 結果
- 乗り物
- 職種
- 役割
- ルート
- ラン
- ランニング
- runs
- セージメーカー
- スカラ
- スケーラビリティ
- ド電源のデ
- 規模
- スケーリング
- シナリオ
- 科学
- 科学者たち
- SDDK
- 検索
- 秘密
- セキュリティ
- select
- シニア
- サービス
- サービス
- セッションに
- 表示する
- 示されました
- 簡単な拡張で
- 簡素化する
- So
- 溶液
- ソリューション
- ソース
- スパーク
- 専門家
- 特化
- スピード
- SQL
- スタック
- スタック
- start
- 開始
- 起動
- Status:
- 手順
- ステップ
- ストレージ利用料
- 簡単な
- 研究
- サブネット
- そのような
- スーパーチャージ
- 確か
- テーブル
- 撮影
- 取り
- テクノロジー
- テクノロジー
- template
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- それ
- アプリ環境に合わせて
- それら
- その後
- 彼ら
- サードパーティ
- この
- 考え
- 介して
- 時間
- タイムライン
- タイタン
- 〜へ
- 豊富なツール群
- top
- 伝統的な
- ui
- 下
- アンロック
- 更新しました
- URL
- つかいます
- 使用事例
- 中古
- ユーザー
- users
- 使用されます
- 値
- 多様
- さまざまな
- 広大な
- 視覚化する
- 仕方..
- 方法
- we
- ウェブ
- Webサービス
- ウェブベースの
- いつ
- which
- while
- 意志
- 以内
- 無し
- 仕事
- ワーキング
- 作品
- 書きます
- 書かれた
- 年
- ヨーク
- 貴社
- あなたの
- ゼファーネット