Gunakan AI Generatif Dengan Amazon EMR, Amazon Bedrock, dan SDK Bahasa Inggris Untuk Apache Spark Untuk Membuka Wawasan

Diterbitkan Ulang Oleh Plato

Followers: 0

Di era big data ini, organisasi di seluruh dunia terus mencari cara inovatif untuk mengekstraksi nilai dan wawasan dari kumpulan data mereka yang sangat besar. Apache Spark menawarkan skalabilitas dan kecepatan yang dibutuhkan untuk memproses data dalam jumlah besar secara efisien.

Amazon ESDM adalah solusi cloud big data yang terdepan di industri untuk pemrosesan data berskala petabyte, analitik interaktif, dan pembelajaran mesin (ML) menggunakan kerangka kerja sumber terbuka seperti Apache Spark, Sarang Apache, dan Presto. Amazon EMR adalah tempat terbaik untuk menjalankan Apache Spark. Anda dapat dengan cepat dan mudah membuat kluster Spark terkelola dari Konsol Manajemen AWS, Antarmuka Baris Perintah AWS (AWS CLI), atau API Amazon EMR. Anda juga dapat menggunakan fitur tambahan Amazon EMR, termasuk fast Layanan Penyimpanan Sederhana Amazon Konektivitas (Amazon S3) menggunakan Amazon EMR File System (EMRFS), integrasi dengan Tempat Amazon EC2 pasar dan Lem AWS Katalog Data, dan Penskalaan Terkelola EMR untuk menambah atau menghapus instans dari klaster Anda. Studio Amazon EMR adalah lingkungan pengembangan terintegrasi (IDE) yang memudahkan ilmuwan data dan insinyur data untuk mengembangkan, memvisualisasikan, dan men-debug aplikasi rekayasa data dan ilmu data yang ditulis dalam R, Python, Scala, dan PySpark. EMR Studio menyediakan notebook Jupyter yang dikelola sepenuhnya, dan alat seperti Spark UI dan YARN Timeline Service untuk menyederhanakan proses debug.

Untuk membuka potensi yang tersembunyi dalam kumpulan data, penting untuk melampaui analisis tradisional. Masukkan AI generatif, teknologi mutakhir yang menggabungkan ML dengan kreativitas untuk menghasilkan teks, seni, dan bahkan kode yang mirip manusia. Batuan Dasar Amazon adalah cara paling mudah untuk membangun dan menskalakan aplikasi AI generatif dengan model dasar (FM). Amazon Bedrock adalah layanan terkelola sepenuhnya yang membuat FM dari Amazon dan perusahaan AI terkemuka tersedia melalui API, sehingga Anda dapat dengan cepat bereksperimen dengan berbagai FM di taman bermain, dan menggunakan satu API untuk inferensi terlepas dari model yang Anda pilih, sehingga memberikan Anda memiliki fleksibilitas untuk menggunakan FM dari penyedia berbeda dan selalu mengikuti perkembangan versi model terbaru dengan perubahan kode minimal.

Dalam postingan ini, kami mengeksplorasi bagaimana Anda dapat meningkatkan analisis data Anda dengan AI generatif menggunakan Amazon EMR, Amazon Bedrock, dan pyspark-ai perpustakaan. Pustaka pyspark-ai adalah SDK bahasa Inggris untuk Apache Spark. Dibutuhkan instruksi dalam bahasa Inggris dan mengkompilasinya menjadi objek PySpark seperti DataFrames. Hal ini memudahkan penggunaan Spark, sehingga Anda dapat fokus dalam mengekstraksi nilai dari data Anda.

Ikhtisar solusi

Diagram berikut mengilustrasikan arsitektur penggunaan AI generatif dengan Amazon EMR dan Amazon Bedrock.

Ikhtisar Solusi

EMR Studio adalah IDE berbasis web untuk notebook Jupyter yang terkelola sepenuhnya dan berjalan di kluster EMR. Kami berinteraksi dengan Ruang Kerja EMR Studio yang terhubung ke kluster EMR yang sedang berjalan dan menjalankan notebook yang disediakan sebagai bagian dari postingan ini. Kami menggunakan Taksi Kota New York data untuk mengumpulkan wawasan tentang berbagai perjalanan taksi yang dilakukan oleh pengguna. Kami mengajukan pertanyaan dalam bahasa alami di atas data yang dimuat di Spark DataFrame. Pustaka pyspark-ai kemudian menggunakan Amazon Titan Text FM dari Amazon Bedrock untuk membuat kueri SQL berdasarkan pertanyaan bahasa alami. Pustaka pyspark-ai mengambil kueri SQL, menjalankannya menggunakan Spark SQL, dan memberikan hasilnya kembali kepada pengguna.

Dalam solusi ini, Anda dapat membuat dan mengonfigurasi sumber daya yang diperlukan di akun AWS Anda dengan Formasi AWS Cloud templat. Templat menciptakan Lem AWS database dan tabel, bucket S3, VPC, dan lainnya Identitas AWS dan Manajemen Akses (IAM) sumber daya yang digunakan dalam solusi.

Templat ini dirancang untuk menunjukkan cara menggunakan EMR Studio dengan paket pyspark-ai dan Amazon Bedrock, dan tidak dimaksudkan untuk penggunaan produksi tanpa modifikasi. Selain itu, templatnya menggunakan us-east-1 Wilayah dan tidak dapat berfungsi di Wilayah lain tanpa modifikasi. Templat ini menciptakan sumber daya yang menimbulkan biaya saat digunakan. Ikuti langkah pembersihan di akhir postingan ini untuk menghapus sumber daya dan menghindari biaya yang tidak perlu.

Prasyarat

Sebelum Anda meluncurkan tumpukan CloudFormation, pastikan Anda memiliki hal berikut:

Akun AWS yang menyediakan akses ke layanan AWS
Pengguna IAM dengan access key dan secret key untuk mengonfigurasi AWS CLI, dan izin untuk membuat IAM role, kebijakan IAM, dan tumpukan di AWS CloudFormation
Titan Text G1 – Model Ekspres saat ini dalam pratinjau, jadi Anda harus memiliki akses pratinjau untuk menggunakannya sebagai bagian dari postingan ini

Buat sumber daya dengan AWS CloudFormation

CloudFormation membuat sumber daya AWS berikut:

Tumpukan VPC dengan subnet privat dan publik untuk digunakan dengan EMR Studio, tabel rute, dan gateway NAT.
Klaster EMR dengan Python 3.9 terinstal. Kami menggunakan tindakan bootstrap untuk menginstal Python 3.9 dan paket relevan lainnya seperti dependensi pyspark-ai dan Amazon Bedrock. (Untuk informasi lebih lanjut, lihat skrip bootstrap.)
Bucket S3 untuk EMR Studio Workspace dan penyimpanan notebook.
Peran dan kebijakan IAM untuk pengaturan EMR Studio, akses Amazon Bedrock, dan menjalankan notebook

Untuk memulai, selesaikan langkah-langkah berikut:

Pilih Luncurkan Tumpukan:
Pilih Saya mengakui bahwa templat ini dapat membuat sumber daya IAM.

Tumpukan CloudFormation membutuhkan waktu sekitar 20–30 menit untuk diselesaikan. Anda dapat memantau kemajuannya di konsol AWS CloudFormation. Saat statusnya terbaca CREATE_COMPLETE, akun AWS Anda akan memiliki sumber daya yang diperlukan untuk mengimplementasikan solusi ini.

Buat Studio ESDM

Sekarang Anda dapat membuat EMR Studio dan Workspace untuk bekerja dengan kode notebook. Selesaikan langkah-langkah berikut:

Di konsol EMR Studio, pilih Buat Studio.
Masukkan Nama Studio as GenAI-EMR-Studio dan berikan deskripsinya.
Dalam majalah Jaringan dan keamanan bagian, tentukan hal berikut:
- Untuk VPC, pilih VPC yang Anda buat sebagai bagian dari tumpukan CloudFormation yang Anda terapkan. Dapatkan ID VPC menggunakan output CloudFormation untuk kunci VPCID.
- Untuk Subnet, pilih keempat subnet.
- Untuk Keamanan dan akses, pilih Grup keamanan khusus.
- Untuk Grup keamanan klaster/titik akhir, pilih EMRSparkAI-Cluster-Endpoint-SG.
- Untuk Grup keamanan ruang kerja, pilih EMRSparkAI-Workspace-SG.
Dalam majalah Peran layanan studio bagian, tentukan hal berikut:
- Untuk Otentikasi, pilih Identitas dan Manajemen Akses AWS (IAM).
- Untuk Peran layanan AWS IAM, pilih EMRSparkAI-StudioServiceRole.
Dalam majalah Penyimpanan ruang kerja bagian, telusuri dan pilih bucket S3 untuk penyimpanan dimulai emr-sparkai-<account-id>.
Pilih Buat Studio.
Saat EMR Studio dibuat, pilih tautan di bawah URL Akses Studio untuk mengakses Studio.
Saat Anda berada di Studio, pilih Buat ruang kerja.
Add emr-genai sebagai nama untuk Ruang Kerja dan pilih Buat ruang kerja.
Saat Ruang Kerja dibuat, pilih namanya untuk meluncurkan Ruang Kerja (pastikan Anda telah menonaktifkan pemblokir pop-up apa pun).

Analisis data besar menggunakan Apache Spark dengan Amazon EMR dan AI generatif

Sekarang setelah kami menyelesaikan penyiapan yang diperlukan, kami dapat mulai melakukan analisis big data menggunakan Apache Spark dengan Amazon EMR dan AI generatif.

Sebagai langkah pertama, kami memuat buku catatan yang memiliki kode dan contoh yang diperlukan untuk bekerja dengan kasus penggunaan. Kami menggunakan kumpulan data NY Taxi, yang berisi detail tentang naik taksi.

Unduh file buku catatan NYTaxi.ipynb dan unggah ke Ruang Kerja Anda dengan memilih ikon unggah.
Setelah buku catatan diimpor, buka buku catatan dan pilih PySpark sebagai kernel.

AI PySpark secara default menggunakan ChatGPT4.0 OpenAI sebagai model LLM, tetapi Anda juga dapat menyambungkan model dari Amazon Bedrock, Mulai Lompatan Amazon SageMaker, dan model pihak ketiga lainnya. Untuk postingan ini, kami menunjukkan cara mengintegrasikan model Amazon Bedrock Titan untuk pembuatan kueri SQL dan menjalankannya dengan Apache Spark di Amazon EMR.

Untuk memulai dengan notebook, Anda perlu mengaitkan Ruang Kerja ke lapisan komputasi. Untuk melakukannya, pilih menghitung ikon di panel navigasi dan pilih klaster EMR yang dibuat oleh tumpukan CloudFormation.

Konfigurasikan parameter Python untuk menggunakan paket Python 3.9 yang diperbarui dengan Amazon EMR:

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

Impor perpustakaan yang diperlukan:

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

Setelah perpustakaan diimpor, Anda dapat menentukan model LLM dari Amazon Bedrock. Dalam hal ini, kami menggunakan amazon.titan-text-express-v1. Anda harus memasukkan URL titik akhir Wilayah dan Amazon Bedrock berdasarkan akses pratinjau Anda untuk model Titan Text G1 – Express.
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```
Hubungkan Spark AI ke model Amazon Bedrock LLM untuk pembuatan kueri SQL berdasarkan pertanyaan dalam bahasa alami:
```
#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()
```

Di sini, kami telah menginisialisasi Spark AI dengan verbose=False; Anda juga dapat mengatur verbose=True untuk melihat detail lebih lanjut.

Sekarang Anda dapat membaca data Taksi NYC di Spark DataFrame dan menggunakan kekuatan AI generatif di Spark.

Misalnya, Anda dapat menanyakan hitungan jumlah rekaman dalam kumpulan data:

taxi_records.ai.transform("count the number of records in this dataset").show()

Kami mendapatkan tanggapan berikut:

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

Spark AI digunakan secara internal LangChain dan rantai SQL, yang menyembunyikan kompleksitas dari pengguna akhir yang bekerja dengan kueri di Spark.

Notebook ini memiliki beberapa contoh skenario lagi untuk mengeksplorasi kekuatan AI generatif dengan Apache Spark dan Amazon EMR.

Membersihkan

Kosongkan isi ember S3 emr-sparkai-<account-id>, hapus Ruang Kerja EMR Studio yang dibuat sebagai bagian dari postingan ini, lalu hapus tumpukan CloudFormation yang Anda terapkan.

Kesimpulan

Postingan ini menunjukkan bagaimana Anda dapat meningkatkan analitik data besar Anda dengan bantuan Apache Spark dengan Amazon EMR dan Amazon Bedrock. Paket PySpark AI memungkinkan Anda memperoleh wawasan bermakna dari data Anda. Ini membantu mengurangi waktu pengembangan dan analisis, mengurangi waktu untuk menulis kueri manual, dan memungkinkan Anda fokus pada kasus penggunaan bisnis Anda.

Tentang Penulis

Saurabh Bhutyani adalah Arsitek Solusi Spesialis Analisis Utama di AWS. Dia bersemangat tentang teknologi baru. Dia bergabung dengan AWS pada tahun 2019 dan bekerja dengan pelanggan untuk memberikan panduan arsitektur untuk menjalankan kasus penggunaan AI generatif, solusi analitik yang dapat diskalakan, dan arsitektur data mesh menggunakan layanan AWS seperti Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, dan Amazon DataZone.

Harsh Vardhan adalah Arsitek Solusi Senior AWS, yang berspesialisasi dalam analitik. Beliau memiliki pengalaman lebih dari 8 tahun bekerja di bidang big data dan ilmu data. Dia bersemangat membantu pelanggan menerapkan praktik terbaik dan menemukan wawasan dari data mereka.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

Stempel Waktu: November 16, 2023

Stempel Waktu: November 15, 2023

Gunakan AI generatif dengan Amazon EMR, Amazon Bedrock, dan SDK Bahasa Inggris untuk Apache Spark untuk membuka wawasan | Layanan Web Amazon

Diterbitkan Ulang Oleh Plato

Ikhtisar solusi

Prasyarat

Buat sumber daya dengan AWS CloudFormation

Buat Studio ESDM

Analisis data besar menggunakan Apache Spark dengan Amazon EMR dan AI generatif

Membersihkan

Kesimpulan

Tentang Penulis

Lebih dari Data Besar AWS

Amazon QuickSight membantu TalentReef memberdayakan pelanggannya untuk membuat keputusan perekrutan yang lebih tepat

Memuat data secara bertahap dari data lake transaksional ke gudang data | Layanan Web Amazon

Visualisasikan data multivariasi menggunakan bagan radar di Amazon QuickSight

Memperkenalkan dukungan VPC bersama di Amazon MWAA | Layanan Web Amazon

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun