Sử dụng AI sáng tạo với Amazon EMR, Amazon Bedrock và SDK tiếng Anh cho Apache Spark để mở khóa thông tin chi tiết | Dịch vụ web của Amazon

Được xuất bản lại bởi Plato

Người theo dõi: 0

Trong kỷ nguyên dữ liệu lớn này, các tổ chức trên toàn thế giới không ngừng tìm kiếm những cách sáng tạo để khai thác giá trị và hiểu biết sâu sắc từ bộ dữ liệu khổng lồ của họ. Apache Spark cung cấp khả năng mở rộng và tốc độ cần thiết để xử lý lượng lớn dữ liệu một cách hiệu quả.

Amazon EMR là giải pháp dữ liệu lớn trên đám mây hàng đầu trong ngành để xử lý dữ liệu ở quy mô petabyte, phân tích tương tác và học máy (ML) bằng cách sử dụng các khung nguồn mở như Apache Spark, Tổ ong Apachevà Mau. Amazon EMR là nơi tốt nhất để chạy Apache Spark. Bạn có thể tạo các cụm Spark được quản lý một cách nhanh chóng và dễ dàng từ Bảng điều khiển quản lý AWS, Giao diện dòng lệnh AWS (AWS CLI) hoặc API Amazon EMR. Bạn cũng có thể sử dụng các tính năng bổ sung của Amazon EMR, bao gồm cả tính năng nhanh Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) sử dụng Hệ thống tệp Amazon EMR (EMRFS), tích hợp với Amazon EC2 Spot thị trường và Keo AWS Danh mục dữ liệu và Chia tỷ lệ được quản lý EMR để thêm hoặc xóa phiên bản khỏi cụm của bạn. Phòng thu âm Amazon EMR là một môi trường phát triển tích hợp (IDE) giúp các nhà khoa học dữ liệu và kỹ sư dữ liệu dễ dàng phát triển, trực quan hóa và gỡ lỗi các ứng dụng khoa học dữ liệu và kỹ thuật dữ liệu được viết bằng R, Python, Scala và PySpark. EMR Studio cung cấp sổ ghi chép Jupyter được quản lý hoàn toàn và các công cụ như Spark UI và YARN Timeline Service để đơn giản hóa việc gỡ lỗi.

Để mở khóa tiềm năng tiềm ẩn trong kho dữ liệu, điều cần thiết là phải vượt xa các phân tích truyền thống. Nhập AI sáng tạo, một công nghệ tiên tiến kết hợp ML với khả năng sáng tạo để tạo ra văn bản, nghệ thuật và thậm chí cả mã giống con người. nền tảng Amazon là cách đơn giản nhất để xây dựng và mở rộng quy mô các ứng dụng AI tổng quát bằng các mô hình nền tảng (FM). Amazon Bedrock là một dịch vụ được quản lý hoàn toàn giúp cung cấp FM từ Amazon và các công ty AI hàng đầu thông qua API, do đó bạn có thể nhanh chóng thử nghiệm nhiều loại FM trong sân chơi và sử dụng một API duy nhất để suy luận bất kể mô hình bạn chọn, đưa ra bạn có thể linh hoạt sử dụng FM từ các nhà cung cấp khác nhau và cập nhật các phiên bản mẫu mới nhất với những thay đổi mã tối thiểu.

Trong bài đăng này, chúng tôi khám phá cách bạn có thể tăng cường khả năng phân tích dữ liệu của mình bằng AI tổng quát bằng cách sử dụng Amazon EMR, Amazon Bedrock và pyspark-ai thư viện. Thư viện pyspark-ai là SDK tiếng Anh cho Apache Spark. Nó nhận hướng dẫn bằng tiếng Anh và biên dịch chúng thành các đối tượng PySpark như DataFrames. Điều này giúp làm việc với Spark trở nên đơn giản, cho phép bạn tập trung vào việc trích xuất giá trị từ dữ liệu của mình.

Tổng quan về giải pháp

Sơ đồ sau đây minh họa kiến trúc sử dụng AI tổng hợp với Amazon EMR và Amazon Bedrock.

Tổng quan về giải pháp

EMR Studio là một IDE dựa trên web dành cho sổ ghi chép Jupyter được quản lý hoàn toàn chạy trên cụm EMR. Chúng tôi tương tác với Không gian làm việc của EMR Studio được kết nối với cụm EMR đang chạy và chạy sổ ghi chép được cung cấp như một phần của bài đăng này. Chúng tôi sử dụng Taxi thành phố New York dữ liệu để thu thập thông tin chuyên sâu về các chuyến taxi khác nhau của người dùng. Chúng tôi đặt câu hỏi bằng ngôn ngữ tự nhiên dựa trên dữ liệu được tải trong Spark DataFrame. Sau đó, thư viện pyspark-ai sử dụng Amazon Titan Text FM từ Amazon Bedrock để tạo truy vấn SQL dựa trên câu hỏi ngôn ngữ tự nhiên. Thư viện pyspark-ai nhận truy vấn SQL, chạy nó bằng Spark SQL và cung cấp kết quả cho người dùng.

Trong giải pháp này, bạn có thể tạo và đặt cấu hình các tài nguyên cần thiết trong tài khoản AWS của mình bằng Hình thành đám mây AWS bản mẫu. Mẫu này tạo ra Keo AWS cơ sở dữ liệu và bảng, nhóm S3, VPC, v.v. Quản lý truy cập và nhận dạng AWS (IAM) tài nguyên được sử dụng trong giải pháp.

Mẫu này được thiết kế để minh họa cách sử dụng EMR Studio với gói pyspark-ai và Amazon Bedrock. Mẫu này không nhằm mục đích sử dụng trong sản xuất mà không sửa đổi. Ngoài ra, mẫu còn sử dụng us-east-1 Khu vực và có thể không hoạt động ở các Khu vực khác nếu không sửa đổi. Mẫu tạo ra các tài nguyên phát sinh chi phí khi chúng được sử dụng. Thực hiện theo các bước dọn dẹp ở cuối bài đăng này để xóa tài nguyên và tránh các khoản phí không cần thiết.

Điều kiện tiên quyết

Trước khi khởi chạy ngăn xếp CloudFormation, hãy đảm bảo bạn có những điều sau:

Tài khoản AWS cung cấp quyền truy cập vào các dịch vụ AWS
Người dùng IAM có khóa truy cập và khóa bí mật để định cấu hình AWS CLI cũng như các quyền để tạo vai trò IAM, chính sách IAM và ngăn xếp trong AWS CloudFormation
Mẫu Titan Text G1 – Express hiện đang ở chế độ xem trước, vì vậy bạn cần có quyền truy cập xem trước để sử dụng nó như một phần của bài đăng này

Tạo tài nguyên với AWS CloudFormation

CloudFormation tạo ra các tài nguyên AWS sau:

Ngăn xếp VPC có các mạng con riêng tư và công khai để sử dụng với EMR Studio, bảng định tuyến và cổng NAT.
Một cụm EMR đã cài đặt Python 3.9. Chúng tôi đang sử dụng hành động khởi động để cài đặt Python 3.9 và các gói có liên quan khác như phần phụ thuộc pyspark-ai và Amazon Bedrock. (Để biết thêm thông tin, hãy tham khảo kịch bản khởi động.)
Bộ chứa S3 dành cho không gian làm việc EMR Studio và bộ lưu trữ sổ ghi chép.
Các vai trò và chính sách IAM dành cho thiết lập EMR Studio, quyền truy cập Amazon Bedrock và sổ ghi chép đang chạy

Để bắt đầu, hãy hoàn thành các bước sau:

Chọn Khởi chạy ngăn xếp:
Chọn Tôi xác nhận rằng mẫu này có thể tạo tài nguyên IAM.

Ngăn xếp CloudFormation mất khoảng 20–30 phút để hoàn thành. Bạn có thể theo dõi tiến trình của nó trên bảng điều khiển AWS CloudFormation. Khi trạng thái của nó đọc CREATE_COMPLETE, tài khoản AWS của bạn sẽ có các tài nguyên cần thiết để triển khai giải pháp này.

Tạo EMR Studio

Bây giờ bạn có thể tạo EMR Studio và Workspace để làm việc với mã sổ ghi chép. Hoàn thành các bước sau:

Trên bảng điều khiển EMR Studio, chọn Tạo Studio.
Nhập Tên phòng thu as GenAI-EMR-Studio và cung cấp một mô tả.
Trong tạp chí Mạng và bảo mật phần, chỉ rõ những nội dung sau:
- Trong VPC, hãy chọn VPC bạn đã tạo như một phần của ngăn xếp CloudFormation mà bạn đã triển khai. Nhận ID VPC bằng cách sử dụng kết quả đầu ra CloudFormation cho khóa VPCID.
- Trong Mạng con, chọn tất cả bốn mạng con.
- Trong Bảo mật và quyền truy cập, lựa chọn Nhóm bảo mật tùy chỉnh.
- Trong Nhóm bảo mật cụm/điểm cuối, chọn EMRSparkAI-Cluster-Endpoint-SG.
- Trong Nhóm bảo mật không gian làm việc, chọn EMRSparkAI-Workspace-SG.
Trong tạp chí Vai trò dịch vụ studio phần, chỉ rõ những nội dung sau:
- Trong Xác thực, lựa chọn Quản lý truy cập và nhận dạng AWS (IAM).
- Trong Vai trò dịch vụ AWS IAM, chọn EMRSparkAI-StudioServiceRole.
Trong tạp chí Bộ nhớ không gian làm việc phần này, hãy duyệt và chọn nhóm S3 để lưu trữ bắt đầu bằng emr-sparkai-<account-id>.
Chọn Tạo Studio.
Khi EMR Studio được tạo, hãy chọn liên kết bên dưới URL truy cập Studio để truy cập Studio.
Khi bạn ở trong Studio, hãy chọn Tạo không gian làm việc.
Thêm emr-genai làm tên cho Workspace và chọn Tạo không gian làm việc.
Khi Không gian làm việc được tạo, hãy chọn tên của nó để khởi chạy Không gian làm việc (đảm bảo bạn đã tắt mọi trình chặn cửa sổ bật lên).

Phân tích dữ liệu lớn bằng cách sử dụng Apache Spark với Amazon EMR và AI tổng quát

Bây giờ chúng ta đã hoàn thành quá trình thiết lập bắt buộc, chúng ta có thể bắt đầu thực hiện phân tích dữ liệu lớn bằng Apache Spark với Amazon EMR và AI tổng hợp.

Bước đầu tiên, chúng tôi tải một sổ ghi chép có mã được yêu cầu và các ví dụ để hoạt động với trường hợp sử dụng. Chúng tôi sử dụng tập dữ liệu NY Taxi chứa thông tin chi tiết về các chuyến đi taxi.

Tải xuống tập tin sổ ghi chép NYTaxi.ipynb và tải nó lên Workspace của bạn bằng cách chọn biểu tượng tải lên.
Sau khi nhập sổ ghi chép, hãy mở sổ ghi chép và chọn PySpark như hạt nhân.

PySpark AI theo mặc định sử dụng ChatGPT4.0 của OpenAI làm mô hình LLM, nhưng bạn cũng có thể cắm các mô hình từ Amazon Bedrock, Khởi động Amazon SageMakervà các mô hình của bên thứ ba khác. Đối với bài đăng này, chúng tôi trình bày cách tích hợp mô hình Amazon Bedrock Titan để tạo truy vấn SQL và chạy mô hình đó với Apache Spark trong Amazon EMR.

Để bắt đầu với sổ ghi chép, bạn cần liên kết Không gian làm việc với lớp điện toán. Để làm như vậy, hãy chọn Tính biểu tượng trong ngăn điều hướng và chọn cụm EMR được tạo bởi ngăn xếp CloudFormation.

Định cấu hình các tham số Python để sử dụng gói Python 3.9 được cập nhật với Amazon EMR:

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

Nhập các thư viện cần thiết:

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

Sau khi nhập thư viện, bạn có thể xác định mô hình LLM từ Amazon Bedrock. Trong trường hợp này, chúng tôi sử dụng amazon.titan-text-express-v1. Bạn cần nhập URL điểm cuối Khu vực và Amazon Bedrock dựa trên quyền truy cập xem trước của bạn đối với mô hình Titan Text G1 – Express.
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```
Kết nối Spark AI với mô hình Amazon Bedrock LLM để tạo truy vấn SQL dựa trên các câu hỏi bằng ngôn ngữ tự nhiên:
```
#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()
```

Ở đây, chúng tôi đã khởi tạo Spark AI với Verbose=False; bạn cũng có thể đặt chi tiết=True để xem thêm chi tiết.

Giờ đây, bạn có thể đọc dữ liệu NYC Taxi trong Spark DataFrame và sử dụng sức mạnh của AI tổng hợp trong Spark.

Ví dụ: bạn có thể hỏi số lượng bản ghi trong tập dữ liệu:
```
taxi_records.ai.transform("count the number of records in this dataset").show()
```

Chúng tôi nhận được phản hồi sau:

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

Spark AI sử dụng nội bộ LangChain và chuỗi SQL, giúp che giấu sự phức tạp đối với người dùng cuối khi làm việc với các truy vấn trong Spark.

Sổ ghi chép này có thêm một số tình huống mẫu để khám phá sức mạnh của AI tổng hợp với Apache Spark và Amazon EMR.

Làm sạch

Làm trống nội dung của nhóm S3 emr-sparkai-<account-id>, xóa Không gian làm việc EMR Studio đã tạo trong bài đăng này, sau đó xóa ngăn xếp CloudFormation mà bạn đã triển khai.

Kết luận

Bài đăng này cho thấy cách bạn có thể tăng cường khả năng phân tích dữ liệu lớn của mình với sự trợ giúp của Apache Spark với Amazon EMR và Amazon Bedrock. Gói PySpark AI cho phép bạn rút ra những hiểu biết sâu sắc có ý nghĩa từ dữ liệu của mình. Nó giúp giảm thời gian phát triển và phân tích, giảm thời gian viết các truy vấn thủ công và cho phép bạn tập trung vào trường hợp sử dụng kinh doanh của mình.

Về các tác giả

Saurabh Bhutyani là Kiến trúc sư giải pháp chuyên gia phân tích chính tại AWS. Anh ấy đam mê các công nghệ mới. Anh gia nhập AWS vào năm 2019 và làm việc với khách hàng để cung cấp hướng dẫn về kiến trúc nhằm chạy các trường hợp sử dụng AI tổng quát, các giải pháp phân tích có thể mở rộng và kiến trúc lưới dữ liệu bằng cách sử dụng các dịch vụ AWS như Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, và Amazon DataZone.

Varshhan là Kiến trúc sư giải pháp cấp cao của AWS, chuyên về phân tích. Ông có hơn 8 năm kinh nghiệm làm việc trong lĩnh vực dữ liệu lớn và khoa học dữ liệu. Anh ấy rất nhiệt tình giúp đỡ khách hàng áp dụng các phương pháp hay nhất và khám phá thông tin chuyên sâu từ dữ liệu của họ.

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

Dấu thời gian: Tháng Mười Một 16, 2023

Dấu thời gian: Tháng Mười 2, 2023

Sử dụng AI tổng hợp với Amazon EMR, Amazon Bedrock và SDK tiếng Anh cho Apache Spark để khám phá những hiểu biết sâu sắc | Dịch vụ web của Amazon

Được xuất bản lại bởi Plato

Tổng quan về giải pháp

Điều kiện tiên quyết

Tạo tài nguyên với AWS CloudFormation

Tạo EMR Studio

Phân tích dữ liệu lớn bằng cách sử dụng Apache Spark với Amazon EMR và AI tổng quát

Làm sạch

Kết luận

Về các tác giả

Thêm từ Dữ liệu lớn AWS

Triển khai quy trình CDC serverless với Apache Iceberg bằng cách sử dụng Amazon DynamoDB và Amazon Athena | Dịch vụ web của Amazon

Tham gia nguồn dữ liệu phát trực tuyến với dữ liệu CDC để phân tích dữ liệu không cần máy chủ theo thời gian thực bằng AWS Glue, AWS DMS và Amazon DynamoDB | Dịch vụ web của Amazon

Defontana cung cấp giải pháp quản trị kinh doanh cho khách hàng Mỹ Latinh sử dụng Amazon QuickSight | Dịch vụ web của Amazon

Kết nối với Amazon MSK Serverless từ mạng tại chỗ của bạn

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản