Trong kỷ nguyên dữ liệu lớn này, các tổ chức trên toàn thế giới không ngừng tìm kiếm những cách sáng tạo để khai thác giá trị và hiểu biết sâu sắc từ bộ dữ liệu khổng lồ của họ. Apache Spark cung cấp khả năng mở rộng và tốc độ cần thiết để xử lý lượng lớn dữ liệu một cách hiệu quả.
Amazon EMR là giải pháp dữ liệu lớn trên đám mây hàng đầu trong ngành để xử lý dữ liệu ở quy mô petabyte, phân tích tương tác và học máy (ML) bằng cách sử dụng các khung nguồn mở như Apache Spark, Tổ ong Apachevà Mau. Amazon EMR là nơi tốt nhất để chạy Apache Spark. Bạn có thể tạo các cụm Spark được quản lý một cách nhanh chóng và dễ dàng từ Bảng điều khiển quản lý AWS, Giao diện dòng lệnh AWS (AWS CLI) hoặc API Amazon EMR. Bạn cũng có thể sử dụng các tính năng bổ sung của Amazon EMR, bao gồm cả tính năng nhanh Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) sử dụng Hệ thống tệp Amazon EMR (EMRFS), tích hợp với Amazon EC2 Spot thị trường và Keo AWS Danh mục dữ liệu và Chia tỷ lệ được quản lý EMR để thêm hoặc xóa phiên bản khỏi cụm của bạn. Phòng thu âm Amazon EMR là một môi trường phát triển tích hợp (IDE) giúp các nhà khoa học dữ liệu và kỹ sư dữ liệu dễ dàng phát triển, trực quan hóa và gỡ lỗi các ứng dụng khoa học dữ liệu và kỹ thuật dữ liệu được viết bằng R, Python, Scala và PySpark. EMR Studio cung cấp sổ ghi chép Jupyter được quản lý hoàn toàn và các công cụ như Spark UI và YARN Timeline Service để đơn giản hóa việc gỡ lỗi.
Để mở khóa tiềm năng tiềm ẩn trong kho dữ liệu, điều cần thiết là phải vượt xa các phân tích truyền thống. Nhập AI sáng tạo, một công nghệ tiên tiến kết hợp ML với khả năng sáng tạo để tạo ra văn bản, nghệ thuật và thậm chí cả mã giống con người. nền tảng Amazon là cách đơn giản nhất để xây dựng và mở rộng quy mô các ứng dụng AI tổng quát bằng các mô hình nền tảng (FM). Amazon Bedrock là một dịch vụ được quản lý hoàn toàn giúp cung cấp FM từ Amazon và các công ty AI hàng đầu thông qua API, do đó bạn có thể nhanh chóng thử nghiệm nhiều loại FM trong sân chơi và sử dụng một API duy nhất để suy luận bất kể mô hình bạn chọn, đưa ra bạn có thể linh hoạt sử dụng FM từ các nhà cung cấp khác nhau và cập nhật các phiên bản mẫu mới nhất với những thay đổi mã tối thiểu.
Trong bài đăng này, chúng tôi khám phá cách bạn có thể tăng cường khả năng phân tích dữ liệu của mình bằng AI tổng quát bằng cách sử dụng Amazon EMR, Amazon Bedrock và pyspark-ai thư viện. Thư viện pyspark-ai là SDK tiếng Anh cho Apache Spark. Nó nhận hướng dẫn bằng tiếng Anh và biên dịch chúng thành các đối tượng PySpark như DataFrames. Điều này giúp làm việc với Spark trở nên đơn giản, cho phép bạn tập trung vào việc trích xuất giá trị từ dữ liệu của mình.
Tổng quan về giải pháp
Sơ đồ sau đây minh họa kiến trúc sử dụng AI tổng hợp với Amazon EMR và Amazon Bedrock.
EMR Studio là một IDE dựa trên web dành cho sổ ghi chép Jupyter được quản lý hoàn toàn chạy trên cụm EMR. Chúng tôi tương tác với Không gian làm việc của EMR Studio được kết nối với cụm EMR đang chạy và chạy sổ ghi chép được cung cấp như một phần của bài đăng này. Chúng tôi sử dụng Taxi thành phố New York dữ liệu để thu thập thông tin chuyên sâu về các chuyến taxi khác nhau của người dùng. Chúng tôi đặt câu hỏi bằng ngôn ngữ tự nhiên dựa trên dữ liệu được tải trong Spark DataFrame. Sau đó, thư viện pyspark-ai sử dụng Amazon Titan Text FM từ Amazon Bedrock để tạo truy vấn SQL dựa trên câu hỏi ngôn ngữ tự nhiên. Thư viện pyspark-ai nhận truy vấn SQL, chạy nó bằng Spark SQL và cung cấp kết quả cho người dùng.
Trong giải pháp này, bạn có thể tạo và đặt cấu hình các tài nguyên cần thiết trong tài khoản AWS của mình bằng Hình thành đám mây AWS bản mẫu. Mẫu này tạo ra Keo AWS cơ sở dữ liệu và bảng, nhóm S3, VPC, v.v. Quản lý truy cập và nhận dạng AWS (IAM) tài nguyên được sử dụng trong giải pháp.
Mẫu này được thiết kế để minh họa cách sử dụng EMR Studio với gói pyspark-ai và Amazon Bedrock. Mẫu này không nhằm mục đích sử dụng trong sản xuất mà không sửa đổi. Ngoài ra, mẫu còn sử dụng us-east-1
Khu vực và có thể không hoạt động ở các Khu vực khác nếu không sửa đổi. Mẫu tạo ra các tài nguyên phát sinh chi phí khi chúng được sử dụng. Thực hiện theo các bước dọn dẹp ở cuối bài đăng này để xóa tài nguyên và tránh các khoản phí không cần thiết.
Điều kiện tiên quyết
Trước khi khởi chạy ngăn xếp CloudFormation, hãy đảm bảo bạn có những điều sau:
- Tài khoản AWS cung cấp quyền truy cập vào các dịch vụ AWS
- Người dùng IAM có khóa truy cập và khóa bí mật để định cấu hình AWS CLI cũng như các quyền để tạo vai trò IAM, chính sách IAM và ngăn xếp trong AWS CloudFormation
- Mẫu Titan Text G1 – Express hiện đang ở chế độ xem trước, vì vậy bạn cần có quyền truy cập xem trước để sử dụng nó như một phần của bài đăng này
Tạo tài nguyên với AWS CloudFormation
CloudFormation tạo ra các tài nguyên AWS sau:
- Ngăn xếp VPC có các mạng con riêng tư và công khai để sử dụng với EMR Studio, bảng định tuyến và cổng NAT.
- Một cụm EMR đã cài đặt Python 3.9. Chúng tôi đang sử dụng hành động khởi động để cài đặt Python 3.9 và các gói có liên quan khác như phần phụ thuộc pyspark-ai và Amazon Bedrock. (Để biết thêm thông tin, hãy tham khảo kịch bản khởi động.)
- Bộ chứa S3 dành cho không gian làm việc EMR Studio và bộ lưu trữ sổ ghi chép.
- Các vai trò và chính sách IAM dành cho thiết lập EMR Studio, quyền truy cập Amazon Bedrock và sổ ghi chép đang chạy
Để bắt đầu, hãy hoàn thành các bước sau:
Ngăn xếp CloudFormation mất khoảng 20–30 phút để hoàn thành. Bạn có thể theo dõi tiến trình của nó trên bảng điều khiển AWS CloudFormation. Khi trạng thái của nó đọc CREATE_COMPLETE
, tài khoản AWS của bạn sẽ có các tài nguyên cần thiết để triển khai giải pháp này.
Tạo EMR Studio
Bây giờ bạn có thể tạo EMR Studio và Workspace để làm việc với mã sổ ghi chép. Hoàn thành các bước sau:
- Trên bảng điều khiển EMR Studio, chọn Tạo Studio.
- Nhập Tên phòng thu as
GenAI-EMR-Studio
và cung cấp một mô tả. - Trong tạp chí Mạng và bảo mật phần, chỉ rõ những nội dung sau:
- Trong VPC, hãy chọn VPC bạn đã tạo như một phần của ngăn xếp CloudFormation mà bạn đã triển khai. Nhận ID VPC bằng cách sử dụng kết quả đầu ra CloudFormation cho khóa VPCID.
- Trong Mạng con, chọn tất cả bốn mạng con.
- Trong Bảo mật và quyền truy cập, lựa chọn Nhóm bảo mật tùy chỉnh.
- Trong Nhóm bảo mật cụm/điểm cuối, chọn
EMRSparkAI-Cluster-Endpoint-SG
. - Trong Nhóm bảo mật không gian làm việc, chọn
EMRSparkAI-Workspace-SG
.
- Trong tạp chí Vai trò dịch vụ studio phần, chỉ rõ những nội dung sau:
- Trong Xác thực, lựa chọn Quản lý truy cập và nhận dạng AWS (IAM).
- Trong Vai trò dịch vụ AWS IAM, chọn
EMRSparkAI-StudioServiceRole
.
- Trong tạp chí Bộ nhớ không gian làm việc phần này, hãy duyệt và chọn nhóm S3 để lưu trữ bắt đầu bằng
emr-sparkai-<account-id>
. - Chọn Tạo Studio.
- Khi EMR Studio được tạo, hãy chọn liên kết bên dưới URL truy cập Studio để truy cập Studio.
- Khi bạn ở trong Studio, hãy chọn Tạo không gian làm việc.
- Thêm
emr-genai
làm tên cho Workspace và chọn Tạo không gian làm việc. - Khi Không gian làm việc được tạo, hãy chọn tên của nó để khởi chạy Không gian làm việc (đảm bảo bạn đã tắt mọi trình chặn cửa sổ bật lên).
Phân tích dữ liệu lớn bằng cách sử dụng Apache Spark với Amazon EMR và AI tổng quát
Bây giờ chúng ta đã hoàn thành quá trình thiết lập bắt buộc, chúng ta có thể bắt đầu thực hiện phân tích dữ liệu lớn bằng Apache Spark với Amazon EMR và AI tổng hợp.
Bước đầu tiên, chúng tôi tải một sổ ghi chép có mã được yêu cầu và các ví dụ để hoạt động với trường hợp sử dụng. Chúng tôi sử dụng tập dữ liệu NY Taxi chứa thông tin chi tiết về các chuyến đi taxi.
- Tải xuống tập tin sổ ghi chép NYTaxi.ipynb và tải nó lên Workspace của bạn bằng cách chọn biểu tượng tải lên.
- Sau khi nhập sổ ghi chép, hãy mở sổ ghi chép và chọn
PySpark
như hạt nhân.
PySpark AI theo mặc định sử dụng ChatGPT4.0 của OpenAI làm mô hình LLM, nhưng bạn cũng có thể cắm các mô hình từ Amazon Bedrock, Khởi động Amazon SageMakervà các mô hình của bên thứ ba khác. Đối với bài đăng này, chúng tôi trình bày cách tích hợp mô hình Amazon Bedrock Titan để tạo truy vấn SQL và chạy mô hình đó với Apache Spark trong Amazon EMR.
- Để bắt đầu với sổ ghi chép, bạn cần liên kết Không gian làm việc với lớp điện toán. Để làm như vậy, hãy chọn Tính biểu tượng trong ngăn điều hướng và chọn cụm EMR được tạo bởi ngăn xếp CloudFormation.
- Định cấu hình các tham số Python để sử dụng gói Python 3.9 được cập nhật với Amazon EMR:
- Nhập các thư viện cần thiết:
- Sau khi nhập thư viện, bạn có thể xác định mô hình LLM từ Amazon Bedrock. Trong trường hợp này, chúng tôi sử dụng amazon.titan-text-express-v1. Bạn cần nhập URL điểm cuối Khu vực và Amazon Bedrock dựa trên quyền truy cập xem trước của bạn đối với mô hình Titan Text G1 – Express.
- Kết nối Spark AI với mô hình Amazon Bedrock LLM để tạo truy vấn SQL dựa trên các câu hỏi bằng ngôn ngữ tự nhiên:
Ở đây, chúng tôi đã khởi tạo Spark AI với Verbose=False; bạn cũng có thể đặt chi tiết=True để xem thêm chi tiết.
Giờ đây, bạn có thể đọc dữ liệu NYC Taxi trong Spark DataFrame và sử dụng sức mạnh của AI tổng hợp trong Spark.
- Ví dụ: bạn có thể hỏi số lượng bản ghi trong tập dữ liệu:
Chúng tôi nhận được phản hồi sau:
Spark AI sử dụng nội bộ LangChain và chuỗi SQL, giúp che giấu sự phức tạp đối với người dùng cuối khi làm việc với các truy vấn trong Spark.
Sổ ghi chép này có thêm một số tình huống mẫu để khám phá sức mạnh của AI tổng hợp với Apache Spark và Amazon EMR.
Làm sạch
Làm trống nội dung của nhóm S3 emr-sparkai-<account-id>
, xóa Không gian làm việc EMR Studio đã tạo trong bài đăng này, sau đó xóa ngăn xếp CloudFormation mà bạn đã triển khai.
Kết luận
Bài đăng này cho thấy cách bạn có thể tăng cường khả năng phân tích dữ liệu lớn của mình với sự trợ giúp của Apache Spark với Amazon EMR và Amazon Bedrock. Gói PySpark AI cho phép bạn rút ra những hiểu biết sâu sắc có ý nghĩa từ dữ liệu của mình. Nó giúp giảm thời gian phát triển và phân tích, giảm thời gian viết các truy vấn thủ công và cho phép bạn tập trung vào trường hợp sử dụng kinh doanh của mình.
Về các tác giả
Saurabh Bhutyani là Kiến trúc sư giải pháp chuyên gia phân tích chính tại AWS. Anh ấy đam mê các công nghệ mới. Anh gia nhập AWS vào năm 2019 và làm việc với khách hàng để cung cấp hướng dẫn về kiến trúc nhằm chạy các trường hợp sử dụng AI tổng quát, các giải pháp phân tích có thể mở rộng và kiến trúc lưới dữ liệu bằng cách sử dụng các dịch vụ AWS như Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, và Amazon DataZone.
Varshhan là Kiến trúc sư giải pháp cấp cao của AWS, chuyên về phân tích. Ông có hơn 8 năm kinh nghiệm làm việc trong lĩnh vực dữ liệu lớn và khoa học dữ liệu. Anh ấy rất nhiệt tình giúp đỡ khách hàng áp dụng các phương pháp hay nhất và khám phá thông tin chuyên sâu từ dữ liệu của họ.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/
- : có
- :là
- :không phải
- $ LÊN
- 1
- 10
- 100
- 107
- 11
- 20
- 200
- 2019
- 320
- 500
- 521
- 7
- 8
- 9
- 990
- a
- Giới thiệu
- truy cập
- Quản lý truy cập
- Tài khoản
- công nhận
- Hoạt động
- thêm vào
- thêm vào
- Ngoài ra
- nhận nuôi
- AI
- trường hợp sử dụng ai
- Tất cả
- Cho phép
- cho phép
- Ngoài ra
- đàn bà gan dạ
- amazon Athena
- Amazon EMR
- Amazon SageMaker
- Amazon Web Services
- số lượng
- an
- phân tích
- phân tích
- và
- trả lời
- bất kì
- Apache
- Apache Spark
- api
- các ứng dụng
- khoảng
- kiến trúc
- kiến trúc
- LÀ
- Nghệ thuật
- AS
- xin
- Liên kết
- At
- có sẵn
- tránh
- AWS
- Hình thành đám mây AWS
- Keo AWS
- Sự hình thành hồ AWS
- trở lại
- dựa
- BEST
- thực hành tốt nhất
- Ngoài
- lớn
- Dữ Liệu Lớn.
- bootstrap
- xây dựng
- kinh doanh
- nhưng
- nút
- by
- CAN
- trường hợp
- trường hợp
- Danh mục hàng
- chuỗi
- Những thay đổi
- tải
- Chọn
- lựa chọn
- City
- đám mây
- dữ liệu lớn trên đám mây
- cụm
- mã
- kết hợp
- Các công ty
- hoàn thành
- Hoàn thành
- phức tạp
- Tính
- kết nối
- Kết nối
- An ủi
- liên tục
- chứa
- nội dung
- Chi phí
- tạo
- tạo ra
- tạo ra
- sáng tạo
- Hiện nay
- khách hàng
- tiên tiến
- dữ liệu
- Phân tích dữ liệu
- xử lý dữ liệu
- khoa học dữ liệu
- Cơ sở dữ liệu
- bộ dữ liệu
- Ngày
- Mặc định
- định nghĩa
- chứng minh
- phụ thuộc
- triển khai
- lấy được
- Mô tả
- thiết kế
- chi tiết
- phát triển
- Phát triển
- khác nhau
- bị vô hiệu hóa
- khám phá
- do
- hiệu quả
- dễ dàng
- cuối
- Điểm cuối
- Kỹ Sư
- Kỹ sư
- Tiếng Anh
- đảm bảo
- đăng ký hạng mục thi
- vào
- Môi trường
- Kỷ nguyên
- thiết yếu
- Ether (ETH)
- Ngay cả
- ví dụ
- ví dụ
- kinh nghiệm
- thử nghiệm
- khám phá
- thể hiện
- trích xuất
- NHANH
- Tính năng
- vài
- lĩnh vực
- Tập tin
- cuối cùng
- Tên
- Linh hoạt
- Tập trung
- theo
- tiếp theo
- Trong
- hình thành
- Nền tảng
- 4
- khung
- từ
- đầy đủ
- g1
- Nha `kho
- cửa ngõ
- tạo ra
- thế hệ
- thế hệ
- Trí tuệ nhân tạo
- được
- Cho
- Go
- hướng dẫn
- Có
- he
- giúp đỡ
- giúp đỡ
- giúp
- Thành viên ẩn danh
- Ẩn giấu
- Độ đáng tin của
- Hướng dẫn
- http
- HTTPS
- i
- IAM
- ICON
- ID
- Bản sắc
- quản lý danh tính và truy cập
- minh họa
- thực hiện
- nhập khẩu
- in
- Mặt khác
- Bao gồm
- đầu ngành
- thông tin
- sáng tạo
- đầu vào
- những hiểu biết
- cài đặt, dựng lên
- trường hợp
- hướng dẫn
- tích hợp
- tích hợp
- hội nhập
- dự định
- tương tác
- tương tác
- nội bộ
- trong
- IT
- ITS
- gia nhập
- jpg
- Giữ
- Key
- Biết
- hồ
- Ngôn ngữ
- lớn
- mới nhất
- phóng
- lớp
- hàng đầu
- học tập
- thư viện
- Thư viện
- Lượt thích
- Dòng
- LINK
- tải
- máy
- học máy
- làm cho
- LÀM CHO
- quản lý
- quản lý
- nhãn hiệu
- thị trường
- Có thể..
- có ý nghĩa
- mắt lưới
- tối thiểu
- phút
- ML
- kiểu mẫu
- mô hình
- Màn Hình
- chi tiết
- hầu hết
- tên
- Tự nhiên
- Ngôn ngữ tự nhiên
- THÔNG TIN
- cần thiết
- Cần
- cần thiết
- mạng lưới
- Mới
- Công nghệ mới
- máy tính xách tay
- máy tính xách tay
- tại
- con số
- NY
- NYC
- đối tượng
- quan sát
- of
- Cung cấp
- on
- mở
- mã nguồn mở
- or
- tổ chức
- Nền tảng khác
- kết quả đầu ra
- kết thúc
- tổng quan
- gói
- gói
- cửa sổ
- thông số
- một phần
- đam mê
- biểu diễn
- quyền
- Nơi
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- sân chơi
- cắm
- Chính sách
- pop-up
- Bài đăng
- tiềm năng
- quyền lực
- thực hành
- Xem trước
- Hiệu trưởng
- riêng
- quá trình
- xử lý
- Sản lượng
- Tiến độ
- cho
- cung cấp
- nhà cung cấp
- cung cấp
- công khai
- Python
- truy vấn
- câu hỏi
- Câu hỏi
- Mau
- R
- Đọc
- hồ sơ
- giảm
- giảm
- xem
- Bất kể
- khu
- vùng
- có liên quan
- tẩy
- cần phải
- Thông tin
- phản ứng
- Kết quả
- rides
- Vai trò
- vai trò
- Route
- chạy
- chạy
- chạy
- nhà làm hiền triết
- Scala
- khả năng mở rộng
- khả năng mở rộng
- Quy mô
- mở rộng quy mô
- kịch bản
- Khoa học
- các nhà khoa học
- sdk
- tìm kiếm
- Bí mật
- an ninh
- xem
- chọn
- cao cấp
- dịch vụ
- DỊCH VỤ
- định
- thiết lập
- hiển thị
- cho thấy
- Đơn giản
- đơn giản hóa
- duy nhất
- So
- giải pháp
- Giải pháp
- nguồn
- Spark
- chuyên gia
- chuyên
- tốc độ
- SQL
- ngăn xếp
- Stacks
- Bắt đầu
- bắt đầu
- Bắt đầu
- Trạng thái
- Bước
- Các bước
- là gắn
- đơn giản
- phòng thu
- mạng con
- như vậy
- siêu phí
- chắc chắn
- hệ thống
- bàn
- Lấy
- mất
- Công nghệ
- Công nghệ
- mẫu
- văn bản
- việc này
- Sản phẩm
- cung cấp their dịch
- Them
- sau đó
- họ
- của bên thứ ba
- điều này
- nghĩ
- Thông qua
- thời gian
- timeline
- titan
- đến
- công cụ
- hàng đầu
- truyền thống
- ui
- Dưới
- mở khóa
- cập nhật
- URL
- sử dụng
- ca sử dụng
- đã sử dụng
- người sử dang
- Người sử dụng
- sử dụng
- sử dụng
- giá trị
- nhiều
- khác nhau
- Lớn
- hình dung
- Đường..
- cách
- we
- web
- các dịch vụ web
- Dựa trên web
- khi nào
- cái nào
- trong khi
- sẽ
- với
- ở trong
- không có
- Công việc
- đang làm việc
- công trinh
- khắp thế giới
- viết
- viết
- năm
- york
- bạn
- trên màn hình
- zephyrnet