Đơn giản hóa việc xử lý dữ liệu tại Capitec với tích hợp Amazon Redshift cho Apache Spark | Dịch vụ web của Amazon

Được xuất bản lại bởi Plato

Người theo dõi: 0

Bài đăng này được đồng viết với Preshen Goobiah và Johan Olivier từ Capitec.

Apache Spark là một hệ thống xử lý phân tán nguồn mở được sử dụng rộng rãi nổi tiếng để xử lý khối lượng công việc dữ liệu quy mô lớn. Nó tìm thấy ứng dụng thường xuyên trong số các nhà phát triển Spark làm việc với Amazon EMR, Amazon SageMaker, Keo AWS và các ứng dụng Spark tùy chỉnh.

Amazon RedShift cung cấp khả năng tích hợp liền mạch với Apache Spark, cho phép bạn dễ dàng truy cập dữ liệu Redshift của mình trên cả cụm được cung cấp Amazon Redshift và Amazon Redshift không có máy chủ. Sự tích hợp này mở rộng khả năng cho các giải pháp phân tích và học máy (ML) của AWS, giúp kho dữ liệu có thể truy cập được với nhiều ứng dụng hơn.

Với Tích hợp Amazon Redshift cho Apache Spark, bạn có thể nhanh chóng bắt đầu và dễ dàng phát triển các ứng dụng Spark bằng các ngôn ngữ phổ biến như Java, Scala, Python, SQL và R. Các ứng dụng của bạn có thể đọc và ghi liền mạch vào kho dữ liệu Amazon Redshift trong khi vẫn duy trì hiệu suất tối ưu và tính nhất quán trong giao dịch. Ngoài ra, bạn sẽ được hưởng lợi từ các cải tiến hiệu suất thông qua tối ưu hóa đẩy xuống, nâng cao hơn nữa hiệu quả hoạt động của bạn.

Capitec, ngân hàng bán lẻ lớn nhất Nam Phi với hơn 21 triệu khách hàng ngân hàng bán lẻ, nhằm mục đích cung cấp các dịch vụ tài chính đơn giản, giá cả phải chăng và dễ tiếp cận nhằm giúp người dân Nam Phi sử dụng ngân hàng tốt hơn để họ có thể sống tốt hơn. Trong bài đăng này, chúng tôi thảo luận về việc tích hợp thành công trình kết nối Amazon Redshift nguồn mở bởi nhóm Nền tảng tính năng dịch vụ chia sẻ của Capitec. Nhờ sử dụng tính năng tích hợp Amazon Redshift cho Apache Spark, năng suất của nhà phát triển đã tăng lên gấp 10 lần, quy trình tạo tính năng được sắp xếp hợp lý và tình trạng trùng lặp dữ liệu giảm xuống mức XNUMX.

Cơ hội kinh doanh

Có 19 mô hình dự đoán trong phạm vi sử dụng 93 tính năng được xây dựng bằng AWS Glue trên các bộ phận Tín dụng Bán lẻ của Capitec. Bản ghi tính năng được bổ sung thêm dữ kiện và kích thước được lưu trữ trong Amazon Redshift. Apache PySpark được chọn để tạo ra các tính năng vì nó cung cấp cơ chế nhanh chóng, phi tập trung và có thể mở rộng để sắp xếp dữ liệu từ nhiều nguồn khác nhau.

Các tính năng sản xuất này đóng một vai trò quan trọng trong việc hỗ trợ các ứng dụng cho vay có thời hạn cố định theo thời gian thực, ứng dụng thẻ tín dụng, giám sát hành vi tín dụng hàng tháng và xác định mức lương hàng ngày trong doanh nghiệp.

Vấn đề tìm nguồn dữ liệu

Để đảm bảo độ tin cậy của đường dẫn dữ liệu PySpark, điều cần thiết là phải có dữ liệu cấp bản ghi nhất quán từ cả bảng thứ nguyên và bảng thực tế được lưu trữ trong Kho dữ liệu doanh nghiệp (EDW). Sau đó, các bảng này được nối với các bảng từ Hồ dữ liệu doanh nghiệp (EDL) trong thời gian chạy.

Trong quá trình phát triển tính năng, các kỹ sư dữ liệu yêu cầu giao diện liền mạch với EDW. Giao diện này cho phép họ truy cập và tích hợp dữ liệu cần thiết từ EDW vào đường dẫn dữ liệu, cho phép phát triển và thử nghiệm các tính năng một cách hiệu quả.

Quy trình giải quyết trước đó

Trong giải pháp trước đó, các kỹ sư dữ liệu của nhóm sản phẩm đã dành 30 phút mỗi lần chạy để hiển thị dữ liệu Redshift cho Spark theo cách thủ công. Các bước bao gồm:

Xây dựng một truy vấn xác định bằng Python.
Gửi một BỎ TẢI truy vấn thông qua API dữ liệu Redshift của Amazon.
Dữ liệu danh mục trong Danh mục dữ liệu AWS Glue thông qua AWS SDK dành cho Pandas bằng cách sử dụng phương pháp lấy mẫu.

Cách tiếp cận này đặt ra các vấn đề đối với các tập dữ liệu lớn, yêu cầu nhóm nền tảng phải bảo trì định kỳ và rất phức tạp để tự động hóa.

Tổng quan về giải pháp hiện tại

Capitec đã có thể giải quyết những vấn đề này nhờ tích hợp Amazon Redshift cho Apache Spark trong quy trình tạo tính năng. Kiến trúc được xác định trong sơ đồ sau.

Quy trình làm việc bao gồm các bước sau:

Các thư viện nội bộ được cài đặt vào công việc AWS Glue PySpark thông qua Mã AWSArtifact.
Tác vụ AWS Glue truy xuất thông tin xác thực cụm Redshift từ Quản lý bí mật AWS và thiết lập kết nối Amazon Redshift (chèn thông tin xác thực cụm, vị trí dỡ tải, định dạng tệp) thông qua thư viện nội bộ được chia sẻ. Tích hợp Amazon Redshift cho Apache Spark cũng hỗ trợ sử dụng Quản lý truy cập và nhận dạng AWS (IAM) đến truy xuất thông tin xác thực và kết nối với Amazon Redshift.
Truy vấn Spark được dịch sang truy vấn được tối ưu hóa Amazon Redshift và gửi tới EDW. Điều này được thực hiện nhờ tích hợp Amazon Redshift cho Apache Spark.
Tập dữ liệu EDW được tải xuống tiền tố tạm thời trong Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) xô.
Tập dữ liệu EDW từ nhóm S3 được tải vào trình thực thi Spark thông qua tích hợp Amazon Redshift cho Apache Spark.
Tập dữ liệu EDL được tải vào trình thực thi Spark thông qua Danh mục dữ liệu AWS Glue.

Các thành phần này phối hợp với nhau để đảm bảo rằng các kỹ sư dữ liệu và quy trình dữ liệu sản xuất có các công cụ cần thiết để triển khai tích hợp Amazon Redshift cho Apache Spark, chạy truy vấn và tạo điều kiện thuận lợi cho việc dỡ dữ liệu từ Amazon Redshift sang EDL.

Sử dụng tích hợp Amazon Redshift cho Apache Spark trong AWS Glue 4.0

Trong phần này, chúng tôi trình diễn tiện ích của việc tích hợp Amazon Redshift cho Apache Spark bằng cách làm phong phú thêm bảng ứng dụng cho vay nằm trong hồ dữ liệu S3 với thông tin khách hàng từ kho dữ liệu Redshift trong PySpark.

Sản phẩm dimclient bảng trong Amazon Redshift chứa các cột sau:

Khóa khách hàng – INT8
Khách hàngAltKey – VARCHAR50
Số định danh bên – VARCHAR20
Khách hàngTạoNgày - NGÀY
Bị hủy – INT2
HàngLàHiện Tại – INT2

Sản phẩm loanapplication bảng trong Danh mục dữ liệu AWS Glue chứa các cột sau:

ID bản ghi – LỚN
Ngày đăng nhập – DẤU THỜI GIAN
Số định danh bên - SỢI DÂY

Bảng Redshift được đọc thông qua tích hợp Amazon Redshift cho Apache Spark và được lưu vào bộ nhớ đệm. Xem đoạn mã sau:

import pyspark.sql.functions as F
from pyspark.sql import SQLContext
sc = # existing SparkContext
sql_context = SQLContext(sc) secretsmanager_client = boto3.client('secretsmanager')
secret_manager_response = secretsmanager_client.get_secret_value( SecretId='string', VersionId='string', VersionStage='string'
)
username = # get username from secret_manager_response
password = # get password from secret_manager_response
url = "jdbc:redshift://redshifthost:5439/database?user=" + username + "&password=" + password read_config = { "url": url, "tempdir": "s3://<capitec-redshift-temp-bucket>/<uuid>/", "unload_s3_format": "PARQUET"
} d_client = ( spark.read.format("io.github.spark_redshift_community.spark.redshift") .options(**read_config) .option("query", f"select * from edw_core.dimclient") .load() .where((F.col("RowIsCurrent") == 1) & (F.col("isCancelled") == 0)) .select( F.col("PartyIdentifierNumber"), F.col("ClientCreateDate") ) .cache()
)

Hồ sơ đăng ký khoản vay được đọc từ hồ dữ liệu S3 và được bổ sung thêm dimclient bảng trên thông tin Amazon Redshift:

import pyspark.sql.functions as F
from awsglue.context import GlueContext
from pyspark import SparkContext glue_ctx = GlueContext(SparkContext.getOrCreate()) push_down_predicate = ( f"meta_extract_start_utc_ms between " f"'2023-07-12" f" 18:00:00.000000' and " f"'2023-07-13 06:00:00.000000'"
) database_name="loan_application_system"
table_name="dbo_view_loan_applications"
catalog_id = # Glue Data Catalog # Selecting only the following columns
initial_select_cols=[ "RecordID", "LogDate", "PartyIdentifierNumber" ] d_controller = (glue_ctx.create_dynamic_frame.from_catalog(catalog_id=catalog_id, database=database_name, table_name=table_name, push_down_predicate=push_down_predicate) .toDF() .select(*initial_select_cols) .withColumn("LogDate", F.date_format("LogDate", "yyyy-MM-dd").cast("string")) .dropDuplicates()) # Left Join on PartyIdentifierNumber and enriching the loan application record
d_controller_enriched = d_controller.join(d_client, on=["PartyIdentifierNumber"], how="left").cache()

Do đó, bản ghi đơn xin vay (từ hồ dữ liệu S3) được làm giàu bằng ClientCreateDate cột (từ Amazon Redshift).

Cách tích hợp Amazon Redshift cho Apache Spark giải quyết vấn đề tìm nguồn cung ứng dữ liệu

Việc tích hợp Amazon Redshift cho Apache Spark giải quyết hiệu quả vấn đề tìm nguồn cung ứng dữ liệu thông qua các cơ chế sau:

Đọc đúng lúc – Tích hợp Amazon Redshift cho trình kết nối Apache Spark đọc các bảng Redshift một cách kịp thời, đảm bảo tính nhất quán của dữ liệu và lược đồ. Điều này đặc biệt có giá trị đối với Loại 2 kích thước thay đổi chậm (SCD) và khoảng thời gian tích lũy dữ kiện chụp nhanh. Bằng cách kết hợp các bảng Redshift này với các bảng Danh mục dữ liệu AWS Glue của hệ thống nguồn từ EDL trong quy trình PySpark sản xuất, trình kết nối cho phép tích hợp liền mạch dữ liệu từ nhiều nguồn trong khi vẫn duy trì tính toàn vẹn của dữ liệu.
Truy vấn Redshift được tối ưu hóa – Việc tích hợp Amazon Redshift cho Apache Spark đóng một vai trò quan trọng trong việc chuyển đổi kế hoạch truy vấn Spark thành truy vấn Redshift được tối ưu hóa. Quá trình chuyển đổi này đơn giản hóa trải nghiệm phát triển cho nhóm sản phẩm bằng cách tuân thủ nguyên tắc địa phương dữ liệu. Các truy vấn được tối ưu hóa sử dụng các khả năng và tối ưu hóa hiệu suất của Amazon Redshift, đảm bảo truy xuất và xử lý dữ liệu hiệu quả từ Amazon Redshift cho quy trình PySpark. Điều này giúp hợp lý hóa quá trình phát triển đồng thời nâng cao hiệu suất tổng thể của các hoạt động tìm nguồn cung ứng dữ liệu.

Đạt được hiệu suất tốt nhất

Tích hợp Amazon Redshift cho Apache Spark tự động áp dụng tính năng đẩy xuống vị từ và truy vấn để tối ưu hóa hiệu suất. Bạn có thể đạt được những cải tiến về hiệu suất bằng cách sử dụng định dạng Parquet mặc định được dùng để dỡ tải với sự tích hợp này.

Để biết thêm chi tiết và mẫu mã, hãy tham khảo Mới – Tích hợp Amazon Redshift với Apache Spark.

Giải pháp Lợi ích

Việc áp dụng tích hợp đã mang lại một số lợi ích đáng kể cho nhóm:

Nâng cao năng suất của nhà phát triển – Giao diện PySpark được cung cấp bởi sự tích hợp đã tăng năng suất của nhà phát triển lên gấp 10 lần, cho phép tương tác mượt mà hơn với Amazon Redshift.
Loại bỏ sự trùng lặp dữ liệu – Loại bỏ các bảng Redshift được lập danh mục trùng lặp và AWS Glue trong hồ dữ liệu, mang lại một môi trường dữ liệu hợp lý hơn.
Giảm tải EDW – Việc tích hợp tạo điều kiện thuận lợi cho việc dỡ bỏ dữ liệu có chọn lọc, giảm thiểu tải cho EDW bằng cách chỉ trích xuất những dữ liệu cần thiết.

Bằng cách sử dụng tích hợp Amazon Redshift cho Apache Spark, Capitec đã mở đường cho việc cải thiện khả năng xử lý dữ liệu, tăng năng suất và hệ sinh thái kỹ thuật tính năng hiệu quả hơn.

Kết luận

Trong bài đăng này, chúng tôi đã thảo luận về cách nhóm Capitec triển khai thành công tích hợp Apache Spark Amazon Redshift cho Apache Spark để đơn giản hóa quy trình tính toán tính năng của họ. Họ nhấn mạnh tầm quan trọng của việc sử dụng các đường ống dữ liệu PySpark mô-đun và phi tập trung để tạo ra các tính năng mô hình dự đoán.

Hiện tại, việc tích hợp Amazon Redshift cho Apache Spark được 7 đường dẫn dữ liệu sản xuất và 20 đường dẫn phát triển sử dụng, cho thấy tính hiệu quả của nó trong môi trường của Capitec.

Trong tương lai, nhóm Nền tảng tính năng dịch vụ chia sẻ tại Capitec có kế hoạch mở rộng việc áp dụng tích hợp Amazon Redshift cho Apache Spark trong các lĩnh vực kinh doanh khác nhau, nhằm nâng cao hơn nữa khả năng xử lý dữ liệu và thúc đẩy các phương pháp kỹ thuật tính năng hiệu quả.

Để biết thêm thông tin về cách sử dụng tích hợp Amazon Redshift cho Apache Spark, hãy tham khảo các tài nguyên sau:

Về các tác giả

Preshen Goobiah là Kỹ sư trưởng về Machine Learning cho Nền tảng tính năng tại Capitec. Anh tập trung vào việc thiết kế và xây dựng các thành phần của Feature Store để doanh nghiệp sử dụng. Trong thời gian rảnh rỗi, anh thích đọc sách và đi du lịch.

Johan Olivier là Kỹ sư máy học cấp cao cho Nền tảng mô hình của Capitec. Ông là một doanh nhân và người đam mê giải quyết vấn đề. Anh ấy thích âm nhạc và giao lưu trong thời gian rảnh rỗi.

Sudipta Bagchi là Kiến trúc sư giải pháp chuyên môn cao cấp tại Amazon Web Services. Ông có hơn 12 năm kinh nghiệm về dữ liệu và phân tích, đồng thời giúp khách hàng thiết kế và xây dựng các giải pháp phân tích có hiệu suất cao và có thể mở rộng. Ngoài công việc, anh ấy thích chạy bộ, du lịch và chơi cricket. Kết nối với anh ấy trên LinkedIn.

Syed Humair là Kiến trúc sư giải pháp chuyên gia phân tích cấp cao tại Amazon Web Services (AWS). Ông có hơn 17 năm kinh nghiệm trong lĩnh vực kiến trúc doanh nghiệp, tập trung vào Dữ liệu và AI/ML, giúp khách hàng AWS trên toàn cầu giải quyết các yêu cầu kinh doanh và kỹ thuật của họ. Bạn có thể kết nối với anh ấy trên LinkedIn.

Vuyisa Maswana là Kiến trúc sư giải pháp cấp cao tại AWS, có trụ sở tại Cape Town. Vuyisa tập trung mạnh vào việc giúp khách hàng xây dựng các giải pháp kỹ thuật để giải quyết các vấn đề kinh doanh. Anh ấy đã hỗ trợ Capitec trong hành trình AWS của họ kể từ năm 2019.

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://aws.amazon.com/blogs/big-data/simplifying-data-processing-at-capitec-with-amazon-redshift-integration-for-apache-spark/

Dấu thời gian: Tháng Mười Một 10, 2023

Dấu thời gian: 9 Tháng Năm, 2023

Đơn giản hóa việc xử lý dữ liệu tại Capitec bằng tích hợp Amazon Redshift cho Apache Spark | Dịch vụ web của Amazon

Được xuất bản lại bởi Plato

Cơ hội kinh doanh

Vấn đề tìm nguồn dữ liệu

Quy trình giải quyết trước đó

Tổng quan về giải pháp hiện tại

Sử dụng tích hợp Amazon Redshift cho Apache Spark trong AWS Glue 4.0

Cách tích hợp Amazon Redshift cho Apache Spark giải quyết vấn đề tìm nguồn cung ứng dữ liệu

Đạt được hiệu suất tốt nhất

Giải pháp Lợi ích

Kết luận

Về các tác giả

Thêm từ Dữ liệu lớn AWS

Tìm hiểu sâu về AWS Glue 4.0 cho Apache Spark | Dịch vụ web của Amazon

Truy vấn các bảng Iceberg của bạn trong hồ dữ liệu bằng Amazon Redshift (Bản xem trước) | Dịch vụ web của Amazon

Giới thiệu tính năng đệm liên tục cho Amazon OpenSearch Ingestion | Dịch vụ web của Amazon

BWH Hotels mở rộng quy mô áp dụng kinh doanh thông minh cho doanh nghiệp đồng thời giảm chi phí với Amazon QuickSight | Dịch vụ web của Amazon

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản