通过 Apache Spark 的 Amazon Redshift 集成简化 Capitec 的数据处理

由柏拉图重新发布

关注： 0

这篇文章是与 Capitec 的 Preshen Goobiah 和 Johan Olivier 共同撰写的。

Apache Spark 是一种广泛使用的开源分布式处理系统，以处理大规模数据工作负载而闻名。它在 Spark 开发人员中经常得到应用亚马逊电子病历, 亚马逊SageMaker, AWS胶水和自定义 Spark 应用程序。

亚马逊Redshift 提供与 Apache Spark 的无缝集成，让您可以轻松访问 Amazon Redshift 预置集群上的 Redshift 数据 Amazon Redshift 无服务器。这种集成扩展了 AWS 分析和机器学习 (ML) 解决方案的可能性，使数据仓库可供更广泛的应用程序访问。

随着适用于 Apache Spark 的 Amazon Redshift 集成，您可以使用 Java、Scala、Python、SQL 和 R 等流行语言快速开始并轻松开发 Spark 应用程序。您的应用程序可以无缝读取和写入 Amazon Redshift 数据仓库，同时保持最佳性能和事务一致性。此外，您还可以通过下推优化来提高性能，从而进一步提高运营效率。

Capitec南非最大的零售银行，拥有超过 21 万零售银行客户，旨在提供简单、实惠且方便的金融服务，以帮助南非人更好地办理银行业务，让他们生活得更好。在这篇文章中，我们讨论 Capitec 共享服务功能平台团队对开源 Amazon Redshift 连接器的成功集成。通过利用 Apache Spark 的 Amazon Redshift 集成，开发人员的工作效率提高了 10 倍，功能生成管道得到简化，数据重复减少到零。

商业机会

Capitec 零售信贷部门有 19 个预测模型，可利用使用 AWS Glue 构建的 93 项功能。 Amazon Redshift 中存储的事实和维度丰富了特征记录。选择 Apache PySpark 来创建功能是因为它提供了一种快速、分散且可扩展的机制来处理来自不同来源的数据。

这些生产功能对于实现业务内实时定期贷款申请、信用卡申请、批量月度信用行为监控、批量每日工资识别等发挥着至关重要的作用。

数据来源问题

为了确保 PySpark 数据管道的可靠性，必须从存储在企业数据仓库 (EDW) 中的维度表和事实表获得一致的记录级数据。然后，这些表在运行时与企业数据湖 (EDL) 中的表连接。

在功能开发过程中，数据工程师需要与 EDW 的无缝接口。该接口允许他们访问 EDW 中的必要数据并将其集成到数据管道中，从而实现功能的高效开发和测试。

之前的解决过程

在之前的解决方案中，产品团队数据工程师每次运行都要花费 30 分钟手动将 Redshift 数据公开给 Spark。这些步骤包括以下内容：

在 Python 中构建谓词查询。
提交卸下通过查询 Amazon Redshift 数据 API.
通过适用于 Pandas 的 AWS 开发工具包使用采样对 AWS Glue 数据目录中的数据进行编目。

这种方法给大型数据集带来了问题，需要平台团队进行定期维护，并且自动化起来很复杂。

当前解决方案概述

Capitec 能够通过功能生成管道中 Apache Spark 的 Amazon Redshift 集成解决这些问题。该架构如下图定义。

工作流程包括以下步骤：

内部库通过以下方式安装到 AWS Glue PySpark 作业中 AWS 代码工件.
AWS Glue 作业从以下位置检索 Redshift 集群凭证 AWS机密管理器并通过共享内部库设置 Amazon Redshift 连接（注入集群凭证、卸载位置、文件格式）。 Apache Spark 的 Amazon Redshift 集成还支持使用 AWS身份和访问管理 (IAM) 至检索凭证并连接到 Amazon Redshift.
Spark 查询会转换为 Amazon Redshift 优化查询并提交给 EDW。这是通过 Apache Spark 的 Amazon Redshift 集成来实现的。
EDW 数据集被卸载到一个临时前缀中亚马逊简单存储服务（Amazon S3）存储桶。
S3 存储桶中的 EDW 数据集通过 Apache Spark 的 Amazon Redshift 集成加载到 Spark 执行器中。
EDL 数据集通过 AWS Glue 数据目录加载到 Spark 执行器中。

这些组件协同工作，确保数据工程师和生产数据管道拥有必要的工具来实现 Apache Spark 的 Amazon Redshift 集成、运行查询以及促进将数据从 Amazon Redshift 卸载到 EDL。

在 AWS Glue 4.0 中使用 Apache Spark 的 Amazon Redshift 集成

在本部分中，我们通过使用 PySpark 中 Redshift 数据仓库中的客户信息丰富驻留在 S3 数据湖中的贷款申请表，演示了 Apache Spark 的 Amazon Redshift 集成的实用性。

dimclient Amazon Redshift 中的表包含以下列：

客户端密钥 – INT8
客户端备用键 – VARCHAR50
参与方标识符号 – VARCHAR20
客户创建日期 - 日期
取消 – INT2
行是当前的 – INT2

loanapplication AWS Glue 数据目录中的表包含以下列：

记录ID ——BIGINT
日志日期 – 时间戳
参与方标识符号 - 细绳

Redshift 表通过 Apache Spark 的 Amazon Redshift 集成读取并缓存。请看下面的代码：

import pyspark.sql.functions as F
from pyspark.sql import SQLContext
sc = # existing SparkContext
sql_context = SQLContext(sc) secretsmanager_client = boto3.client('secretsmanager')
secret_manager_response = secretsmanager_client.get_secret_value( SecretId='string', VersionId='string', VersionStage='string'
)
username = # get username from secret_manager_response
password = # get password from secret_manager_response
url = "jdbc:redshift://redshifthost:5439/database?user=" + username + "&password=" + password read_config = { "url": url, "tempdir": "s3://<capitec-redshift-temp-bucket>/<uuid>/", "unload_s3_format": "PARQUET"
} d_client = ( spark.read.format("io.github.spark_redshift_community.spark.redshift") .options(**read_config) .option("query", f"select * from edw_core.dimclient") .load() .where((F.col("RowIsCurrent") == 1) & (F.col("isCancelled") == 0)) .select( F.col("PartyIdentifierNumber"), F.col("ClientCreateDate") ) .cache()
)

贷款申请记录从 S3 数据湖读取，并通过以下信息进行丰富： dimclient Amazon Redshift 信息表：

import pyspark.sql.functions as F
from awsglue.context import GlueContext
from pyspark import SparkContext glue_ctx = GlueContext(SparkContext.getOrCreate()) push_down_predicate = ( f"meta_extract_start_utc_ms between " f"'2023-07-12" f" 18:00:00.000000' and " f"'2023-07-13 06:00:00.000000'"
) database_name="loan_application_system"
table_name="dbo_view_loan_applications"
catalog_id = # Glue Data Catalog # Selecting only the following columns
initial_select_cols=[ "RecordID", "LogDate", "PartyIdentifierNumber" ] d_controller = (glue_ctx.create_dynamic_frame.from_catalog(catalog_id=catalog_id, database=database_name, table_name=table_name, push_down_predicate=push_down_predicate) .toDF() .select(*initial_select_cols) .withColumn("LogDate", F.date_format("LogDate", "yyyy-MM-dd").cast("string")) .dropDuplicates()) # Left Join on PartyIdentifierNumber and enriching the loan application record
d_controller_enriched = d_controller.join(d_client, on=["PartyIdentifierNumber"], how="left").cache()

因此，贷款申请记录（来自 S3 数据湖）得到了丰富 ClientCreateDate 列（来自 Amazon Redshift）。

Apache Spark 的 Amazon Redshift 集成如何解决数据源问题

Apache Spark 的 Amazon Redshift 集成通过以下机制有效解决了数据源问题：

及时阅读 – Apache Spark 连接器的 Amazon Redshift 集成以即时方式读取 Redshift 表，确保数据和架构的一致性。这对于 2 型缓变尺寸 (SCD) 和时间跨度累积快照事实。通过将这些 Redshift 表与生产 PySpark 管道中 EDL 中的源系统 AWS Glue 数据目录表相结合，该连接器可以无缝集成来自多个源的数据，同时保持数据完整性。
优化的 Redshift 查询 – Apache Spark 的 Amazon Redshift 集成在将 Spark 查询计划转换为优化的 Redshift 查询方面发挥着至关重要的作用。此转换过程遵循数据局部性原则，简化了产品团队的开发体验。优化的查询使用 Amazon Redshift 的功能和性能优化，确保 PySpark 管道从 Amazon Redshift 高效检索和处理数据。这有助于简化开发流程，同时提高数据源操作的整体性能。

获得最佳性能

Apache Spark 的 Amazon Redshift 集成会自动应用谓词和查询下推来优化性能。您可以通过使用用于此集成卸载的默认 Parquet 格式来提高性能。

有关其他详细信息和代码示例，请参阅新 – Amazon Redshift 与 Apache Spark 的集成.

解决方案优势

采用集成为团队带来了几个显着的好处：

提高开发人员的生产力 – 集成提供的 PySpark 界面将开发人员的工作效率提高了 10 倍，使与 Amazon Redshift 的交互更加顺畅。
消除数据重复 – 消除了数据湖中的重复和 AWS Glue 编目 Redshift 表，从而形成更加简化的数据环境。
减少 EDW 负载 – 集成促进了选择性数据卸载，通过仅提取必要的数据来最大限度地减少 EDW 的负载。

通过使用 Apache Spark 的 Amazon Redshift 集成，Capitec 为改进数据处理、提高生产力和更高效的特征工程生态系统铺平了道路。

结论

在这篇文章中，我们讨论了 Capitec 团队如何成功为 Apache Spark 实施 Apache Spark Amazon Redshift 集成，以简化其特征计算工作流程。他们强调了利用分散式和模块化 PySpark 数据管道创建预测模型功能的重要性。

目前，Apache Spark 的 Amazon Redshift 集成已被 7 个生产数据管道和 20 个开发管道使用，展示了其在 Capitec 环境中的有效性。

展望未来，Capitec 的共享服务功能平台团队计划在不同业务领域扩大 Apache Spark 的 Amazon Redshift 集成的采用，旨在进一步增强数据处理能力并促进高效的功能工程实践。

有关使用 Apache Spark 的 Amazon Redshift 集成的更多信息，请参阅以下资源：

作者简介

普雷申·古比亚 是 Capitec 功能平台的首席机器学习工程师。他专注于设计和构建供企业使用的要素存储组件。业余时间，他喜欢读书和旅行。

约翰·奥利维尔 是 Capitec 模型平台的高级机器学习工程师。他是一位企业家和解决问题的爱好者。他在业余时间喜欢音乐和社交。

苏迪普塔·巴吉 是 Amazon Web Services 的高级专家解决方案架构师。他在数据和分析方面拥有超过 12 年的经验，帮助客户设计和构建可扩展的高性能分析解决方案。工作之余，他喜欢跑步、旅行和打板球。与他联系 LinkedIn.

赛义德·胡迈尔 是 Amazon Web Services (AWS) 的高级分析专家解决方案架构师。他在企业架构方面拥有超过 17 年的经验，专注于数据和 AI/ML，帮助全球 AWS 客户满足其业务和技术需求。您可以通过以下方式与他联系 LinkedIn.

武伊萨·马斯瓦纳 是 AWS 的高级解决方案架构师，常驻开普敦。 Vuyisa 非常注重帮助客户构建技术解决方案来解决业务问题。自 2019 年以来，他一直为 Capitec 的 AWS 之旅提供支持。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://aws.amazon.com/blogs/big-data/simplifying-data-processing-at-capitec-with-amazon-redshift-integration-for-apache-spark/

时间戳记： 2023 年 11 月 10 日

时间戳记： 2023 年 8 月 23 日

通过 Apache Spark 的 Amazon Redshift 集成简化 Capitec 的数据处理 | 亚马逊网络服务

由柏拉图重新发布

商业机会

数据来源问题

之前的解决过程

当前解决方案概述

在 AWS Glue 4.0 中使用 Apache Spark 的 Amazon Redshift 集成

Apache Spark 的 Amazon Redshift 集成如何解决数据源问题

获得最佳性能

解决方案优势

结论

作者简介

更多来自 AWS 大数据

使用更大的新工作线程类型 G.4X 和 G.8X 扩展您的 AWS Glue for Apache Spark 作业 | 亚马逊网络服务

使用开源 JDBC 连接器通过 Amazon MSK Connect 流式传输数据 | 亚马逊网络服务

使用 Amazon Athena 估算范围 1 碳足迹 | 亚马逊网络服务

在 AWS Glue Studio 可视化 ETL 作业中使用 AWS Glue DataBrew 配方 | 亚马逊网络服务

使用 Amazon MWAA 编排 Amazon EMR Serverless Spark 作业，并使用 Amazon Athena 进行数据验证 | 亚马逊网络服务

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理