使用 Amazon Redshift 流摄取以及 Amazon Kinesis Data Streams 和 Amazon Redshift ML 进行近实时欺诈检测

由柏拉图重新发布

关注： 0

多年来，数据仓库和在数据仓库平台上执行的分析的重要性一直在稳步增长，许多企业开始依赖这些系统作为短期运营决策和长期战略规划的关键任务。传统上，数据仓库以批量周期进行刷新，例如每月、每周或每天，以便企业可以从中获得各种见解。

许多组织意识到近实时数据摄取和高级分析开辟了新的机会。例如，金融机构可以通过以近实时模式而非批处理模式运行异常检测程序来预测信用卡交易是否存在欺诈。

在这篇文章中，我们展示了如何亚马逊Redshift 可以在一个平台上提供流媒体摄取和机器学习 (ML) 预测。

Amazon Redshift 是一种快速、可扩展、安全且完全托管的云数据仓库，使用标准 SQL 可以简单且经济高效地分析您的所有数据。

亚马逊红移机器学习使数据分析师和数据库开发人员可以在 Amazon Redshift 数据仓库中使用熟悉的 SQL 命令轻松创建、训练和应用 ML 模型。

我们很高兴推出 Amazon Redshift 流式摄取 Amazon Kinesis数据流和适用于Apache Kafka的Amazon托管流 (Amazon MSK)，它使您能够直接从 Kinesis 数据流或 Kafka 主题中提取数据，而无需将数据暂存到亚马逊简单存储服务（亚马逊 S3）。 Amazon Redshift 流式摄取允许您在将数百兆字节的数据摄取到数据仓库中的同时实现秒级的低延迟。

这篇文章演示了云数据仓库 Amazon Redshift 如何让您通过使用 Amazon Redshift 流式摄取和 Redshift ML 功能以及熟悉的 SQL 语言来构建近乎实时的 ML 预测。

解决方案概述

按照本文中概述的步骤，您将能够在亚马逊弹性计算云 (Amazon EC2) 模拟信用卡交易并将数据实时推送到 Kinesis Data Streams 的实例。您在 Amazon Redshift 上设置一个 Amazon Redshift Streaming Ingestion 物化视图，用于接收流数据。您训练并构建一个 Redshift ML 模型来生成针对流数据的实时推理。

下图说明了体系结构和流程。

分步过程如下：

EC2 实例模拟信用卡交易应用程序，它将信用卡交易插入到 Kinesis 数据流中。
数据流存储传入的信用卡交易数据。
Amazon Redshift Streaming Ingestion 实体化视图是在数据流之上创建的，它会自动将流数据摄取到 Amazon Redshift 中。
您可以使用 Redshift ML 构建、训练和部署 ML 模型。 Redshift ML 模型使用历史交易数据进行训练。
您转换流数据并生成 ML 预测。
您可以提醒客户或更新应用程序以降低风险。

本演练使用信用卡交易流数据。信用卡交易数据是虚构的，并基于模拟器. 客户数据集也是虚构的，是用一些随机数据函数生成的。

先决条件

创建 Amazon Redshift 集群.
配置集群以使用 Redshift ML.
创建 an AWS身份和访问管理（IAM）用户。
更新附加到 Redshift 集群的 IAM 角色以包含访问 Kinesis 数据流的权限。有关所需政策的更多信息，请参阅流式摄取入门.
创建一个 m5.4xlarge EC2 实例. 我们使用 m5.4xlarge 实例测试了 Producer 应用程序，但您可以自由使用其他实例类型。创建实例时，使用 amzn2-ami-kernel-5.10-hvm-2.0.20220426.0-x86_64-gp2 急性心肌梗死。
为确保 EC3 实例中安装了 Python2，请运行以下命令来验证您的 Python 版本（请注意，数据提取脚本仅适用于 Python 3）：

python3 --version

安装以下依赖包运行模拟器程序：

sudo yum install python3-pip
pip3 install numpy
pip3 install pandas
pip3 install matplotlib
pip3 install seaborn
pip3 install boto3

使用为在上面的步骤 2 中创建的 IAM 用户生成的 AWS 凭证等变量配置 Amazon EC3。以下屏幕截图显示了使用的示例 aws 配置.

设置 Kinesis 数据流

Amazon Kinesis Data Streams 是一种可大规模扩展且持久的实时数据流服务。它可以每秒从数十万个来源连续捕获千兆字节的数据，例如网站点击流、数据库事件流、金融交易、社交媒体提要、IT 日志和位置跟踪事件。收集的数据可在几毫秒内提供，以支持实时分析用例，例如实时仪表板、实时异常检测、动态定价等。我们使用 Kinesis Data Streams，因为它是一种无服务器解决方案，可以根据使用情况进行扩展。

创建 Kinesis 数据流

首先，您需要创建一个 Kinesis 数据流来接收流数据：

在Amazon Kinesis控制台上，选择 数据流 在导航窗格中。
创建数据流.
针对 数据流名称，输入 cust-payment-txn-stream.
针对 容量模式，选择按需.
对于其余选项，请选择默认选项并按照提示完成设置。
捕获创建的数据流的 ARN，以在下一部分定义 IAM 策略时使用。

流式 ARN 亮点

设置权限

对于要写入 Kinesis Data Streams 的流应用程序，应用程序需要能够访问 Kinesis。您可以使用以下策略语句授予您在下一节中设置的模拟器进程访问数据流的权限。使用您在上一步中保存的数据流的 ARN。

{ "Version": "2012-10-17", "Statement": [
{ "Sid": "Stmt123", "Effect": "Allow", "Action": [ "kinesis:DescribeStream", "kinesis:PutRecord", "kinesis:PutRecords", "kinesis:GetShardIterator", "kinesis:GetRecords", "kinesis:ListShards", "kinesis:DescribeStreamSummary"
], "Resource": [ "arn:aws:kinesis:us-west-2:xxxxxxxxxxxx:stream/cust-payment-txn-stream"
]
}
]
}

配置流生产者

在我们可以在 Amazon Redshift 中使用流数据之前，我们需要一个将数据写入 Kinesis 数据流的流数据源。这篇文章使用定制的数据生成器和适用于Python的AWS开发工具包（Boto3）将数据发布到数据流。有关设置说明，请参阅制作人模拟器. 这个模拟器进程将流式数据发布到上一步创建的数据流中（cust-payment-txn-stream).

配置流消费者

本节讨论配置流消费者（Amazon Redshift 流摄取视图）。

Amazon Redshift Streaming Ingestion 可将来自 Kinesis Data Streams 的流数据低延迟、高速地摄取到 Amazon Redshift 实体化视图中。您可以使用 SQL 语句配置您的 Amazon Redshift 集群以启用流式摄取并创建具有自动刷新功能的物化视图，如中所述在 Amazon Redshift 中创建具体化视图. 自动物化视图刷新过程将以每秒数百兆字节的数据从 Kinesis Data Streams 提取流数据到 Amazon Redshift。这导致快速访问快速刷新的外部数据。

创建物化视图后，您可以使用 SQL 从数据流访问数据，并通过直接在流顶部创建物化视图来简化数据管道。

完成以下步骤以配置 Amazon Redshift 流式实体化视图：

在 IAM 控制台上，在导航窗格中选择策略。
建立政策.
创建名为的新 IAM 策略 KinesisStreamPolicy. 对于流策略定义，请参见流式摄取入门.
在导航窗格中，选择角色.
选择创建角色。
选择 AWS服务 并选择 Redshift 和 Redshift 可定制.
创建一个名为的新角色 redshift-streaming-role 并附上保单 KinesisStreamPolicy.
创建一个外部架构以映射到 Kinesis Data Streams：

CREATE EXTERNAL SCHEMA custpaytxn
FROM KINESIS IAM_ROLE 'arn:aws:iam::386xxxxxxxxx:role/redshift-streaming-role';

现在您可以创建物化视图来使用流数据。您可以使用 SUPER 数据类型以 JSON 格式按原样存储负载，或使用 Amazon Redshift JSON 函数将 JSON 数据解析为单独的列。对于这篇文章，我们使用第二种方法，因为模式定义明确。

创建流式摄取物化视图 cust_payment_tx_stream. 通过在以下代码中指定 AUTO REFRESH YES，您可以启用流式摄取视图的自动刷新，从而通过避免构建数据管道来节省时间：

CREATE MATERIALIZED VIEW cust_payment_tx_stream
AUTO REFRESH YES
AS
SELECT approximate_arrival_timestamp ,
partition_key,
shard_id,
sequence_number,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TRANSACTION_ID')::bigint as TRANSACTION_ID,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TX_DATETIME')::character(50) as TX_DATETIME,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'CUSTOMER_ID')::int as CUSTOMER_ID,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TERMINAL_ID')::int as TERMINAL_ID,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TX_AMOUNT')::decimal(18,2) as TX_AMOUNT,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TX_TIME_SECONDS')::int as TX_TIME_SECONDS,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TX_TIME_DAYS')::int as TX_TIME_DAYS
FROM custpaytxn."cust-payment-txn-stream"
Where is_utf8(kinesis_data) AND can_json_parse(kinesis_data);

需要注意的是 json_extract_path_text 长度限制为 64 KB。 from_varbye 还过滤大于 65KB 的记录。

刷新数据。

Amazon Redshift 流式实体化视图由 Amazon Redshift 为您自动刷新。这样，您无需担心数据过时。通过物化视图自动刷新，当数据在流中可用时，数据会自动加载到 Amazon Redshift 中。如果您选择手动执行此操作，请使用以下命令：

REFRESH MATERIALIZED VIEW cust_payment_tx_stream ;

现在让我们查询流式实体化视图以查看示例数据：

Select * from cust_payment_tx_stream limit 10;

现在让我们检查流式视图中有多少条记录：

Select count(*) as stream_rec_count from cust_payment_tx_stream;

现在您已经完成了 Amazon Redshift 流摄取视图的设置，该视图会根据传入的信用卡交易数据不断更新。在我的设置中，当我运行选择计数查询时，我看到大约 67,000 条记录已被拉入流式视图。这个数字对你来说可能不同。

红移机器学习

借助 Redshift ML，您可以带来预训练的 ML 模型或本地构建一个。有关详细信息，请参阅在 Amazon Redshift 中使用机器学习.

在本文中，我们使用历史数据集训练和构建 ML 模型。数据包含一个 tx_fraud 将历史交易标记为欺诈性或非欺诈性的字段。我们使用 Redshift Auto ML 构建了一个受监督的 ML 模型，该模型从该数据集中学习并在通过预测函数运行这些交易时预测传入的交易。

在以下部分中，我们将展示如何设置历史数据集和客户数据。

加载历史数据集

历史表的字段比流式数据源的字段多。这些字段包含客户最近的支出和终端风险评分，例如通过转换流数据计算的欺诈交易数量。还有分类变量，如周末交易或夜间交易。

要加载历史数据，请使用 Amazon Redshift查询编辑器.

使用以下代码创建交易历史表。 DDL 也可以在 GitHub上.

CREATE TABLE cust_payment_tx_history
(
TRANSACTION_ID integer,
TX_DATETIME timestamp,
CUSTOMER_ID integer,
TERMINAL_ID integer,
TX_AMOUNT decimal(9,2),
TX_TIME_SECONDS integer,
TX_TIME_DAYS integer,
TX_FRAUD integer,
TX_FRAUD_SCENARIO integer,
TX_DURING_WEEKEND integer,
TX_DURING_NIGHT integer,
CUSTOMER_ID_NB_TX_1DAY_WINDOW decimal(9,2),
CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW decimal(9,2),
CUSTOMER_ID_NB_TX_7DAY_WINDOW decimal(9,2),
CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW decimal(9,2),
CUSTOMER_ID_NB_TX_30DAY_WINDOW decimal(9,2),
CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW decimal(9,2),
TERMINAL_ID_NB_TX_1DAY_WINDOW decimal(9,2),
TERMINAL_ID_RISK_1DAY_WINDOW decimal(9,2),
TERMINAL_ID_NB_TX_7DAY_WINDOW decimal(9,2),
TERMINAL_ID_RISK_7DAY_WINDOW decimal(9,2),
TERMINAL_ID_NB_TX_30DAY_WINDOW decimal(9,2),
TERMINAL_ID_RISK_30DAY_WINDOW decimal(9,2)
);
Copy cust_payment_tx_history
FROM 's3://redshift-demos/redshiftml-reinvent/2022/ant312/credit-card-transactions/credit_card_transactions_transformed_balanced.csv'
iam_role default
ignoreheader 1
csv ;

让我们检查加载了多少事务：

select count(1) from cust_payment_tx_history;

查看每月欺诈和非欺诈交易趋势：

SELECT to_char(tx_datetime, 'YYYYMM') as YearMonth,
sum(case when tx_fraud=1 then 1 else 0 end) as fraud_tx,
sum(case when tx_fraud=0 then 1 else 0 end) as non_fraud_tx,
count(*) as total_tx
FROM cust_payment_tx_history
GROUP BY YearMonth;

创建和加载客户数据

现在我们创建客户表并加载数据，其中包含客户的电子邮件和电话号码。以下代码创建表、加载数据并对表进行采样。表 DDL 可在 GitHub上.

CREATE TABLE public."customer_info"(customer_id bigint NOT NULL encode az64,
job_title character varying(500) encode lzo,
email_address character varying(100) encode lzo,
full_name character varying(200) encode lzo,
phone_number character varying(20) encode lzo,
city varchar(50),
state varchar(50)
);
COPY customer_info
FROM 's3://redshift-demos/redshiftml-reinvent/2022/ant312/customer-data/Customer_Data.csv'
IGNOREHEADER 1
IAM_ROLE default CSV;
Select count(1) from customer_info;

我们的测试数据有大约 5,000 个客户。以下屏幕截图显示了示例客户数据。

建立ML模型

我们的历史卡交易表有 6 个月的数据，我们现在使用这些数据来训练和测试 ML 模型。

该模型将以下字段作为输入：

TX_DURING_WEEKEND ,
TX_AMOUNT,
TX_DURING_NIGHT ,
CUSTOMER_ID_NB_TX_1DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW ,
CUSTOMER_ID_NB_TX_7DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW ,
CUSTOMER_ID_NB_TX_30DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW ,
TERMINAL_ID_NB_TX_1DAY_WINDOW ,
TERMINAL_ID_RISK_1DAY_WINDOW ,
TERMINAL_ID_NB_TX_7DAY_WINDOW ,
TERMINAL_ID_RISK_7DAY_WINDOW ,
TERMINAL_ID_NB_TX_30DAY_WINDOW ,
TERMINAL_ID_RISK_30DAY_WINDOW

我们得到了 tx_fraud 作为输出。

我们将这些数据分成训练和测试数据集。从 2022-04-01 到 2022-07-31 的交易是针对训练集的。从 2022-08-01 到 2022-09-30 的交易用于测试集。

让我们使用熟悉的 SQL 创建 ML 模型创建模型语句. 我们使用基本形式的 Redshift ML 命令。下面的方法使用亚马逊SageMaker自动驾驶仪，它会自动为您执行数据准备、特征工程、模型选择和训练。提供包含代码的 S3 存储桶的名称。

CREATE MODEL cust_cc_txn_fd
FROM (
SELECT TX_AMOUNT ,
TX_FRAUD ,
TX_DURING_WEEKEND ,
TX_DURING_NIGHT ,
CUSTOMER_ID_NB_TX_1DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW ,
CUSTOMER_ID_NB_TX_7DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW ,
CUSTOMER_ID_NB_TX_30DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW ,
TERMINAL_ID_NB_TX_1DAY_WINDOW ,
TERMINAL_ID_RISK_1DAY_WINDOW ,
TERMINAL_ID_NB_TX_7DAY_WINDOW ,
TERMINAL_ID_RISK_7DAY_WINDOW ,
TERMINAL_ID_NB_TX_30DAY_WINDOW ,
TERMINAL_ID_RISK_30DAY_WINDOW
FROM cust_payment_tx_history
WHERE cast(tx_datetime as date) between '2022-06-01' and '2022-09-30'
) TARGET tx_fraud
FUNCTION fn_customer_cc_fd
IAM_ROLE default
SETTINGS (
S3_BUCKET '<replace this with your s3 bucket name>',
s3_garbage_collect off,
max_runtime 3600
);

我称 ML 模型为 Cust_cc_txn_fd，预测函数为 fn_customer_cc_fd. FROM 子句显示历史表中的输入列 public.cust_payment_tx_history. 目标参数设置为 tx_fraud，这是我们要预测的目标变量。 IAM_Role 设置为默认值，因为集群配置了这个角色；如果没有，您必须提供您的 Amazon Redshift 集群 IAM 角色 ARN。我设置了 max_runtime 到 3,600 秒，这是我们给 SageMaker 完成该过程的时间。 Redshift ML 部署在此时间范围内确定的最佳模型。

根据模型的复杂性和数据量，模型可能需要一些时间才能可用。如果您发现您的模型选择没有完成，增加值 max_runtime. 您可以将最大值设置为 9999。

CREATE MODEL 命令是异步运行的，这意味着它在后台运行。您可以使用展示模型命令查看模型的状态。当状态显示为 Ready 时，表示模型已训练和部署。

show model cust_cc_txn_fd;

以下屏幕截图显示了我们的输出。

从输出中，我看到模型已被正确识别为 BinaryClassification, 并选择 F1 作为目标。这 F1分数是一个同时考虑两者的指标精度和召回率. 它返回一个介于 1（完美的精度和召回率）和 0（最低可能的分数）之间的值。就我而言，它是 0.91。值越高，模型性能越好。

让我们用测试数据集测试这个模型。运行以下命令，检索示例预测：

SELECT
tx_fraud ,
fn_customer_cc_fd(
TX_AMOUNT ,
TX_DURING_WEEKEND ,
TX_DURING_NIGHT ,
CUSTOMER_ID_NB_TX_1DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW ,
CUSTOMER_ID_NB_TX_7DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW ,
CUSTOMER_ID_NB_TX_30DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW ,
TERMINAL_ID_NB_TX_1DAY_WINDOW ,
TERMINAL_ID_RISK_1DAY_WINDOW ,
TERMINAL_ID_NB_TX_7DAY_WINDOW ,
TERMINAL_ID_RISK_7DAY_WINDOW ,
TERMINAL_ID_NB_TX_30DAY_WINDOW ,
TERMINAL_ID_RISK_30DAY_WINDOW )
FROM cust_payment_tx_history
WHERE cast(tx_datetime as date) >= '2022-10-01'
limit 10 ;

我们看到有些值匹配，有些不匹配。让我们将预测与基本事实进行比较：

SELECT
tx_fraud ,
fn_customer_cc_fd(
TX_AMOUNT ,
TX_DURING_WEEKEND ,
TX_DURING_NIGHT ,
CUSTOMER_ID_NB_TX_1DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW ,
CUSTOMER_ID_NB_TX_7DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW ,
CUSTOMER_ID_NB_TX_30DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW ,
TERMINAL_ID_NB_TX_1DAY_WINDOW ,
TERMINAL_ID_RISK_1DAY_WINDOW ,
TERMINAL_ID_NB_TX_7DAY_WINDOW ,
TERMINAL_ID_RISK_7DAY_WINDOW ,
TERMINAL_ID_NB_TX_30DAY_WINDOW ,
TERMINAL_ID_RISK_30DAY_WINDOW
) as prediction, count(*) as values
FROM public.cust_payment_tx_history
WHERE cast(tx_datetime as date) >= '2022-08-01'
Group by 1,2 ;

我们验证了该模型正在运行并且 F1 分数很好。让我们继续生成对流数据的预测。

预测欺诈交易

由于 Redshift ML 模型已准备就绪，我们可以使用它来运行针对流数据摄取的预测。历史数据集的字段比我们在流数据源中的字段多，但它们只是围绕客户和欺诈交易终端风险的新近度和频率指标。

通过将 SQL 嵌入到视图中，我们可以非常轻松地在流数据之上应用转换。创建第一眼，它在客户级别聚合流数据。然后创建第二种观点，它在终端级别聚合流数据，以及第三视图，它将传入的交易数据与客户和终端聚合数据结合起来，并在一个地方调用预测功能。第三种视图的代码如下：

CREATE VIEW public.cust_payment_tx_fraud_predictions
as
select a.approximate_arrival_timestamp,
d.full_name , d.email_address, d.phone_number,
a.TRANSACTION_ID, a.TX_DATETIME, a.CUSTOMER_ID, a.TERMINAL_ID,
a.TX_AMOUNT ,
a.TX_TIME_SECONDS ,
a.TX_TIME_DAYS ,
public.fn_customer_cc_fd(a.TX_AMOUNT ,
a.TX_DURING_WEEKEND,
a.TX_DURING_NIGHT,
c.CUSTOMER_ID_NB_TX_1DAY_WINDOW ,
c.CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW ,
c.CUSTOMER_ID_NB_TX_7DAY_WINDOW ,
c.CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW ,
c.CUSTOMER_ID_NB_TX_30DAY_WINDOW ,
c.CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW ,
t.TERMINAL_ID_NB_TX_1DAY_WINDOW ,
t.TERMINAL_ID_RISK_1DAY_WINDOW ,
t.TERMINAL_ID_NB_TX_7DAY_WINDOW ,
t.TERMINAL_ID_RISK_7DAY_WINDOW ,
t.TERMINAL_ID_NB_TX_30DAY_WINDOW ,
t.TERMINAL_ID_RISK_30DAY_WINDOW ) Fraud_prediction
From
(select
Approximate_arrival_timestamp,
TRANSACTION_ID, TX_DATETIME, CUSTOMER_ID, TERMINAL_ID,
TX_AMOUNT ,
TX_TIME_SECONDS ,
TX_TIME_DAYS ,
case when extract(dow from cast(TX_DATETIME as timestamp)) in (1,7) then 1 else 0 end as TX_DURING_WEEKEND,
case when extract(hour from cast(TX_DATETIME as timestamp)) between 00 and 06 then 1 else 0 end as TX_DURING_NIGHT
FROM cust_payment_tx_stream) a
join terminal_transformations t
on a.terminal_id = t.terminal_id
join customer_transformations c
on a.customer_id = c.customer_id
join customer_info d
on a.customer_id = d.customer_id
;

在视图上运行 SELECT 语句：

select * from
cust_payment_tx_fraud_predictions
where Fraud_prediction = 1;

当您重复运行 SELECT 语句时，最新的信用卡交易会近乎实时地进行转换和 ML 预测。

这展示了 Amazon Redshift 的强大功能 — 借助易于使用的 SQL 命令，您可以通过应用复杂的窗口函数来转换流数据，并应用 ML 模型一步预测欺诈交易，而无需构建复杂的数据管道或构建和管理额外的基础设施。

展开解决方案

由于中的数据流和 ML 预测是近实时进行的，因此您可以构建业务流程来提醒您的客户使用亚马逊简单通知服务 (Amazon SNS)，或者您可以在操作系统中锁定客户的信用卡帐户。

这篇博文不会详细介绍这些操作，但如果您有兴趣了解有关使用 Amazon Redshift 构建事件驱动解决方案的更多信息，请参阅以下内容 GitHub存储库.

清理

为避免将来产生费用，请删除作为本文的一部分创建的资源。

结论

在本文中，我们演示了如何设置 Kinesis 数据流、配置生产者并将数据发布到流，然后创建 Amazon Redshift Streaming Ingestion 视图并查询 Amazon Redshift 中的数据。数据进入 Amazon Redshift 集群后，我们演示了如何训练 ML 模型并构建预测函数并将其应用于流数据以生成近乎实时的预测。

如果您有任何反馈或问题，请在评论中留下。

作者简介

巴努·皮坦帕利 是达拉斯的分析专家解决方案架构师。他擅长构建分析解决方案。他的背景是数据仓库——架构、开发和管理。他在数据和分析领域工作超过 15 年。

普拉文·卡迪皮孔达 是位于达拉斯的 AWS 的高级分析专家解决方案架构师。他帮助客户构建高效、高性能和可扩展的分析解决方案。他从事构建数据库和数据仓库解决方案工作超过 15 年。

里特什·库马尔·辛哈 是位于旧金山的分析专家解决方案架构师。 16 年来，他一直帮助客户构建可扩展的数据仓库和大数据解决方案。他喜欢在 AWS 上设计和构建高效的端到端解决方案。在业余时间，他喜欢阅读、散步和做瑜伽。

SEO 支持的内容和 PR 分发。今天得到放大。
柏拉图区块链。 Web3 元宇宙智能。知识放大。访问这里。
Sumber: https://aws.amazon.com/blogs/big-data/near-real-time-fraud-detection-using-amazon-redshift-streaming-ingestion-with-amazon-kinesis-data-streams-and-amazon-redshift-ml/

时间戳记： 2023 年 1 月 4 日

时间戳记： 2023 年 2 月 1 日

由柏拉图重新发布

使用 Amazon MWAA 引入就地版本升级 | 亚马逊网络服务

Vanguard 如何通过为 Amazon Kinesis Data Streams 构建跨区域复制来提高其技术平台的弹性和效率

在 AWS Glue Studio 可视化 ETL 作业中使用 AWS Glue DataBrew 配方 | 亚马逊网络服务

使用 Amazon Redshift（预览版）查询数据湖中的 Iceberg 表 | 亚马逊网络服务

Amazon EMR 推出对 Amazon EC2 C7g (Graviton3) 实例的支持，以将 Spark 工作负载的性价比提高 7–13%

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理