Обнаружение мошенничества в режиме, близком к реальному времени, с помощью Amazon Redshift Streaming Ingesting с Amazon Kinesis Data Streams и Amazon Redshift ML

Переиздано Платоном

Читают: 0

Важность хранилищ данных и аналитики, выполняемой на платформах хранилищ данных, с годами неуклонно растет, и многие предприятия начинают полагаться на эти системы как на критически важные как для краткосрочного принятия оперативных решений, так и для долгосрочного стратегического планирования. Традиционно хранилища данных обновляются пакетными циклами, например, ежемесячно, еженедельно или ежедневно, чтобы предприятия могли извлекать из них различную информацию.

Многие организации осознают, что прием данных в режиме, близком к реальному времени, наряду с расширенной аналитикой открывает новые возможности. Например, финансовый институт может предсказать, является ли транзакция по кредитной карте мошеннической, запустив программу обнаружения аномалий в режиме, близком к реальному времени, а не в пакетном режиме.

В этом посте мы покажем, как Амазонка Redshift может предоставлять прогнозы потоковой передачи и машинного обучения (ML) на одной платформе.

Amazon Redshift — это быстрое, масштабируемое, безопасное и полностью управляемое облачное хранилище данных, которое позволяет просто и экономично анализировать все ваши данные с помощью стандартного SQL.

Amazon Redshift ML позволяет аналитикам данных и разработчикам баз данных легко создавать, обучать и применять модели машинного обучения с помощью знакомых команд SQL в хранилищах данных Amazon Redshift.

Мы рады запустить Прием потоковой передачи Amazon Redshift для Потоки данных Amazon Kinesis и Amazon Managed Streaming для Apache Kafka (Amazon MSK), который позволяет получать данные непосредственно из потока данных Kinesis или раздела Kafka без необходимости промежуточного хранения данных в Простой сервис хранения Amazon (Амазон С3). Прием потоковой передачи Amazon Redshift позволяет снизить задержку порядка нескольких секунд при приеме сотен мегабайт данных в хранилище данных.

В этом посте показано, как Amazon Redshift, облачное хранилище данных, позволяет создавать прогнозы машинного обучения почти в реальном времени с помощью потоковой загрузки Amazon Redshift и функций машинного обучения Redshift на знакомом языке SQL.

Обзор решения

Следуя шагам, описанным в этом посте, вы сможете настроить приложение продюсера-стримера на Эластичное вычислительное облако Amazon (Amazon EC2), который имитирует транзакции по кредитным картам и отправляет данные в Kinesis Data Streams в режиме реального времени. Вы настраиваете материализованное представление Amazon Redshift Streaming Ingestion в Amazon Redshift, куда поступают потоковые данные. Вы обучаете и создаете модель машинного обучения Redshift для создания выводов в реальном времени на основе потоковых данных.

Следующая диаграмма иллюстрирует архитектуру и поток процессов.

Пошаговый процесс выглядит следующим образом:

Экземпляр EC2 имитирует приложение для транзакций по кредитным картам, которое вставляет транзакции по кредитным картам в поток данных Kinesis.
Поток данных хранит данные о входящих транзакциях по кредитным картам.
Поверх потока данных создается материализованное представление Amazon Redshift Streaming Ingestion, которое автоматически загружает потоковые данные в Amazon Redshift.
Вы создаете, обучаете и развертываете модель машинного обучения с помощью Redshift ML. Модель Redshift ML обучается с использованием исторических данных о транзакциях.
Вы преобразовываете потоковые данные и генерируете прогнозы машинного обучения.
Вы можете предупредить клиентов или обновить приложение, чтобы снизить риск.

В этом пошаговом руководстве используются данные потоковой передачи транзакций по кредитным картам. Данные о транзакциях по кредитной карте являются фиктивными и основаны на имитатор. Набор данных о клиентах также является фиктивным и генерируется с помощью некоторых функций случайных данных.

Предпосылки

Создайте кластер Amazon Redshift.
Настройте кластер для использования Redshift ML.
Создавай an Управление идентификацией и доступом AWS (IAM) пользователь.
Обновите роль IAM, прикрепленную к кластеру Redshift, чтобы включить разрешения на доступ к потоку данных Kinesis. Дополнительные сведения о необходимой политике см. Начало работы с потоковой передачей.
Создайте экземпляр m5.4xlarge EC2.. Мы протестировали приложение Producer с инстансом m5.4xlarge, но вы можете использовать другой тип инстанса. При создании экземпляра используйте amzn2-ami-kernel-5.10-hvm-2.0.20220426.0-x86_64-gp2 АМИ.
Чтобы убедиться, что Python3 установлен в экземпляре EC2, выполните следующую команду, чтобы проверить версию Python (обратите внимание, что скрипт извлечения данных работает только на Python 3):

python3 --version

Установите следующие зависимые пакеты для запуска программы-симулятора:

sudo yum install python3-pip
pip3 install numpy
pip3 install pandas
pip3 install matplotlib
pip3 install seaborn
pip3 install boto3

Настройте Amazon EC2, используя переменные, такие как учетные данные AWS, сгенерированные для пользователя IAM, созданного на шаге 3 выше. На следующем снимке экрана показан пример использования aws настроить.

Настройка потоков данных Kinesis

Amazon Kinesis Data Streams — это масштабируемый и надежный сервис потоковой передачи данных в режиме реального времени. Он может непрерывно собирать гигабайты данных в секунду из сотен тысяч источников, таких как потоки посещений веб-сайтов, потоки событий базы данных, финансовые транзакции, каналы социальных сетей, ИТ-журналы и события отслеживания местоположения. Собранные данные доступны за миллисекунды, что позволяет использовать варианты использования аналитики в реальном времени, такие как информационные панели в реальном времени, обнаружение аномалий в реальном времени, динамическое ценообразование и многое другое. Мы используем Kinesis Data Streams, потому что это бессерверное решение, которое можно масштабировать в зависимости от использования.

Создание потока данных Kinesis

Во-первых, вам нужно создать поток данных Kinesis для получения потоковых данных:

На консоли Amazon Kinesis выберите Потоки данных в навигационной панели.
Выберите Создать поток данных.
Что касается Имя потока данных, войти cust-payment-txn-stream.
Что касается Режим емкости, наведите на По требованию.
Для остальных параметров выберите параметры по умолчанию и следуйте инструкциям, чтобы завершить настройку.
Запишите ARN для созданного потока данных, чтобы использовать его в следующем разделе при определении политики IAM.

Потоковое ARN Highlight

Настроить разрешения

Чтобы потоковое приложение могло записывать данные в Kinesis Data Streams, оно должно иметь доступ к Kinesis. Вы можете использовать следующий оператор политики, чтобы предоставить процессу симулятора, который вы настроили в следующем разделе, доступ к потоку данных. Используйте ARN потока данных, который вы сохранили на предыдущем шаге.

{ "Version": "2012-10-17", "Statement": [
{ "Sid": "Stmt123", "Effect": "Allow", "Action": [ "kinesis:DescribeStream", "kinesis:PutRecord", "kinesis:PutRecords", "kinesis:GetShardIterator", "kinesis:GetRecords", "kinesis:ListShards", "kinesis:DescribeStreamSummary"
], "Resource": [ "arn:aws:kinesis:us-west-2:xxxxxxxxxxxx:stream/cust-payment-txn-stream"
]
}
]
}

Настройте производителя потока

Прежде чем мы сможем использовать потоковые данные в Amazon Redshift, нам нужен источник потоковых данных, который записывает данные в поток данных Kinesis. В этом посте используется специально созданный генератор данных и AWS SDK для Python (Boto3) для публикации данных в потоке данных. Инструкции по настройке см. Симулятор продюсера. Этот процесс симулятора публикует потоковые данные в потоке данных, созданном на предыдущем шаге (cust-payment-txn-stream).

Настройте потребителя потока

В этом разделе рассказывается о настройке потребителя потока (представление приема потоковой передачи Amazon Redshift).

Amazon Redshift Streaming Ingestion обеспечивает высокоскоростную передачу потоковых данных из Kinesis Data Streams в материализованное представление Amazon Redshift. Вы можете настроить свой кластер Amazon Redshift для включения приема потоковой передачи и создания материализованного представления с автоматическим обновлением с помощью операторов SQL, как описано в разделе Создание материализованных представлений в Amazon Redshift. Процесс автоматического обновления материализованного представления будет принимать потоковые данные со скоростью сотни мегабайт данных в секунду из Kinesis Data Streams в Amazon Redshift. Это приводит к быстрому доступу к внешним данным, которые быстро обновляются.

После создания материализованного представления вы можете получить доступ к своим данным из потока данных с помощью SQL и упростить свои конвейеры данных, создав материализованные представления непосредственно поверх потока.

Выполните следующие действия, чтобы настроить материализованное представление потоковой передачи Amazon Redshift:

В консоли IAM выберите политики на панели навигации.
Выберите Создать политику.
Создайте новую IAM-политику с именем KinesisStreamPolicy. Определение политики потоковой передачи см. Начало работы с потоковой передачей.
На панели навигации выберите роли.
Выберите Создать роль.
Выберите Сервис AWS , а затем выбрать Redshift и Redshift настраиваемые.
Создайте новую роль с именем redshift-streaming-role и прикрепите политику KinesisStreamPolicy.
Создайте внешнюю схему для сопоставления с Kinesis Data Streams:

CREATE EXTERNAL SCHEMA custpaytxn
FROM KINESIS IAM_ROLE 'arn:aws:iam::386xxxxxxxxx:role/redshift-streaming-role';

Теперь вы можете создать материализованное представление для использования данных потока. Вы можете использовать тип данных SUPER для хранения полезной нагрузки как есть в формате JSON или использовать функции Amazon Redshift JSON для анализа данных JSON по отдельным столбцам. В этом посте мы используем второй метод, потому что схема хорошо определена.

Создайте материализованное представление потокового приема cust_payment_tx_stream. Указав AUTO REFRESH YES в следующем коде, вы можете включить автоматическое обновление представления приема потоковой передачи, что экономит время, избегая создания конвейеров данных:

CREATE MATERIALIZED VIEW cust_payment_tx_stream
AUTO REFRESH YES
AS
SELECT approximate_arrival_timestamp ,
partition_key,
shard_id,
sequence_number,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TRANSACTION_ID')::bigint as TRANSACTION_ID,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TX_DATETIME')::character(50) as TX_DATETIME,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'CUSTOMER_ID')::int as CUSTOMER_ID,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TERMINAL_ID')::int as TERMINAL_ID,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TX_AMOUNT')::decimal(18,2) as TX_AMOUNT,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TX_TIME_SECONDS')::int as TX_TIME_SECONDS,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TX_TIME_DAYS')::int as TX_TIME_DAYS
FROM custpaytxn."cust-payment-txn-stream"
Where is_utf8(kinesis_data) AND can_json_parse(kinesis_data);

Обратите внимание, что json_extract_path_text имеет ограничение длины 64 КБ. Также from_varbye фильтрует записи размером более 65 КБ.

Обновите данные.

Материализованное представление потоковой передачи Amazon Redshift автоматически обновляется Amazon Redshift. Таким образом, вам не нужно беспокоиться об устаревании данных. При автоматическом обновлении материализованного представления данные автоматически загружаются в Amazon Redshift по мере их появления в потоке. Если вы решите выполнить эту операцию вручную, используйте следующую команду:

REFRESH MATERIALIZED VIEW cust_payment_tx_stream ;

Теперь давайте запросим потоковое материализованное представление, чтобы увидеть примеры данных:

Select * from cust_payment_tx_stream limit 10;

Давайте проверим, сколько записей сейчас в потоковом представлении:

Select count(*) as stream_rec_count from cust_payment_tx_stream;

Теперь вы завершили настройку представления приема потоковой передачи Amazon Redshift, которое постоянно обновляется данными о входящих транзакциях по кредитным картам. В моей настройке я вижу, что около 67,000 XNUMX записей были загружены в потоковое представление в то время, когда я запускал свой запрос на выборку. Это число может быть другим для вас.

Красное смещение ML

С помощью Redshift ML вы можете использовать предварительно обученную модель машинного обучения или создать ее самостоятельно. Для получения дополнительной информации см. Использование машинного обучения в Amazon Redshift.

В этом посте мы обучаем и строим модель ML, используя исторический набор данных. Данные содержат tx_fraud поле, которое помечает историческую транзакцию как мошенническую или нет. Мы строим контролируемую модель ML с помощью Redshift Auto ML, которая учится на этом наборе данных и прогнозирует входящие транзакции, когда они выполняются с помощью функций прогнозирования.

В следующих разделах мы покажем, как настроить исторический набор данных и данные о клиентах.

Загрузите исторический набор данных

В исторической таблице больше полей, чем в источнике потоковых данных. Эти поля содержат самые последние расходы клиента и оценку конечного риска, например, количество мошеннических транзакций, рассчитанное путем преобразования потоковых данных. Существуют также категориальные переменные, такие как транзакции в выходные дни или транзакции в ночное время.

Чтобы загрузить исторические данные, запустите команды с помощью Редактор запросов Amazon Redshift.

Создайте таблицу истории транзакций со следующим кодом. DDL также можно найти на GitHub.

CREATE TABLE cust_payment_tx_history
(
TRANSACTION_ID integer,
TX_DATETIME timestamp,
CUSTOMER_ID integer,
TERMINAL_ID integer,
TX_AMOUNT decimal(9,2),
TX_TIME_SECONDS integer,
TX_TIME_DAYS integer,
TX_FRAUD integer,
TX_FRAUD_SCENARIO integer,
TX_DURING_WEEKEND integer,
TX_DURING_NIGHT integer,
CUSTOMER_ID_NB_TX_1DAY_WINDOW decimal(9,2),
CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW decimal(9,2),
CUSTOMER_ID_NB_TX_7DAY_WINDOW decimal(9,2),
CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW decimal(9,2),
CUSTOMER_ID_NB_TX_30DAY_WINDOW decimal(9,2),
CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW decimal(9,2),
TERMINAL_ID_NB_TX_1DAY_WINDOW decimal(9,2),
TERMINAL_ID_RISK_1DAY_WINDOW decimal(9,2),
TERMINAL_ID_NB_TX_7DAY_WINDOW decimal(9,2),
TERMINAL_ID_RISK_7DAY_WINDOW decimal(9,2),
TERMINAL_ID_NB_TX_30DAY_WINDOW decimal(9,2),
TERMINAL_ID_RISK_30DAY_WINDOW decimal(9,2)
);
Copy cust_payment_tx_history
FROM 's3://redshift-demos/redshiftml-reinvent/2022/ant312/credit-card-transactions/credit_card_transactions_transformed_balanced.csv'
iam_role default
ignoreheader 1
csv ;

Проверим, сколько транзакций загружено:

select count(1) from cust_payment_tx_history;

Проверьте ежемесячную тенденцию мошеннических и немошеннических транзакций:

SELECT to_char(tx_datetime, 'YYYYMM') as YearMonth,
sum(case when tx_fraud=1 then 1 else 0 end) as fraud_tx,
sum(case when tx_fraud=0 then 1 else 0 end) as non_fraud_tx,
count(*) as total_tx
FROM cust_payment_tx_history
GROUP BY YearMonth;

Создание и загрузка данных о клиентах

Теперь мы создаем таблицу клиентов и загружаем данные, которые содержат адрес электронной почты и номер телефона клиента. Следующий код создает таблицу, загружает данные и производит выборку таблицы. Таблица DDL доступна на GitHub.

CREATE TABLE public."customer_info"(customer_id bigint NOT NULL encode az64,
job_title character varying(500) encode lzo,
email_address character varying(100) encode lzo,
full_name character varying(200) encode lzo,
phone_number character varying(20) encode lzo,
city varchar(50),
state varchar(50)
);
COPY customer_info
FROM 's3://redshift-demos/redshiftml-reinvent/2022/ant312/customer-data/Customer_Data.csv'
IGNOREHEADER 1
IAM_ROLE default CSV;
Select count(1) from customer_info;

В наших тестовых данных около 5,000 клиентов. На следующем снимке экрана показаны примеры данных о клиентах.

Создайте модель машинного обучения

В нашей исторической таблице транзакций по картам есть данные за 6 месяцев, которые мы теперь используем для обучения и тестирования модели ML.

В качестве входных данных модель принимает следующие поля:

TX_DURING_WEEKEND ,
TX_AMOUNT,
TX_DURING_NIGHT ,
CUSTOMER_ID_NB_TX_1DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW ,
CUSTOMER_ID_NB_TX_7DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW ,
CUSTOMER_ID_NB_TX_30DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW ,
TERMINAL_ID_NB_TX_1DAY_WINDOW ,
TERMINAL_ID_RISK_1DAY_WINDOW ,
TERMINAL_ID_NB_TX_7DAY_WINDOW ,
TERMINAL_ID_RISK_7DAY_WINDOW ,
TERMINAL_ID_NB_TX_30DAY_WINDOW ,
TERMINAL_ID_RISK_30DAY_WINDOW

Мы получаем tx_fraud как выход.

Мы разделяем эти данные на обучающие и тестовые наборы данных. Транзакции с 2022 по 04 относятся к тренировочному набору. Транзакции с 01 по 2022 используются для тестового набора.

Давайте создадим модель ML, используя знакомый SQL Оператор СОЗДАТЬ МОДЕЛЬ. Мы используем базовую форму команды Redshift ML. Следующий метод использует Amazon SageMaker Автопилот, который автоматически выполняет подготовку данных, разработку функций, выбор модели и обучение. Укажите имя корзины S3, содержащей код.

CREATE MODEL cust_cc_txn_fd
FROM (
SELECT TX_AMOUNT ,
TX_FRAUD ,
TX_DURING_WEEKEND ,
TX_DURING_NIGHT ,
CUSTOMER_ID_NB_TX_1DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW ,
CUSTOMER_ID_NB_TX_7DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW ,
CUSTOMER_ID_NB_TX_30DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW ,
TERMINAL_ID_NB_TX_1DAY_WINDOW ,
TERMINAL_ID_RISK_1DAY_WINDOW ,
TERMINAL_ID_NB_TX_7DAY_WINDOW ,
TERMINAL_ID_RISK_7DAY_WINDOW ,
TERMINAL_ID_NB_TX_30DAY_WINDOW ,
TERMINAL_ID_RISK_30DAY_WINDOW
FROM cust_payment_tx_history
WHERE cast(tx_datetime as date) between '2022-06-01' and '2022-09-30'
) TARGET tx_fraud
FUNCTION fn_customer_cc_fd
IAM_ROLE default
SETTINGS (
S3_BUCKET '<replace this with your s3 bucket name>',
s3_garbage_collect off,
max_runtime 3600
);

Я называю модель ML как Cust_cc_txn_fd, а функция предсказания как fn_customer_cc_fd. Предложение FROM показывает входные столбцы из исторической таблицы. public.cust_payment_tx_history. Целевой параметр установлен на tx_fraud, которая является целевой переменной, которую мы пытаемся предсказать. IAM_Role установлено по умолчанию, поскольку кластер настроен с этой ролью; в противном случае необходимо указать роль IAM кластера Amazon Redshift ARN. я установил max_runtime до 3,600 секунд — это время, которое мы даем SageMaker для завершения процесса. Redshift ML развертывает лучшую модель, которая определена в этот период времени.

В зависимости от сложности модели и объема данных может потребоваться некоторое время, чтобы модель стала доступной. Если вы обнаружите, что выбор модели не завершен, увеличьте значение параметра max_runtime. Вы можете установить максимальное значение 9999.

Команда CREATE MODEL запускается асинхронно, то есть в фоновом режиме. Вы можете использовать ПОКАЗАТЬ МОДЕЛЬ Команда, чтобы увидеть статус модели. Когда статус отображается как Готово, это означает, что модель обучена и развернута.

show model cust_cc_txn_fd;

На следующих снимках экрана показан наш вывод.

Из вывода я вижу, что модель была правильно распознана как BinaryClassification, и F1 был выбран в качестве цели. Счет F1 является показателем, который учитывает оба точность и отзыв. Он возвращает значение от 1 (идеальная точность и полнота) до 0 (минимально возможная оценка). В моем случае это 0.91. Чем выше значение, тем лучше производительность модели.

Давайте проверим эту модель с тестовым набором данных. Выполните следующую команду, которая извлекает выборочные прогнозы:

SELECT
tx_fraud ,
fn_customer_cc_fd(
TX_AMOUNT ,
TX_DURING_WEEKEND ,
TX_DURING_NIGHT ,
CUSTOMER_ID_NB_TX_1DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW ,
CUSTOMER_ID_NB_TX_7DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW ,
CUSTOMER_ID_NB_TX_30DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW ,
TERMINAL_ID_NB_TX_1DAY_WINDOW ,
TERMINAL_ID_RISK_1DAY_WINDOW ,
TERMINAL_ID_NB_TX_7DAY_WINDOW ,
TERMINAL_ID_RISK_7DAY_WINDOW ,
TERMINAL_ID_NB_TX_30DAY_WINDOW ,
TERMINAL_ID_RISK_30DAY_WINDOW )
FROM cust_payment_tx_history
WHERE cast(tx_datetime as date) >= '2022-10-01'
limit 10 ;

Мы видим, что некоторые значения совпадают, а некоторые нет. Давайте сравним предсказания с правдой:

SELECT
tx_fraud ,
fn_customer_cc_fd(
TX_AMOUNT ,
TX_DURING_WEEKEND ,
TX_DURING_NIGHT ,
CUSTOMER_ID_NB_TX_1DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW ,
CUSTOMER_ID_NB_TX_7DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW ,
CUSTOMER_ID_NB_TX_30DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW ,
TERMINAL_ID_NB_TX_1DAY_WINDOW ,
TERMINAL_ID_RISK_1DAY_WINDOW ,
TERMINAL_ID_NB_TX_7DAY_WINDOW ,
TERMINAL_ID_RISK_7DAY_WINDOW ,
TERMINAL_ID_NB_TX_30DAY_WINDOW ,
TERMINAL_ID_RISK_30DAY_WINDOW
) as prediction, count(*) as values
FROM public.cust_payment_tx_history
WHERE cast(tx_datetime as date) >= '2022-08-01'
Group by 1,2 ;

Мы подтвердили, что модель работает и оценка F1 хорошая. Давайте перейдем к созданию прогнозов для потоковых данных.

Прогнозировать мошеннические транзакции

Поскольку модель Redshift ML готова к использованию, мы можем использовать ее для выполнения прогнозов против приема потоковых данных. В наборе исторических данных больше полей, чем в источнике потоковых данных, но это всего лишь метрики давности и частоты для клиента и конечного риска мошеннической транзакции.

Мы можем очень легко применять преобразования поверх потоковых данных, встраивая SQL в представления. Создайте первый взгляд, который объединяет потоковые данные на уровне клиента. Затем создайте второй взгляд, который объединяет потоковые данные на уровне терминала, и третий вид, который объединяет входящие данные о транзакциях с агрегированными данными о клиентах и терминалах и вызывает функцию прогнозирования в одном месте. Код для третьего представления выглядит следующим образом:

CREATE VIEW public.cust_payment_tx_fraud_predictions
as
select a.approximate_arrival_timestamp,
d.full_name , d.email_address, d.phone_number,
a.TRANSACTION_ID, a.TX_DATETIME, a.CUSTOMER_ID, a.TERMINAL_ID,
a.TX_AMOUNT ,
a.TX_TIME_SECONDS ,
a.TX_TIME_DAYS ,
public.fn_customer_cc_fd(a.TX_AMOUNT ,
a.TX_DURING_WEEKEND,
a.TX_DURING_NIGHT,
c.CUSTOMER_ID_NB_TX_1DAY_WINDOW ,
c.CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW ,
c.CUSTOMER_ID_NB_TX_7DAY_WINDOW ,
c.CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW ,
c.CUSTOMER_ID_NB_TX_30DAY_WINDOW ,
c.CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW ,
t.TERMINAL_ID_NB_TX_1DAY_WINDOW ,
t.TERMINAL_ID_RISK_1DAY_WINDOW ,
t.TERMINAL_ID_NB_TX_7DAY_WINDOW ,
t.TERMINAL_ID_RISK_7DAY_WINDOW ,
t.TERMINAL_ID_NB_TX_30DAY_WINDOW ,
t.TERMINAL_ID_RISK_30DAY_WINDOW ) Fraud_prediction
From
(select
Approximate_arrival_timestamp,
TRANSACTION_ID, TX_DATETIME, CUSTOMER_ID, TERMINAL_ID,
TX_AMOUNT ,
TX_TIME_SECONDS ,
TX_TIME_DAYS ,
case when extract(dow from cast(TX_DATETIME as timestamp)) in (1,7) then 1 else 0 end as TX_DURING_WEEKEND,
case when extract(hour from cast(TX_DATETIME as timestamp)) between 00 and 06 then 1 else 0 end as TX_DURING_NIGHT
FROM cust_payment_tx_stream) a
join terminal_transformations t
on a.terminal_id = t.terminal_id
join customer_transformations c
on a.customer_id = c.customer_id
join customer_info d
on a.customer_id = d.customer_id
;

Запустите оператор SELECT для представления:

select * from
cust_payment_tx_fraud_predictions
where Fraud_prediction = 1;

По мере многократного выполнения инструкции SELECT последние транзакции по кредитным картам претерпевают преобразования и прогнозы машинного обучения почти в реальном времени.

Это демонстрирует мощь Amazon Redshift — с помощью простых в использовании команд SQL вы можете преобразовывать потоковые данные, применяя сложные оконные функции, и применять модель машинного обучения для прогнозирования мошеннических транзакций за один шаг, без создания сложных конвейеров данных или построения и управления дополнительная инфраструктура.

Развернуть решение

Поскольку потоки данных и прогнозы машинного обучения выполняются почти в реальном времени, вы можете создавать бизнес-процессы для оповещения своих клиентов, используя Amazon Простая служба уведомлений (Amazon SNS), или вы можете заблокировать счет кредитной карты клиента в операционной системе.

В этом посте не рассматриваются подробности этих операций, но если вам интересно узнать больше о создании решений, управляемых событиями, с помощью Amazon Redshift, см. следующие материалы. Репозиторий GitHub.

Убирать

Чтобы избежать дополнительных расходов в будущем, удалите ресурсы, созданные в рамках этой публикации.

Заключение

В этом посте мы продемонстрировали, как настроить поток данных Kinesis, настроить производителя и опубликовать данные в потоках, а затем создать представление Amazon Redshift Streaming Ingestion и запросить данные в Amazon Redshift. После того, как данные были помещены в кластер Amazon Redshift, мы продемонстрировали, как обучать модель машинного обучения, создавать функцию прогнозирования и применять ее к потоковым данным для создания прогнозов практически в реальном времени.

Если у вас есть какие-либо отзывы или вопросы, пожалуйста, оставьте их в комментариях.

Об авторах

Бхану Питтампалли является специалистом по аналитике, архитектором решений из Далласа. Специализируется на построении аналитических решений. Его опыт связан с хранилищами данных — архитектурой, разработкой и администрированием. Он работает в сфере данных и аналитики более 15 лет.

Правин Кадипиконда является старшим специалистом по аналитике, архитектором решений в AWS из Далласа. Он помогает клиентам создавать эффективные, производительные и масштабируемые аналитические решения. Он работал над созданием баз данных и решений для хранилищ данных более 15 лет.

Ритеш Кумар Синха является специалистом по аналитике, архитектором решений из Сан-Франциско. Более 16 лет он помогает клиентам создавать масштабируемые хранилища данных и решения для больших данных. Ему нравится проектировать и создавать эффективные комплексные решения на AWS. В свободное время он любит читать, гулять и заниматься йогой.

SEO-контент и PR-распределение. Получите усиление сегодня.
Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
Источник: https://aws.amazon.com/blogs/big-data/near-real-time-fraud-detection-using-amazon-redshift-streaming-ingestion-with-amazon-kinesis-data-streams-and-amazon-redshift-ml/

Отметка времени: 4 января 2023

Отметка времени: 1 февраля, 2023

Переиздано Платоном

Представляем обновления версий на месте с помощью Amazon MWAA | Веб-сервисы Амазонки

Как компания Vanguard сделала свою технологическую платформу отказоустойчивой и эффективной, создав межрегиональную репликацию для Amazon Kinesis Data Streams

Используйте рецепты AWS Glue DataBrew в своих визуальных ETL-заданиях AWS Glue Studio | Веб-сервисы Амазонки

Выполняйте запросы к таблицам Iceberg в озере данных с помощью Amazon Redshift (предварительная версия) | Веб-сервисы Amazon

Amazon EMR запускает поддержку инстансов Amazon EC2 C7g (Graviton3), чтобы повысить рентабельность рабочих нагрузок Spark на 7–13 %.

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись