अमेज़ॅन किनेसिस डेटा स्ट्रीम और अमेज़ॅन रेडशिफ्ट एमएल के साथ अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण का उपयोग करते हुए निकट-वास्तविक समय धोखाधड़ी का पता लगाना

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

डेटा वेयरहाउस प्लेटफॉर्म पर प्रदर्शन किए गए डेटा वेयरहाउस और एनालिटिक्स का महत्व वर्षों से लगातार बढ़ रहा है, कई व्यवसाय इन प्रणालियों पर भरोसा करने के लिए आ रहे हैं, जो अल्पकालिक परिचालन निर्णय लेने और दीर्घकालिक रणनीतिक योजना दोनों के लिए मिशन-महत्वपूर्ण हैं। परंपरागत रूप से, डेटा वेयरहाउस को बैच चक्रों में ताज़ा किया जाता है, उदाहरण के लिए, मासिक, साप्ताहिक या दैनिक, ताकि व्यवसाय उनसे विभिन्न अंतर्दृष्टि प्राप्त कर सकें।

कई संगठन यह महसूस कर रहे हैं कि निकट-वास्तविक समय डेटा अंतर्ग्रहण उन्नत विश्लेषण के साथ नए अवसरों को खोलता है। उदाहरण के लिए, एक वित्तीय संस्थान यह अनुमान लगा सकता है कि क्या बैच मोड के बजाय निकट-वास्तविक समय मोड में एक विसंगति का पता लगाने वाला कार्यक्रम चलाकर क्रेडिट कार्ड लेनदेन धोखाधड़ी है।

इस पोस्ट में, हम दिखाते हैं कि कैसे अमेज़न रेडशिफ्ट सभी एक मंच में स्ट्रीमिंग अंतर्ग्रहण और मशीन लर्निंग (एमएल) पूर्वानुमान दे सकते हैं।

अमेज़ॅन रेडशिफ्ट एक तेज़, स्केलेबल, सुरक्षित और पूरी तरह से प्रबंधित क्लाउड डेटा वेयरहाउस है जो मानक SQL का उपयोग करके आपके सभी डेटा का विश्लेषण करना आसान और लागत प्रभावी बनाता है।

अमेज़ॅन रेडशिफ्ट एमएल डेटा विश्लेषकों और डेटाबेस डेवलपर्स के लिए अमेज़ॅन रेडशिफ्ट डेटा वेयरहाउस में परिचित SQL कमांड का उपयोग करके एमएल मॉडल बनाना, प्रशिक्षित करना और लागू करना आसान बनाता है।

हम लॉन्च करने के लिए उत्साहित हैं अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण एसटी अमेज़न Kinesis डेटा स्ट्रीम और Apache Kafka के लिए Amazon प्रबंधित स्ट्रीमिंग (अमेज़ॅन एमएसके), जो आपको डेटा को चरणबद्ध किए बिना किनेसिस डेटा स्ट्रीम या काफ्का विषय से सीधे डेटा निगलने में सक्षम बनाता है। अमेज़न सरल भंडारण सेवा (अमेज़न एस 3)। अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण आपको अपने डेटा वेयरहाउस में सैकड़ों मेगाबाइट डेटा अंतर्ग्रहण करते हुए सेकंड के क्रम में कम विलंबता प्राप्त करने की अनुमति देता है।

यह पोस्ट दर्शाता है कि कैसे अमेज़ॅन रेडशिफ्ट, क्लाउड डेटा वेयरहाउस आपको परिचित एसक्यूएल भाषा के साथ अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण और रेडशिफ्ट एमएल सुविधाओं का उपयोग करके निकट-वास्तविक समय एमएल भविष्यवाणियों का निर्माण करने की अनुमति देता है।

समाधान अवलोकन

इस पोस्ट में उल्लिखित चरणों का पालन करके, आप निर्माता स्ट्रीमर एप्लिकेशन को एक पर सेट करने में सक्षम होंगे अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन EC2) उदाहरण जो क्रेडिट कार्ड लेनदेन का अनुकरण करता है और डेटा को वास्तविक समय में किनेसिस डेटा स्ट्रीम में धकेलता है। आप अमेज़न रेडशिफ्ट पर एक अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण मटेरियलाइज्ड व्यू सेट करते हैं, जहां स्ट्रीमिंग डेटा प्राप्त होता है। स्ट्रीमिंग डेटा के विरुद्ध रीयल-टाइम अनुमान उत्पन्न करने के लिए आप रेडशिफ्ट एमएल मॉडल को प्रशिक्षित और बनाते हैं।

निम्नलिखित आरेख वास्तुकला और प्रक्रिया प्रवाह को दिखाता है।

चरण-दर-चरण प्रक्रिया इस प्रकार है:

EC2 उदाहरण एक क्रेडिट कार्ड लेन-देन एप्लिकेशन का अनुकरण करता है, जो किनेसिस डेटा स्ट्रीम में क्रेडिट कार्ड लेनदेन सम्मिलित करता है।
डेटा स्ट्रीम आने वाले क्रेडिट कार्ड लेनदेन डेटा को संग्रहीत करता है।
एक अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण भौतिकीकृत दृश्य डेटा स्ट्रीम के शीर्ष पर बनाया गया है, जो स्वचालित रूप से स्ट्रीमिंग डेटा को अमेज़ॅन रेडशिफ्ट में शामिल करता है।
आप रेडशिफ्ट एमएल का उपयोग करके एमएल मॉडल का निर्माण, प्रशिक्षण और परिनियोजन करते हैं। रेडशिफ्ट एमएल मॉडल को ऐतिहासिक लेनदेन संबंधी डेटा का उपयोग करके प्रशिक्षित किया जाता है।
आप स्ट्रीमिंग डेटा को रूपांतरित करते हैं और एमएल भविष्यवाणियां उत्पन्न करते हैं।
जोखिम कम करने के लिए आप ग्राहकों को सचेत कर सकते हैं या एप्लिकेशन को अपडेट कर सकते हैं।

यह पूर्वाभ्यास क्रेडिट कार्ड लेनदेन स्ट्रीमिंग डेटा का उपयोग करता है। क्रेडिट कार्ड लेन-देन डेटा काल्पनिक है और एक पर आधारित है सिम्युलेटर. ग्राहक डाटासेट भी काल्पनिक है और कुछ यादृच्छिक डेटा कार्यों के साथ उत्पन्न होता है।

.. पूर्वापेक्षाएँ

Amazon Redshift क्लस्टर बनाएं.
रेडशिफ्ट एमएल का उपयोग करने के लिए क्लस्टर को कॉन्फ़िगर करें.
बनाएं an AWS पहचान और अभिगम प्रबंधन (IAM) उपयोगकर्ता।
Kinesis डेटा स्ट्रीम तक पहुँचने के लिए अनुमतियाँ शामिल करने के लिए Redshift क्लस्टर से जुड़ी IAM भूमिका को अपडेट करें। आवश्यक नीति के बारे में अधिक जानकारी के लिए देखें अंतर्ग्रहण स्ट्रीमिंग के साथ प्रारंभ करना.
एक m5.4xlarge EC2 उदाहरण बनाएँ. हमने m5.4xlarge इंस्टेंस के साथ प्रोड्यूसर एप्लिकेशन का परीक्षण किया लेकिन आप अन्य इंस्टेंस प्रकार का उपयोग करने के लिए स्वतंत्र हैं। उदाहरण बनाते समय, का उपयोग करें amzn2-ami-kernel-5.10-hvm-2.0.20220426.0-x86_64-gp2 एएमआई।
यह सुनिश्चित करने के लिए कि EC3 उदाहरण में Python2 स्थापित है, अपने Python संस्करण को सत्यापित करने के लिए निम्न कमांड चलाएँ (ध्यान दें कि डेटा निष्कर्षण स्क्रिप्ट केवल Python 3 पर काम करती है):

python3 --version

सिम्युलेटर प्रोग्राम चलाने के लिए निम्नलिखित निर्भर पैकेजों को स्थापित करें:

sudo yum install python3-pip
pip3 install numpy
pip3 install pandas
pip3 install matplotlib
pip3 install seaborn
pip3 install boto3

उपरोक्त चरण 2 में बनाए गए IAM उपयोगकर्ता के लिए उत्पन्न AWS क्रेडेंशियल्स जैसे चर का उपयोग करके Amazon EC3 को कॉन्फ़िगर करें। निम्न स्क्रीनशॉट उपयोग करते हुए एक उदाहरण दिखाता है एवेएस कॉन्फ़िगर करें.

किनेसिस डेटा स्ट्रीम सेट अप करें

Amazon Kinesis Data Streams एक बड़े पैमाने पर स्केलेबल और टिकाऊ रीयल-टाइम डेटा स्ट्रीमिंग सेवा है। यह वेबसाइट क्लिकस्ट्रीम, डेटाबेस इवेंट स्ट्रीम, वित्तीय लेनदेन, सोशल मीडिया फीड, आईटी लॉग और स्थान-ट्रैकिंग इवेंट जैसे सैकड़ों हजारों स्रोतों से प्रति सेकंड गीगाबाइट डेटा को लगातार कैप्चर कर सकता है। एकत्र किया गया डेटा मिलीसेकंड में उपलब्ध होता है ताकि रीयल-टाइम विश्लेषण उपयोग मामलों जैसे रीयल-टाइम डैशबोर्ड, रीयल-टाइम विसंगति पहचान, गतिशील मूल्य निर्धारण आदि को सक्षम किया जा सके। हम किनेसिस डेटा स्ट्रीम का उपयोग करते हैं क्योंकि यह एक सर्वर रहित समाधान है जो उपयोग के आधार पर स्केल कर सकता है।

एक किनेसिस डेटा स्ट्रीम बनाएं

सबसे पहले, आपको स्ट्रीमिंग डेटा प्राप्त करने के लिए किनेसिस डेटा स्ट्रीम बनाने की आवश्यकता है:

Amazon Kinesis कंसोल पर, चुनें डेटा स्ट्रीम नेविगेशन फलक में
चुनें डेटा स्ट्रीम बनाएँ.
के लिए डेटा स्ट्रीम नाम, दर्ज cust-payment-txn-stream.
के लिए क्षमता मोड, चुनते हैं मांग पर.
बाकी विकल्पों के लिए, डिफ़ॉल्ट विकल्प चुनें और सेटअप पूरा करने के लिए संकेतों का पालन करें।
अपनी IAM नीति को परिभाषित करते समय अगले खंड में उपयोग करने के लिए बनाई गई डेटा स्ट्रीम के लिए ARN को कैप्चर करें।

स्ट्रीमिंग एआरएन हाइलाइट

अनुमतियाँ सेट करें

किनेसिस डेटा स्ट्रीम्स को लिखने के लिए स्ट्रीमिंग एप्लिकेशन के लिए, एप्लिकेशन को किनेसिस तक पहुंच की आवश्यकता होती है। आप उस सिम्युलेटर प्रक्रिया को प्रदान करने के लिए निम्न नीति कथन का उपयोग कर सकते हैं जिसे आपने अगले अनुभाग में डेटा स्ट्रीम तक पहुंच के लिए सेट किया है। उस डेटा स्ट्रीम के ARN का उपयोग करें जिसे आपने पिछले चरण में सहेजा था।

{ "Version": "2012-10-17", "Statement": [
{ "Sid": "Stmt123", "Effect": "Allow", "Action": [ "kinesis:DescribeStream", "kinesis:PutRecord", "kinesis:PutRecords", "kinesis:GetShardIterator", "kinesis:GetRecords", "kinesis:ListShards", "kinesis:DescribeStreamSummary"
], "Resource": [ "arn:aws:kinesis:us-west-2:xxxxxxxxxxxx:stream/cust-payment-txn-stream"
]
}
]
}

स्ट्रीम निर्माता को कॉन्फ़िगर करें

इससे पहले कि हम अमेज़न रेडशिफ्ट में स्ट्रीमिंग डेटा का उपभोग कर सकें, हमें एक स्ट्रीमिंग डेटा स्रोत की आवश्यकता होती है जो डेटा को किनेसिस डेटा स्ट्रीम में लिखता है। यह पोस्ट एक कस्टम-निर्मित डेटा जनरेटर और का उपयोग करता है अजगर के लिए AWS SDK (Boto3) डेटा स्ट्रीम में डेटा प्रकाशित करने के लिए। सेटअप निर्देशों के लिए, देखें निर्माता सिम्युलेटर. यह सिम्युलेटर प्रक्रिया स्ट्रीमिंग डेटा को पिछले चरण में बनाए गए डेटा स्ट्रीम में प्रकाशित करती है (cust-payment-txn-stream).

स्ट्रीम उपभोक्ता को कॉन्फ़िगर करें

यह खंड धारा उपभोक्ता (अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण दृश्य) को कॉन्फ़िगर करने के बारे में बात करता है।

अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण कम-विलंबता, किनेसिस डेटा स्ट्रीम से स्ट्रीमिंग डेटा को अमेज़ॅन रेडशिफ्ट मटेरियलाइज्ड दृश्य में उच्च गति अंतर्ग्रहण प्रदान करता है। आप अपने अमेज़ॅन रेडशिफ्ट क्लस्टर को स्ट्रीमिंग अंतर्ग्रहण को सक्षम करने के लिए कॉन्फ़िगर कर सकते हैं और ऑटो रिफ्रेश के साथ एक भौतिक दृश्य बना सकते हैं, जैसा कि वर्णित SQL कथनों का उपयोग कर रहा है। अमेज़ॅन रेडशिफ्ट में भौतिक दृश्य बनाना. स्वचालित मटेरियलाइज्ड व्यू रिफ्रेश प्रक्रिया, किनेसिस डेटा स्ट्रीम से अमेज़ॅन रेडशिफ्ट में प्रति सेकंड सैकड़ों मेगाबाइट डेटा पर स्ट्रीमिंग डेटा को निगलेगी। इसके परिणामस्वरूप बाहरी डेटा तक तेजी से पहुंच होती है जो जल्दी से ताज़ा हो जाता है।

भौतिकीकृत दृश्य बनाने के बाद, आप SQL का उपयोग करके डेटा स्ट्रीम से अपने डेटा तक पहुंच सकते हैं और स्ट्रीम के शीर्ष पर सीधे भौतिक दृश्य बनाकर अपनी डेटा पाइपलाइनों को सरल बना सकते हैं।

अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग मटेरियलाइज्ड व्यू को कॉन्फ़िगर करने के लिए निम्नलिखित चरणों को पूरा करें:

IAM कंसोल पर, नेविगेशन पेन में नीतियां चुनें।
चुनें नीति बनाएं.
नामक एक नई IAM नीति बनाएँ KinesisStreamPolicy. स्ट्रीमिंग नीति की परिभाषा के लिए, देखें अंतर्ग्रहण स्ट्रीमिंग के साथ प्रारंभ करना.
नेविगेशन फलक में, चुनें भूमिकाओं.
भूमिका चुनें।
चुनते हैं AWS सेवा और चुनें रेडशिफ्ट और रेडशिफ्ट अनुकूलन योग्य.
नामक एक नई भूमिका बनाएँ redshift-streaming-role और नीति संलग्न करें KinesisStreamPolicy.
Kinesis Data Streams को मैप करने के लिए एक बाहरी स्कीमा बनाएँ:

CREATE EXTERNAL SCHEMA custpaytxn
FROM KINESIS IAM_ROLE 'arn:aws:iam::386xxxxxxxxx:role/redshift-streaming-role';

अब आप स्ट्रीम डेटा का उपभोग करने के लिए भौतिक दृश्य बना सकते हैं। आप JSON प्रारूप में पेलोड को स्टोर करने के लिए सुपर डेटा प्रकार का उपयोग कर सकते हैं, या JSON डेटा को अलग-अलग कॉलम में पार्स करने के लिए अमेज़ॅन रेडशिफ्ट JSON फ़ंक्शंस का उपयोग कर सकते हैं। इस पोस्ट के लिए, हम दूसरी विधि का उपयोग करते हैं क्योंकि स्कीमा अच्छी तरह परिभाषित है।

स्ट्रीमिंग अंतर्ग्रहण भौतिकीकृत दृश्य बनाएं cust_payment_tx_stream. निम्नलिखित कोड में AUTO REFRESH YES निर्दिष्ट करके, आप स्ट्रीमिंग अंतर्ग्रहण दृश्य के स्वत: ताज़ा होने को सक्षम कर सकते हैं, जो डेटा पाइपलाइनों के निर्माण से बचकर समय बचाता है:

CREATE MATERIALIZED VIEW cust_payment_tx_stream
AUTO REFRESH YES
AS
SELECT approximate_arrival_timestamp ,
partition_key,
shard_id,
sequence_number,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TRANSACTION_ID')::bigint as TRANSACTION_ID,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TX_DATETIME')::character(50) as TX_DATETIME,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'CUSTOMER_ID')::int as CUSTOMER_ID,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TERMINAL_ID')::int as TERMINAL_ID,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TX_AMOUNT')::decimal(18,2) as TX_AMOUNT,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TX_TIME_SECONDS')::int as TX_TIME_SECONDS,
json_extract_path_text(from_varbyte(kinesis_data, 'utf-8'),'TX_TIME_DAYS')::int as TX_TIME_DAYS
FROM custpaytxn."cust-payment-txn-stream"
Where is_utf8(kinesis_data) AND can_json_parse(kinesis_data);

ध्यान दें कि json_extract_path_text 64 KB की लंबाई सीमा है। साथ ही from_varbye 65KB से बड़े रिकॉर्ड को फ़िल्टर करता है।

डेटा को रिफ्रेश करें।

अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग मटेरियलाइज्ड व्यू आपके लिए अमेज़ॅन रेडशिफ्ट द्वारा ऑटो रीफ्रेश किया गया है। इस तरह, आपको डेटा पुरानेपन के बारे में चिंता करने की आवश्यकता नहीं है। मटेरियलाइज्ड व्यू ऑटो रिफ्रेश के साथ, डेटा स्वचालित रूप से अमेज़ॅन रेडशिफ्ट में लोड हो जाता है क्योंकि यह स्ट्रीम में उपलब्ध हो जाता है। यदि आप इस ऑपरेशन को मैन्युअल रूप से करना चुनते हैं, तो निम्न आदेश का उपयोग करें:

REFRESH MATERIALIZED VIEW cust_payment_tx_stream ;

अब नमूना डेटा देखने के लिए स्ट्रीमिंग मटेरियलाइज्ड व्यू से पूछताछ करें:

Select * from cust_payment_tx_stream limit 10;

आइए देखें कि अब स्ट्रीमिंग दृश्य में कितने रिकॉर्ड हैं:

Select count(*) as stream_rec_count from cust_payment_tx_stream;

अब आपने अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण दृश्य को सेट करना समाप्त कर लिया है, जो आने वाले क्रेडिट कार्ड लेनदेन डेटा के साथ लगातार अपडेट किया जाता है। मेरे सेटअप में, मैं देखता हूं कि लगभग 67,000 रिकॉर्ड उस समय स्ट्रीमिंग व्यू में खींचे गए हैं जब मैंने अपनी चुनिंदा गिनती क्वेरी चलाई थी। यह संख्या आपके लिए अलग हो सकती है।

रेडशिफ्ट एमएल

रेडशिफ्ट एमएल के साथ, आप एक पूर्व-प्रशिक्षित एमएल मॉडल ला सकते हैं या मूल रूप से एक बना सकते हैं। अधिक जानकारी के लिए, देखें Amazon Redshift में मशीन लर्निंग का उपयोग करना.

इस पोस्ट में, हम एक ऐतिहासिक डेटासेट का उपयोग करके एमएल मॉडल को प्रशिक्षित और निर्मित करते हैं। डेटा में एक शामिल है tx_fraud क्षेत्र जो एक ऐतिहासिक लेन-देन को कपटपूर्ण या नहीं के रूप में फ़्लैग करता है। हम रेडशिफ्ट ऑटो एमएल का उपयोग करके एक पर्यवेक्षित एमएल मॉडल का निर्माण करते हैं, जो इस डेटासेट से सीखता है और आने वाले लेनदेन की भविष्यवाणी करता है जब वे भविष्यवाणी कार्यों के माध्यम से चलाए जाते हैं।

निम्नलिखित अनुभागों में, हम दिखाते हैं कि ऐतिहासिक डेटासेट और ग्राहक डेटा कैसे सेट अप करें।

ऐतिहासिक डेटासेट लोड करें

स्ट्रीमिंग डेटा स्रोत की तुलना में ऐतिहासिक तालिका में अधिक फ़ील्ड हैं। इन क्षेत्रों में ग्राहक का सबसे हालिया खर्च और टर्मिनल जोखिम स्कोर होता है, जैसे स्ट्रीमिंग डेटा को बदलकर गणना की गई धोखाधड़ी वाले लेनदेन की संख्या। सप्ताहांत के लेन-देन या रात के समय के लेन-देन जैसे श्रेणीबद्ध चर भी होते हैं।

ऐतिहासिक डेटा लोड करने के लिए, का उपयोग करके कमांड चलाएँ अमेज़न Redshift क्वेरी संपादक.

निम्नलिखित कोड के साथ लेन-देन इतिहास तालिका बनाएँ। डीडीएल पर भी पाया जा सकता है GitHub.

CREATE TABLE cust_payment_tx_history
(
TRANSACTION_ID integer,
TX_DATETIME timestamp,
CUSTOMER_ID integer,
TERMINAL_ID integer,
TX_AMOUNT decimal(9,2),
TX_TIME_SECONDS integer,
TX_TIME_DAYS integer,
TX_FRAUD integer,
TX_FRAUD_SCENARIO integer,
TX_DURING_WEEKEND integer,
TX_DURING_NIGHT integer,
CUSTOMER_ID_NB_TX_1DAY_WINDOW decimal(9,2),
CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW decimal(9,2),
CUSTOMER_ID_NB_TX_7DAY_WINDOW decimal(9,2),
CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW decimal(9,2),
CUSTOMER_ID_NB_TX_30DAY_WINDOW decimal(9,2),
CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW decimal(9,2),
TERMINAL_ID_NB_TX_1DAY_WINDOW decimal(9,2),
TERMINAL_ID_RISK_1DAY_WINDOW decimal(9,2),
TERMINAL_ID_NB_TX_7DAY_WINDOW decimal(9,2),
TERMINAL_ID_RISK_7DAY_WINDOW decimal(9,2),
TERMINAL_ID_NB_TX_30DAY_WINDOW decimal(9,2),
TERMINAL_ID_RISK_30DAY_WINDOW decimal(9,2)
);
Copy cust_payment_tx_history
FROM 's3://redshift-demos/redshiftml-reinvent/2022/ant312/credit-card-transactions/credit_card_transactions_transformed_balanced.csv'
iam_role default
ignoreheader 1
csv ;

आइए देखें कि कितने लेनदेन लोड किए गए हैं:

select count(1) from cust_payment_tx_history;

मासिक धोखाधड़ी और गैर-धोखाधड़ी लेनदेन की प्रवृत्ति की जाँच करें:

SELECT to_char(tx_datetime, 'YYYYMM') as YearMonth,
sum(case when tx_fraud=1 then 1 else 0 end) as fraud_tx,
sum(case when tx_fraud=0 then 1 else 0 end) as non_fraud_tx,
count(*) as total_tx
FROM cust_payment_tx_history
GROUP BY YearMonth;

ग्राहक डेटा बनाएं और लोड करें

अब हम ग्राहक तालिका बनाते हैं और डेटा लोड करते हैं, जिसमें ग्राहक का ईमेल और फ़ोन नंबर होता है। निम्न कोड तालिका बनाता है, डेटा लोड करता है, और तालिका का नमूना लेता है। टेबल डीडीएल पर उपलब्ध है GitHub.

CREATE TABLE public."customer_info"(customer_id bigint NOT NULL encode az64,
job_title character varying(500) encode lzo,
email_address character varying(100) encode lzo,
full_name character varying(200) encode lzo,
phone_number character varying(20) encode lzo,
city varchar(50),
state varchar(50)
);
COPY customer_info
FROM 's3://redshift-demos/redshiftml-reinvent/2022/ant312/customer-data/Customer_Data.csv'
IGNOREHEADER 1
IAM_ROLE default CSV;
Select count(1) from customer_info;

हमारे परीक्षण डेटा में लगभग 5,000 ग्राहक हैं। निम्न स्क्रीनशॉट नमूना ग्राहक डेटा दिखाता है।

एक एमएल मॉडल बनाएँ

हमारी ऐतिहासिक कार्ड लेन-देन तालिका में 6 महीने का डेटा है, जिसका उपयोग अब हम एमएल मॉडल को प्रशिक्षित करने और परीक्षण करने के लिए करते हैं।

मॉडल निम्नलिखित क्षेत्रों को इनपुट के रूप में लेता है:

TX_DURING_WEEKEND ,
TX_AMOUNT,
TX_DURING_NIGHT ,
CUSTOMER_ID_NB_TX_1DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW ,
CUSTOMER_ID_NB_TX_7DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW ,
CUSTOMER_ID_NB_TX_30DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW ,
TERMINAL_ID_NB_TX_1DAY_WINDOW ,
TERMINAL_ID_RISK_1DAY_WINDOW ,
TERMINAL_ID_NB_TX_7DAY_WINDOW ,
TERMINAL_ID_RISK_7DAY_WINDOW ,
TERMINAL_ID_NB_TX_30DAY_WINDOW ,
TERMINAL_ID_RISK_30DAY_WINDOW

हमें मिला tx_fraud आउटपुट के रूप में।

हम इस डेटा को प्रशिक्षण और परीक्षण डेटासेट में विभाजित करते हैं। 2022-04-01 से 2022-07-31 तक के लेन-देन प्रशिक्षण सेट के लिए हैं। परीक्षण सेट के लिए 2022-08-01 से 2022-09-30 तक के लेनदेन का उपयोग किया जाता है।

आइए परिचित SQL का उपयोग करके ML मॉडल बनाते हैं मॉडल स्टेटमेंट बनाएं. हम रेडशिफ्ट एमएल कमांड के मूल रूप का उपयोग करते हैं। निम्नलिखित विधि का प्रयोग करता है अमेज़ॅन सैजमेकर ऑटोपायलट, जो आपके लिए स्वचालित रूप से डेटा तैयारी, फीचर इंजीनियरिंग, मॉडल चयन और प्रशिक्षण करता है। कोड वाली अपनी S3 बकेट का नाम प्रदान करें।

CREATE MODEL cust_cc_txn_fd
FROM (
SELECT TX_AMOUNT ,
TX_FRAUD ,
TX_DURING_WEEKEND ,
TX_DURING_NIGHT ,
CUSTOMER_ID_NB_TX_1DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW ,
CUSTOMER_ID_NB_TX_7DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW ,
CUSTOMER_ID_NB_TX_30DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW ,
TERMINAL_ID_NB_TX_1DAY_WINDOW ,
TERMINAL_ID_RISK_1DAY_WINDOW ,
TERMINAL_ID_NB_TX_7DAY_WINDOW ,
TERMINAL_ID_RISK_7DAY_WINDOW ,
TERMINAL_ID_NB_TX_30DAY_WINDOW ,
TERMINAL_ID_RISK_30DAY_WINDOW
FROM cust_payment_tx_history
WHERE cast(tx_datetime as date) between '2022-06-01' and '2022-09-30'
) TARGET tx_fraud
FUNCTION fn_customer_cc_fd
IAM_ROLE default
SETTINGS (
S3_BUCKET '<replace this with your s3 bucket name>',
s3_garbage_collect off,
max_runtime 3600
);

मैं एमएल मॉडल को इस रूप में बुलाता हूं Cust_cc_txn_fd, और भविष्यवाणी कार्य के रूप में fn_customer_cc_fd. FROM खंड ऐतिहासिक तालिका से इनपुट कॉलम दिखाता है public.cust_payment_tx_history. लक्ष्य पैरामीटर पर सेट है tx_fraud, जो लक्ष्य चर है जिसका हम अनुमान लगाने की कोशिश कर रहे हैं। IAM_Role डिफ़ॉल्ट पर सेट है क्योंकि क्लस्टर इस भूमिका के साथ कॉन्फ़िगर किया गया है; यदि नहीं, तो आपको अपना अमेज़ॅन रेडशिफ्ट क्लस्टर IAM भूमिका ARN प्रदान करना होगा। मैंने सेट किया max_runtime 3,600 सेकेंड तक, जो कि हम प्रक्रिया को पूरा करने के लिए सैजमेकर को देते हैं। रेडशिफ्ट एमएल इस समय सीमा में पहचाने जाने वाले सर्वोत्तम मॉडल को तैनात करता है।

मॉडल की जटिलता और डेटा की मात्रा के आधार पर, मॉडल को उपलब्ध होने में कुछ समय लग सकता है। यदि आप पाते हैं कि आपका मॉडल चयन पूरा नहीं हो रहा है, तो इसके लिए मान बढ़ाएँ max_runtime. आप 9999 का अधिकतम मान सेट कर सकते हैं।

क्रिएट मॉडल कमांड अतुल्यकालिक रूप से चलाया जाता है, जिसका अर्थ है कि यह पृष्ठभूमि में चलता है। आप उपयोग कर सकते हैं मॉडल दिखाएं मॉडल की स्थिति देखने के लिए आदेश। जब स्थिति तैयार के रूप में दिखाई देती है, तो इसका मतलब है कि मॉडल प्रशिक्षित और परिनियोजित है।

show model cust_cc_txn_fd;

निम्नलिखित स्क्रीनशॉट हमारे आउटपुट को दिखाते हैं।

आउटपुट से, मैं देखता हूं कि मॉडल को सही ढंग से पहचाना गया है BinaryClassification, और F1 को उद्देश्य के रूप में चुना गया है। एफ 1 का स्कोर एक मीट्रिक है जो दोनों पर विचार करता है सटीकता और याद. यह 1 (पूर्ण परिशुद्धता और रिकॉल) और 0 (न्यूनतम संभव स्कोर) के बीच का मान लौटाता है। मेरे मामले में, यह 0.91 है। मूल्य जितना अधिक होगा, मॉडल का प्रदर्शन उतना ही बेहतर होगा।

आइए इस मॉडल का परीक्षण डेटासेट के साथ करें। निम्नलिखित आदेश चलाएँ, जो नमूना पूर्वानुमानों को पुनः प्राप्त करता है:

SELECT
tx_fraud ,
fn_customer_cc_fd(
TX_AMOUNT ,
TX_DURING_WEEKEND ,
TX_DURING_NIGHT ,
CUSTOMER_ID_NB_TX_1DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW ,
CUSTOMER_ID_NB_TX_7DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW ,
CUSTOMER_ID_NB_TX_30DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW ,
TERMINAL_ID_NB_TX_1DAY_WINDOW ,
TERMINAL_ID_RISK_1DAY_WINDOW ,
TERMINAL_ID_NB_TX_7DAY_WINDOW ,
TERMINAL_ID_RISK_7DAY_WINDOW ,
TERMINAL_ID_NB_TX_30DAY_WINDOW ,
TERMINAL_ID_RISK_30DAY_WINDOW )
FROM cust_payment_tx_history
WHERE cast(tx_datetime as date) >= '2022-10-01'
limit 10 ;

हम देखते हैं कि कुछ मान मेल खाते हैं और कुछ नहीं। आइए भविष्यवाणियों की जमीनी सच्चाई से तुलना करें:

SELECT
tx_fraud ,
fn_customer_cc_fd(
TX_AMOUNT ,
TX_DURING_WEEKEND ,
TX_DURING_NIGHT ,
CUSTOMER_ID_NB_TX_1DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW ,
CUSTOMER_ID_NB_TX_7DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW ,
CUSTOMER_ID_NB_TX_30DAY_WINDOW ,
CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW ,
TERMINAL_ID_NB_TX_1DAY_WINDOW ,
TERMINAL_ID_RISK_1DAY_WINDOW ,
TERMINAL_ID_NB_TX_7DAY_WINDOW ,
TERMINAL_ID_RISK_7DAY_WINDOW ,
TERMINAL_ID_NB_TX_30DAY_WINDOW ,
TERMINAL_ID_RISK_30DAY_WINDOW
) as prediction, count(*) as values
FROM public.cust_payment_tx_history
WHERE cast(tx_datetime as date) >= '2022-08-01'
Group by 1,2 ;

हमने पुष्टि की कि मॉडल काम कर रहा है और F1 स्कोर अच्छा है। आइए स्ट्रीमिंग डेटा पर भविष्यवाणियां उत्पन्न करने के लिए आगे बढ़ते हैं।

धोखाधड़ी वाले लेनदेन की भविष्यवाणी करें

क्योंकि रेडशिफ्ट एमएल मॉडल उपयोग के लिए तैयार है, हम इसका उपयोग स्ट्रीमिंग डेटा अंतर्ग्रहण के खिलाफ पूर्वानुमान चलाने के लिए कर सकते हैं। ऐतिहासिक डेटासेट में हमारे पास स्ट्रीमिंग डेटा स्रोत की तुलना में अधिक फ़ील्ड हैं, लेकिन वे ग्राहक के आसपास केवल रीसेंसी और फ़्रीक्वेंसी मेट्रिक्स हैं और एक धोखाधड़ी लेनदेन के लिए टर्मिनल जोखिम हैं।

हम SQL को दृश्यों के अंदर एम्बेड करके बहुत आसानी से स्ट्रीमिंग डेटा के शीर्ष पर परिवर्तन लागू कर सकते हैं। बनाएँ पहला दृश्य, जो ग्राहक स्तर पर स्ट्रीमिंग डेटा एकत्र करता है। फिर बनाएँ दूसरा दृश्य, जो टर्मिनल स्तर पर स्ट्रीमिंग डेटा एकत्र करता है, और तीसरा दृश्य, जो ग्राहक और टर्मिनल एकत्रित डेटा के साथ आने वाले लेन-देन संबंधी डेटा को जोड़ता है और पूर्वानुमान फ़ंक्शन को एक ही स्थान पर कॉल करता है। तीसरे दृश्य का कोड इस प्रकार है:

CREATE VIEW public.cust_payment_tx_fraud_predictions
as
select a.approximate_arrival_timestamp,
d.full_name , d.email_address, d.phone_number,
a.TRANSACTION_ID, a.TX_DATETIME, a.CUSTOMER_ID, a.TERMINAL_ID,
a.TX_AMOUNT ,
a.TX_TIME_SECONDS ,
a.TX_TIME_DAYS ,
public.fn_customer_cc_fd(a.TX_AMOUNT ,
a.TX_DURING_WEEKEND,
a.TX_DURING_NIGHT,
c.CUSTOMER_ID_NB_TX_1DAY_WINDOW ,
c.CUSTOMER_ID_AVG_AMOUNT_1DAY_WINDOW ,
c.CUSTOMER_ID_NB_TX_7DAY_WINDOW ,
c.CUSTOMER_ID_AVG_AMOUNT_7DAY_WINDOW ,
c.CUSTOMER_ID_NB_TX_30DAY_WINDOW ,
c.CUSTOMER_ID_AVG_AMOUNT_30DAY_WINDOW ,
t.TERMINAL_ID_NB_TX_1DAY_WINDOW ,
t.TERMINAL_ID_RISK_1DAY_WINDOW ,
t.TERMINAL_ID_NB_TX_7DAY_WINDOW ,
t.TERMINAL_ID_RISK_7DAY_WINDOW ,
t.TERMINAL_ID_NB_TX_30DAY_WINDOW ,
t.TERMINAL_ID_RISK_30DAY_WINDOW ) Fraud_prediction
From
(select
Approximate_arrival_timestamp,
TRANSACTION_ID, TX_DATETIME, CUSTOMER_ID, TERMINAL_ID,
TX_AMOUNT ,
TX_TIME_SECONDS ,
TX_TIME_DAYS ,
case when extract(dow from cast(TX_DATETIME as timestamp)) in (1,7) then 1 else 0 end as TX_DURING_WEEKEND,
case when extract(hour from cast(TX_DATETIME as timestamp)) between 00 and 06 then 1 else 0 end as TX_DURING_NIGHT
FROM cust_payment_tx_stream) a
join terminal_transformations t
on a.terminal_id = t.terminal_id
join customer_transformations c
on a.customer_id = c.customer_id
join customer_info d
on a.customer_id = d.customer_id
;

दृश्य पर एक चयन कथन चलाएँ:

select * from
cust_payment_tx_fraud_predictions
where Fraud_prediction = 1;

जैसा कि आप बार-बार सेलेक्ट स्टेटमेंट चलाते हैं, नवीनतम क्रेडिट कार्ड लेनदेन निकट-वास्तविक समय में परिवर्तन और एमएल भविष्यवाणियों से गुजरते हैं।

यह अमेज़ॅन रेडशिफ्ट की शक्ति को प्रदर्शित करता है - उपयोग में आसान एसक्यूएल कमांड के साथ, आप जटिल डेटा पाइपलाइनों के निर्माण या निर्माण और प्रबंधन के बिना, जटिल विंडो फ़ंक्शंस को लागू करके स्ट्रीमिंग डेटा को बदल सकते हैं और धोखाधड़ी लेनदेन की भविष्यवाणी करने के लिए एक एमएल मॉडल लागू कर सकते हैं। अतिरिक्त बुनियादी ढाँचा।

समाधान का विस्तार करें

क्योंकि डेटा प्रवाह और एमएल पूर्वानुमान निकट-वास्तविक समय में किए जाते हैं, आप अपने ग्राहक को सचेत करने के लिए व्यावसायिक प्रक्रियाओं का निर्माण कर सकते हैं अमेज़न सरल अधिसूचना सेवा (अमेज़ॅन एसएनएस), या आप एक परिचालन प्रणाली में ग्राहक के क्रेडिट कार्ड खाते को लॉक कर सकते हैं।

यह पोस्ट इन परिचालनों के विवरण में नहीं जाती है, लेकिन यदि आप अमेज़ॅन रेडशिफ्ट का उपयोग करके ईवेंट-संचालित समाधान बनाने के बारे में अधिक जानने में रुचि रखते हैं, तो निम्न देखें गिटहब भंडार.

क्लीन अप

भविष्य में शुल्क लेने से बचने के लिए, इस पोस्ट के हिस्से के रूप में बनाए गए संसाधनों को हटा दें।

निष्कर्ष

इस पोस्ट में, हमने दिखाया कि किनेसिस डेटा स्ट्रीम कैसे सेट अप करें, प्रोड्यूसर को कैसे कॉन्फ़िगर करें और डेटा को स्ट्रीम में प्रकाशित करें, और फिर Amazon Redshift स्ट्रीमिंग इंजेशन व्यू बनाएं और Amazon Redshift में डेटा को क्वेरी करें। अमेज़ॅन रेडशिफ्ट क्लस्टर में डेटा होने के बाद, हमने दिखाया कि एमएल मॉडल को कैसे प्रशिक्षित किया जाए और एक भविष्यवाणी फ़ंक्शन का निर्माण किया जाए और इसे स्ट्रीमिंग डेटा के विरुद्ध लागू किया जाए ताकि निकट-वास्तविक समय की भविष्यवाणी की जा सके।

यदि आपके पास कोई प्रतिक्रिया या प्रश्न हैं, तो कृपया उन्हें टिप्पणियों में छोड़ दें।

लेखक के बारे में

भानु पिट्टमपल्ली डलास में स्थित एक विश्लेषण विशेषज्ञ समाधान वास्तुकार है। वह विश्लेषणात्मक समाधान बनाने में माहिर हैं। उनकी पृष्ठभूमि डेटा वेयरहाउस-वास्तुकला, विकास और प्रशासन में है। वह 15 वर्षों से अधिक समय से डेटा और एनालिटिक्स क्षेत्र में हैं।

प्रवीण कादीपिकोंडा डलास स्थित AWS में एक वरिष्ठ विश्लेषिकी विशेषज्ञ समाधान वास्तुकार हैं। वह ग्राहकों को कुशल, प्रदर्शनकारी और स्केलेबल विश्लेषणात्मक समाधान बनाने में मदद करता है। उन्होंने 15 से अधिक वर्षों के लिए डेटाबेस और डेटा वेयरहाउस समाधानों के निर्माण के साथ काम किया है।

रितेश कुमार सिन्हा सैन फ़्रांसिस्को में स्थित एक विश्लेषण विशेषज्ञ समाधान वास्तुकार है. उन्होंने 16 से अधिक वर्षों के लिए ग्राहकों को स्केलेबल डेटा वेयरहाउसिंग और बड़े डेटा समाधान बनाने में मदद की है। उन्हें AWS पर कुशल एंड-टू-एंड समाधान डिजाइन और निर्माण करना पसंद है। अपने खाली समय में उन्हें पढ़ना, घूमना और योग करना पसंद है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/big-data/near-real-time-fraud-detection-using-amazon-redshift-streaming-ingestion-with-amazon-kinesis-data-streams-and-amazon-redshift-ml/

समय टिकट: जनवरी ७,२०२१

समय टिकट: फ़रवरी 1, 2023

प्लेटो द्वारा पुनर्प्रकाशित

अमेज़न MWAA के साथ इन-प्लेस संस्करण उन्नयन का परिचय | अमेज़न वेब सेवाएँ

अपने AWS ग्लू स्टूडियो विज़ुअल ETL जॉब्स में AWS ग्लू डेटाब्रू रेसिपी का उपयोग करें | अमेज़न वेब सेवाएँ

अमेज़ॅन रेडशिफ्ट (पूर्वावलोकन) का उपयोग करके डेटा लेक में अपनी आइसबर्ग तालिकाओं को क्वेरी करें अमेज़न वेब सेवाएँ

Amazon EMR ने स्पार्क वर्कलोड के लिए लागत प्रदर्शन को 2-7% तक बेहतर बनाने के लिए Amazon EC3 C7g (Graviton13) उदाहरणों के लिए समर्थन शुरू किया

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा