डेटा वेयरहाउस प्लेटफॉर्म पर प्रदर्शन किए गए डेटा वेयरहाउस और एनालिटिक्स का महत्व वर्षों से लगातार बढ़ रहा है, कई व्यवसाय इन प्रणालियों पर भरोसा करने के लिए आ रहे हैं, जो अल्पकालिक परिचालन निर्णय लेने और दीर्घकालिक रणनीतिक योजना दोनों के लिए मिशन-महत्वपूर्ण हैं। परंपरागत रूप से, डेटा वेयरहाउस को बैच चक्रों में ताज़ा किया जाता है, उदाहरण के लिए, मासिक, साप्ताहिक या दैनिक, ताकि व्यवसाय उनसे विभिन्न अंतर्दृष्टि प्राप्त कर सकें।
कई संगठन यह महसूस कर रहे हैं कि निकट-वास्तविक समय डेटा अंतर्ग्रहण उन्नत विश्लेषण के साथ नए अवसरों को खोलता है। उदाहरण के लिए, एक वित्तीय संस्थान यह अनुमान लगा सकता है कि क्या बैच मोड के बजाय निकट-वास्तविक समय मोड में एक विसंगति का पता लगाने वाला कार्यक्रम चलाकर क्रेडिट कार्ड लेनदेन धोखाधड़ी है।
इस पोस्ट में, हम दिखाते हैं कि कैसे अमेज़न रेडशिफ्ट सभी एक मंच में स्ट्रीमिंग अंतर्ग्रहण और मशीन लर्निंग (एमएल) पूर्वानुमान दे सकते हैं।
अमेज़ॅन रेडशिफ्ट एक तेज़, स्केलेबल, सुरक्षित और पूरी तरह से प्रबंधित क्लाउड डेटा वेयरहाउस है जो मानक SQL का उपयोग करके आपके सभी डेटा का विश्लेषण करना आसान और लागत प्रभावी बनाता है।
अमेज़ॅन रेडशिफ्ट एमएल डेटा विश्लेषकों और डेटाबेस डेवलपर्स के लिए अमेज़ॅन रेडशिफ्ट डेटा वेयरहाउस में परिचित SQL कमांड का उपयोग करके एमएल मॉडल बनाना, प्रशिक्षित करना और लागू करना आसान बनाता है।
हम लॉन्च करने के लिए उत्साहित हैं अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण एसटी अमेज़न Kinesis डेटा स्ट्रीम और Apache Kafka के लिए Amazon प्रबंधित स्ट्रीमिंग (अमेज़ॅन एमएसके), जो आपको डेटा को चरणबद्ध किए बिना किनेसिस डेटा स्ट्रीम या काफ्का विषय से सीधे डेटा निगलने में सक्षम बनाता है। अमेज़न सरल भंडारण सेवा (अमेज़न एस 3)। अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण आपको अपने डेटा वेयरहाउस में सैकड़ों मेगाबाइट डेटा अंतर्ग्रहण करते हुए सेकंड के क्रम में कम विलंबता प्राप्त करने की अनुमति देता है।
यह पोस्ट दर्शाता है कि कैसे अमेज़ॅन रेडशिफ्ट, क्लाउड डेटा वेयरहाउस आपको परिचित एसक्यूएल भाषा के साथ अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण और रेडशिफ्ट एमएल सुविधाओं का उपयोग करके निकट-वास्तविक समय एमएल भविष्यवाणियों का निर्माण करने की अनुमति देता है।
समाधान अवलोकन
इस पोस्ट में उल्लिखित चरणों का पालन करके, आप निर्माता स्ट्रीमर एप्लिकेशन को एक पर सेट करने में सक्षम होंगे अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन EC2) उदाहरण जो क्रेडिट कार्ड लेनदेन का अनुकरण करता है और डेटा को वास्तविक समय में किनेसिस डेटा स्ट्रीम में धकेलता है। आप अमेज़न रेडशिफ्ट पर एक अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण मटेरियलाइज्ड व्यू सेट करते हैं, जहां स्ट्रीमिंग डेटा प्राप्त होता है। स्ट्रीमिंग डेटा के विरुद्ध रीयल-टाइम अनुमान उत्पन्न करने के लिए आप रेडशिफ्ट एमएल मॉडल को प्रशिक्षित और बनाते हैं।
निम्नलिखित आरेख वास्तुकला और प्रक्रिया प्रवाह को दिखाता है।
चरण-दर-चरण प्रक्रिया इस प्रकार है:
- EC2 उदाहरण एक क्रेडिट कार्ड लेन-देन एप्लिकेशन का अनुकरण करता है, जो किनेसिस डेटा स्ट्रीम में क्रेडिट कार्ड लेनदेन सम्मिलित करता है।
- डेटा स्ट्रीम आने वाले क्रेडिट कार्ड लेनदेन डेटा को संग्रहीत करता है।
- एक अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण भौतिकीकृत दृश्य डेटा स्ट्रीम के शीर्ष पर बनाया गया है, जो स्वचालित रूप से स्ट्रीमिंग डेटा को अमेज़ॅन रेडशिफ्ट में शामिल करता है।
- आप रेडशिफ्ट एमएल का उपयोग करके एमएल मॉडल का निर्माण, प्रशिक्षण और परिनियोजन करते हैं। रेडशिफ्ट एमएल मॉडल को ऐतिहासिक लेनदेन संबंधी डेटा का उपयोग करके प्रशिक्षित किया जाता है।
- आप स्ट्रीमिंग डेटा को रूपांतरित करते हैं और एमएल भविष्यवाणियां उत्पन्न करते हैं।
- जोखिम कम करने के लिए आप ग्राहकों को सचेत कर सकते हैं या एप्लिकेशन को अपडेट कर सकते हैं।
यह पूर्वाभ्यास क्रेडिट कार्ड लेनदेन स्ट्रीमिंग डेटा का उपयोग करता है। क्रेडिट कार्ड लेन-देन डेटा काल्पनिक है और एक पर आधारित है सिम्युलेटर. ग्राहक डाटासेट भी काल्पनिक है और कुछ यादृच्छिक डेटा कार्यों के साथ उत्पन्न होता है।
.. पूर्वापेक्षाएँ
- Amazon Redshift क्लस्टर बनाएं.
- रेडशिफ्ट एमएल का उपयोग करने के लिए क्लस्टर को कॉन्फ़िगर करें.
- बनाएं an AWS पहचान और अभिगम प्रबंधन (IAM) उपयोगकर्ता।
- Kinesis डेटा स्ट्रीम तक पहुँचने के लिए अनुमतियाँ शामिल करने के लिए Redshift क्लस्टर से जुड़ी IAM भूमिका को अपडेट करें। आवश्यक नीति के बारे में अधिक जानकारी के लिए देखें अंतर्ग्रहण स्ट्रीमिंग के साथ प्रारंभ करना.
- एक m5.4xlarge EC2 उदाहरण बनाएँ. हमने m5.4xlarge इंस्टेंस के साथ प्रोड्यूसर एप्लिकेशन का परीक्षण किया लेकिन आप अन्य इंस्टेंस प्रकार का उपयोग करने के लिए स्वतंत्र हैं। उदाहरण बनाते समय, का उपयोग करें amzn2-ami-kernel-5.10-hvm-2.0.20220426.0-x86_64-gp2 एएमआई।
- यह सुनिश्चित करने के लिए कि EC3 उदाहरण में Python2 स्थापित है, अपने Python संस्करण को सत्यापित करने के लिए निम्न कमांड चलाएँ (ध्यान दें कि डेटा निष्कर्षण स्क्रिप्ट केवल Python 3 पर काम करती है):
- सिम्युलेटर प्रोग्राम चलाने के लिए निम्नलिखित निर्भर पैकेजों को स्थापित करें:
- उपरोक्त चरण 2 में बनाए गए IAM उपयोगकर्ता के लिए उत्पन्न AWS क्रेडेंशियल्स जैसे चर का उपयोग करके Amazon EC3 को कॉन्फ़िगर करें। निम्न स्क्रीनशॉट उपयोग करते हुए एक उदाहरण दिखाता है एवेएस कॉन्फ़िगर करें.
किनेसिस डेटा स्ट्रीम सेट अप करें
Amazon Kinesis Data Streams एक बड़े पैमाने पर स्केलेबल और टिकाऊ रीयल-टाइम डेटा स्ट्रीमिंग सेवा है। यह वेबसाइट क्लिकस्ट्रीम, डेटाबेस इवेंट स्ट्रीम, वित्तीय लेनदेन, सोशल मीडिया फीड, आईटी लॉग और स्थान-ट्रैकिंग इवेंट जैसे सैकड़ों हजारों स्रोतों से प्रति सेकंड गीगाबाइट डेटा को लगातार कैप्चर कर सकता है। एकत्र किया गया डेटा मिलीसेकंड में उपलब्ध होता है ताकि रीयल-टाइम विश्लेषण उपयोग मामलों जैसे रीयल-टाइम डैशबोर्ड, रीयल-टाइम विसंगति पहचान, गतिशील मूल्य निर्धारण आदि को सक्षम किया जा सके। हम किनेसिस डेटा स्ट्रीम का उपयोग करते हैं क्योंकि यह एक सर्वर रहित समाधान है जो उपयोग के आधार पर स्केल कर सकता है।
एक किनेसिस डेटा स्ट्रीम बनाएं
सबसे पहले, आपको स्ट्रीमिंग डेटा प्राप्त करने के लिए किनेसिस डेटा स्ट्रीम बनाने की आवश्यकता है:
- Amazon Kinesis कंसोल पर, चुनें डेटा स्ट्रीम नेविगेशन फलक में
- चुनें डेटा स्ट्रीम बनाएँ.
- के लिए डेटा स्ट्रीम नाम, दर्ज
cust-payment-txn-stream
. - के लिए क्षमता मोड, चुनते हैं मांग पर.
- बाकी विकल्पों के लिए, डिफ़ॉल्ट विकल्प चुनें और सेटअप पूरा करने के लिए संकेतों का पालन करें।
- अपनी IAM नीति को परिभाषित करते समय अगले खंड में उपयोग करने के लिए बनाई गई डेटा स्ट्रीम के लिए ARN को कैप्चर करें।
अनुमतियाँ सेट करें
किनेसिस डेटा स्ट्रीम्स को लिखने के लिए स्ट्रीमिंग एप्लिकेशन के लिए, एप्लिकेशन को किनेसिस तक पहुंच की आवश्यकता होती है। आप उस सिम्युलेटर प्रक्रिया को प्रदान करने के लिए निम्न नीति कथन का उपयोग कर सकते हैं जिसे आपने अगले अनुभाग में डेटा स्ट्रीम तक पहुंच के लिए सेट किया है। उस डेटा स्ट्रीम के ARN का उपयोग करें जिसे आपने पिछले चरण में सहेजा था।
स्ट्रीम निर्माता को कॉन्फ़िगर करें
इससे पहले कि हम अमेज़न रेडशिफ्ट में स्ट्रीमिंग डेटा का उपभोग कर सकें, हमें एक स्ट्रीमिंग डेटा स्रोत की आवश्यकता होती है जो डेटा को किनेसिस डेटा स्ट्रीम में लिखता है। यह पोस्ट एक कस्टम-निर्मित डेटा जनरेटर और का उपयोग करता है अजगर के लिए AWS SDK (Boto3) डेटा स्ट्रीम में डेटा प्रकाशित करने के लिए। सेटअप निर्देशों के लिए, देखें निर्माता सिम्युलेटर. यह सिम्युलेटर प्रक्रिया स्ट्रीमिंग डेटा को पिछले चरण में बनाए गए डेटा स्ट्रीम में प्रकाशित करती है (cust-payment-txn-stream
).
स्ट्रीम उपभोक्ता को कॉन्फ़िगर करें
यह खंड धारा उपभोक्ता (अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण दृश्य) को कॉन्फ़िगर करने के बारे में बात करता है।
अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण कम-विलंबता, किनेसिस डेटा स्ट्रीम से स्ट्रीमिंग डेटा को अमेज़ॅन रेडशिफ्ट मटेरियलाइज्ड दृश्य में उच्च गति अंतर्ग्रहण प्रदान करता है। आप अपने अमेज़ॅन रेडशिफ्ट क्लस्टर को स्ट्रीमिंग अंतर्ग्रहण को सक्षम करने के लिए कॉन्फ़िगर कर सकते हैं और ऑटो रिफ्रेश के साथ एक भौतिक दृश्य बना सकते हैं, जैसा कि वर्णित SQL कथनों का उपयोग कर रहा है। अमेज़ॅन रेडशिफ्ट में भौतिक दृश्य बनाना. स्वचालित मटेरियलाइज्ड व्यू रिफ्रेश प्रक्रिया, किनेसिस डेटा स्ट्रीम से अमेज़ॅन रेडशिफ्ट में प्रति सेकंड सैकड़ों मेगाबाइट डेटा पर स्ट्रीमिंग डेटा को निगलेगी। इसके परिणामस्वरूप बाहरी डेटा तक तेजी से पहुंच होती है जो जल्दी से ताज़ा हो जाता है।
भौतिकीकृत दृश्य बनाने के बाद, आप SQL का उपयोग करके डेटा स्ट्रीम से अपने डेटा तक पहुंच सकते हैं और स्ट्रीम के शीर्ष पर सीधे भौतिक दृश्य बनाकर अपनी डेटा पाइपलाइनों को सरल बना सकते हैं।
अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग मटेरियलाइज्ड व्यू को कॉन्फ़िगर करने के लिए निम्नलिखित चरणों को पूरा करें:
- IAM कंसोल पर, नेविगेशन पेन में नीतियां चुनें।
- चुनें नीति बनाएं.
- नामक एक नई IAM नीति बनाएँ
KinesisStreamPolicy
. स्ट्रीमिंग नीति की परिभाषा के लिए, देखें अंतर्ग्रहण स्ट्रीमिंग के साथ प्रारंभ करना. - नेविगेशन फलक में, चुनें भूमिकाओं.
- भूमिका चुनें।
- चुनते हैं AWS सेवा और चुनें रेडशिफ्ट और रेडशिफ्ट अनुकूलन योग्य.
- नामक एक नई भूमिका बनाएँ
redshift-streaming-role
और नीति संलग्न करेंKinesisStreamPolicy
. - Kinesis Data Streams को मैप करने के लिए एक बाहरी स्कीमा बनाएँ:
अब आप स्ट्रीम डेटा का उपभोग करने के लिए भौतिक दृश्य बना सकते हैं। आप JSON प्रारूप में पेलोड को स्टोर करने के लिए सुपर डेटा प्रकार का उपयोग कर सकते हैं, या JSON डेटा को अलग-अलग कॉलम में पार्स करने के लिए अमेज़ॅन रेडशिफ्ट JSON फ़ंक्शंस का उपयोग कर सकते हैं। इस पोस्ट के लिए, हम दूसरी विधि का उपयोग करते हैं क्योंकि स्कीमा अच्छी तरह परिभाषित है।
- स्ट्रीमिंग अंतर्ग्रहण भौतिकीकृत दृश्य बनाएं
cust_payment_tx_stream
. निम्नलिखित कोड में AUTO REFRESH YES निर्दिष्ट करके, आप स्ट्रीमिंग अंतर्ग्रहण दृश्य के स्वत: ताज़ा होने को सक्षम कर सकते हैं, जो डेटा पाइपलाइनों के निर्माण से बचकर समय बचाता है:
ध्यान दें कि json_extract_path_text
64 KB की लंबाई सीमा है। साथ ही from_varbye 65KB से बड़े रिकॉर्ड को फ़िल्टर करता है।
- डेटा को रिफ्रेश करें।
अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग मटेरियलाइज्ड व्यू आपके लिए अमेज़ॅन रेडशिफ्ट द्वारा ऑटो रीफ्रेश किया गया है। इस तरह, आपको डेटा पुरानेपन के बारे में चिंता करने की आवश्यकता नहीं है। मटेरियलाइज्ड व्यू ऑटो रिफ्रेश के साथ, डेटा स्वचालित रूप से अमेज़ॅन रेडशिफ्ट में लोड हो जाता है क्योंकि यह स्ट्रीम में उपलब्ध हो जाता है। यदि आप इस ऑपरेशन को मैन्युअल रूप से करना चुनते हैं, तो निम्न आदेश का उपयोग करें:
- अब नमूना डेटा देखने के लिए स्ट्रीमिंग मटेरियलाइज्ड व्यू से पूछताछ करें:
- आइए देखें कि अब स्ट्रीमिंग दृश्य में कितने रिकॉर्ड हैं:
अब आपने अमेज़ॅन रेडशिफ्ट स्ट्रीमिंग अंतर्ग्रहण दृश्य को सेट करना समाप्त कर लिया है, जो आने वाले क्रेडिट कार्ड लेनदेन डेटा के साथ लगातार अपडेट किया जाता है। मेरे सेटअप में, मैं देखता हूं कि लगभग 67,000 रिकॉर्ड उस समय स्ट्रीमिंग व्यू में खींचे गए हैं जब मैंने अपनी चुनिंदा गिनती क्वेरी चलाई थी। यह संख्या आपके लिए अलग हो सकती है।
रेडशिफ्ट एमएल
रेडशिफ्ट एमएल के साथ, आप एक पूर्व-प्रशिक्षित एमएल मॉडल ला सकते हैं या मूल रूप से एक बना सकते हैं। अधिक जानकारी के लिए, देखें Amazon Redshift में मशीन लर्निंग का उपयोग करना.
इस पोस्ट में, हम एक ऐतिहासिक डेटासेट का उपयोग करके एमएल मॉडल को प्रशिक्षित और निर्मित करते हैं। डेटा में एक शामिल है tx_fraud
क्षेत्र जो एक ऐतिहासिक लेन-देन को कपटपूर्ण या नहीं के रूप में फ़्लैग करता है। हम रेडशिफ्ट ऑटो एमएल का उपयोग करके एक पर्यवेक्षित एमएल मॉडल का निर्माण करते हैं, जो इस डेटासेट से सीखता है और आने वाले लेनदेन की भविष्यवाणी करता है जब वे भविष्यवाणी कार्यों के माध्यम से चलाए जाते हैं।
निम्नलिखित अनुभागों में, हम दिखाते हैं कि ऐतिहासिक डेटासेट और ग्राहक डेटा कैसे सेट अप करें।
ऐतिहासिक डेटासेट लोड करें
स्ट्रीमिंग डेटा स्रोत की तुलना में ऐतिहासिक तालिका में अधिक फ़ील्ड हैं। इन क्षेत्रों में ग्राहक का सबसे हालिया खर्च और टर्मिनल जोखिम स्कोर होता है, जैसे स्ट्रीमिंग डेटा को बदलकर गणना की गई धोखाधड़ी वाले लेनदेन की संख्या। सप्ताहांत के लेन-देन या रात के समय के लेन-देन जैसे श्रेणीबद्ध चर भी होते हैं।
ऐतिहासिक डेटा लोड करने के लिए, का उपयोग करके कमांड चलाएँ अमेज़न Redshift क्वेरी संपादक.
निम्नलिखित कोड के साथ लेन-देन इतिहास तालिका बनाएँ। डीडीएल पर भी पाया जा सकता है GitHub.
आइए देखें कि कितने लेनदेन लोड किए गए हैं:
मासिक धोखाधड़ी और गैर-धोखाधड़ी लेनदेन की प्रवृत्ति की जाँच करें:
ग्राहक डेटा बनाएं और लोड करें
अब हम ग्राहक तालिका बनाते हैं और डेटा लोड करते हैं, जिसमें ग्राहक का ईमेल और फ़ोन नंबर होता है। निम्न कोड तालिका बनाता है, डेटा लोड करता है, और तालिका का नमूना लेता है। टेबल डीडीएल पर उपलब्ध है GitHub.
हमारे परीक्षण डेटा में लगभग 5,000 ग्राहक हैं। निम्न स्क्रीनशॉट नमूना ग्राहक डेटा दिखाता है।
एक एमएल मॉडल बनाएँ
हमारी ऐतिहासिक कार्ड लेन-देन तालिका में 6 महीने का डेटा है, जिसका उपयोग अब हम एमएल मॉडल को प्रशिक्षित करने और परीक्षण करने के लिए करते हैं।
मॉडल निम्नलिखित क्षेत्रों को इनपुट के रूप में लेता है:
हमें मिला tx_fraud
आउटपुट के रूप में।
हम इस डेटा को प्रशिक्षण और परीक्षण डेटासेट में विभाजित करते हैं। 2022-04-01 से 2022-07-31 तक के लेन-देन प्रशिक्षण सेट के लिए हैं। परीक्षण सेट के लिए 2022-08-01 से 2022-09-30 तक के लेनदेन का उपयोग किया जाता है।
आइए परिचित SQL का उपयोग करके ML मॉडल बनाते हैं मॉडल स्टेटमेंट बनाएं. हम रेडशिफ्ट एमएल कमांड के मूल रूप का उपयोग करते हैं। निम्नलिखित विधि का प्रयोग करता है अमेज़ॅन सैजमेकर ऑटोपायलट, जो आपके लिए स्वचालित रूप से डेटा तैयारी, फीचर इंजीनियरिंग, मॉडल चयन और प्रशिक्षण करता है। कोड वाली अपनी S3 बकेट का नाम प्रदान करें।
मैं एमएल मॉडल को इस रूप में बुलाता हूं Cust_cc_txn_fd
, और भविष्यवाणी कार्य के रूप में fn_customer_cc_fd
. FROM खंड ऐतिहासिक तालिका से इनपुट कॉलम दिखाता है public.cust_payment_tx_history
. लक्ष्य पैरामीटर पर सेट है tx_fraud
, जो लक्ष्य चर है जिसका हम अनुमान लगाने की कोशिश कर रहे हैं। IAM_Role
डिफ़ॉल्ट पर सेट है क्योंकि क्लस्टर इस भूमिका के साथ कॉन्फ़िगर किया गया है; यदि नहीं, तो आपको अपना अमेज़ॅन रेडशिफ्ट क्लस्टर IAM भूमिका ARN प्रदान करना होगा। मैंने सेट किया max_runtime
3,600 सेकेंड तक, जो कि हम प्रक्रिया को पूरा करने के लिए सैजमेकर को देते हैं। रेडशिफ्ट एमएल इस समय सीमा में पहचाने जाने वाले सर्वोत्तम मॉडल को तैनात करता है।
मॉडल की जटिलता और डेटा की मात्रा के आधार पर, मॉडल को उपलब्ध होने में कुछ समय लग सकता है। यदि आप पाते हैं कि आपका मॉडल चयन पूरा नहीं हो रहा है, तो इसके लिए मान बढ़ाएँ max_runtime
. आप 9999 का अधिकतम मान सेट कर सकते हैं।
क्रिएट मॉडल कमांड अतुल्यकालिक रूप से चलाया जाता है, जिसका अर्थ है कि यह पृष्ठभूमि में चलता है। आप उपयोग कर सकते हैं मॉडल दिखाएं मॉडल की स्थिति देखने के लिए आदेश। जब स्थिति तैयार के रूप में दिखाई देती है, तो इसका मतलब है कि मॉडल प्रशिक्षित और परिनियोजित है।
निम्नलिखित स्क्रीनशॉट हमारे आउटपुट को दिखाते हैं।
आउटपुट से, मैं देखता हूं कि मॉडल को सही ढंग से पहचाना गया है BinaryClassification
, और F1 को उद्देश्य के रूप में चुना गया है। एफ 1 का स्कोर एक मीट्रिक है जो दोनों पर विचार करता है सटीकता और याद. यह 1 (पूर्ण परिशुद्धता और रिकॉल) और 0 (न्यूनतम संभव स्कोर) के बीच का मान लौटाता है। मेरे मामले में, यह 0.91 है। मूल्य जितना अधिक होगा, मॉडल का प्रदर्शन उतना ही बेहतर होगा।
आइए इस मॉडल का परीक्षण डेटासेट के साथ करें। निम्नलिखित आदेश चलाएँ, जो नमूना पूर्वानुमानों को पुनः प्राप्त करता है:
हम देखते हैं कि कुछ मान मेल खाते हैं और कुछ नहीं। आइए भविष्यवाणियों की जमीनी सच्चाई से तुलना करें:
हमने पुष्टि की कि मॉडल काम कर रहा है और F1 स्कोर अच्छा है। आइए स्ट्रीमिंग डेटा पर भविष्यवाणियां उत्पन्न करने के लिए आगे बढ़ते हैं।
धोखाधड़ी वाले लेनदेन की भविष्यवाणी करें
क्योंकि रेडशिफ्ट एमएल मॉडल उपयोग के लिए तैयार है, हम इसका उपयोग स्ट्रीमिंग डेटा अंतर्ग्रहण के खिलाफ पूर्वानुमान चलाने के लिए कर सकते हैं। ऐतिहासिक डेटासेट में हमारे पास स्ट्रीमिंग डेटा स्रोत की तुलना में अधिक फ़ील्ड हैं, लेकिन वे ग्राहक के आसपास केवल रीसेंसी और फ़्रीक्वेंसी मेट्रिक्स हैं और एक धोखाधड़ी लेनदेन के लिए टर्मिनल जोखिम हैं।
हम SQL को दृश्यों के अंदर एम्बेड करके बहुत आसानी से स्ट्रीमिंग डेटा के शीर्ष पर परिवर्तन लागू कर सकते हैं। बनाएँ पहला दृश्य, जो ग्राहक स्तर पर स्ट्रीमिंग डेटा एकत्र करता है। फिर बनाएँ दूसरा दृश्य, जो टर्मिनल स्तर पर स्ट्रीमिंग डेटा एकत्र करता है, और तीसरा दृश्य, जो ग्राहक और टर्मिनल एकत्रित डेटा के साथ आने वाले लेन-देन संबंधी डेटा को जोड़ता है और पूर्वानुमान फ़ंक्शन को एक ही स्थान पर कॉल करता है। तीसरे दृश्य का कोड इस प्रकार है:
दृश्य पर एक चयन कथन चलाएँ:
जैसा कि आप बार-बार सेलेक्ट स्टेटमेंट चलाते हैं, नवीनतम क्रेडिट कार्ड लेनदेन निकट-वास्तविक समय में परिवर्तन और एमएल भविष्यवाणियों से गुजरते हैं।
यह अमेज़ॅन रेडशिफ्ट की शक्ति को प्रदर्शित करता है - उपयोग में आसान एसक्यूएल कमांड के साथ, आप जटिल डेटा पाइपलाइनों के निर्माण या निर्माण और प्रबंधन के बिना, जटिल विंडो फ़ंक्शंस को लागू करके स्ट्रीमिंग डेटा को बदल सकते हैं और धोखाधड़ी लेनदेन की भविष्यवाणी करने के लिए एक एमएल मॉडल लागू कर सकते हैं। अतिरिक्त बुनियादी ढाँचा।
समाधान का विस्तार करें
क्योंकि डेटा प्रवाह और एमएल पूर्वानुमान निकट-वास्तविक समय में किए जाते हैं, आप अपने ग्राहक को सचेत करने के लिए व्यावसायिक प्रक्रियाओं का निर्माण कर सकते हैं अमेज़न सरल अधिसूचना सेवा (अमेज़ॅन एसएनएस), या आप एक परिचालन प्रणाली में ग्राहक के क्रेडिट कार्ड खाते को लॉक कर सकते हैं।
यह पोस्ट इन परिचालनों के विवरण में नहीं जाती है, लेकिन यदि आप अमेज़ॅन रेडशिफ्ट का उपयोग करके ईवेंट-संचालित समाधान बनाने के बारे में अधिक जानने में रुचि रखते हैं, तो निम्न देखें गिटहब भंडार.
क्लीन अप
भविष्य में शुल्क लेने से बचने के लिए, इस पोस्ट के हिस्से के रूप में बनाए गए संसाधनों को हटा दें।
निष्कर्ष
इस पोस्ट में, हमने दिखाया कि किनेसिस डेटा स्ट्रीम कैसे सेट अप करें, प्रोड्यूसर को कैसे कॉन्फ़िगर करें और डेटा को स्ट्रीम में प्रकाशित करें, और फिर Amazon Redshift स्ट्रीमिंग इंजेशन व्यू बनाएं और Amazon Redshift में डेटा को क्वेरी करें। अमेज़ॅन रेडशिफ्ट क्लस्टर में डेटा होने के बाद, हमने दिखाया कि एमएल मॉडल को कैसे प्रशिक्षित किया जाए और एक भविष्यवाणी फ़ंक्शन का निर्माण किया जाए और इसे स्ट्रीमिंग डेटा के विरुद्ध लागू किया जाए ताकि निकट-वास्तविक समय की भविष्यवाणी की जा सके।
यदि आपके पास कोई प्रतिक्रिया या प्रश्न हैं, तो कृपया उन्हें टिप्पणियों में छोड़ दें।
लेखक के बारे में
भानु पिट्टमपल्ली डलास में स्थित एक विश्लेषण विशेषज्ञ समाधान वास्तुकार है। वह विश्लेषणात्मक समाधान बनाने में माहिर हैं। उनकी पृष्ठभूमि डेटा वेयरहाउस-वास्तुकला, विकास और प्रशासन में है। वह 15 वर्षों से अधिक समय से डेटा और एनालिटिक्स क्षेत्र में हैं।
प्रवीण कादीपिकोंडा डलास स्थित AWS में एक वरिष्ठ विश्लेषिकी विशेषज्ञ समाधान वास्तुकार हैं। वह ग्राहकों को कुशल, प्रदर्शनकारी और स्केलेबल विश्लेषणात्मक समाधान बनाने में मदद करता है। उन्होंने 15 से अधिक वर्षों के लिए डेटाबेस और डेटा वेयरहाउस समाधानों के निर्माण के साथ काम किया है।
रितेश कुमार सिन्हा सैन फ़्रांसिस्को में स्थित एक विश्लेषण विशेषज्ञ समाधान वास्तुकार है. उन्होंने 16 से अधिक वर्षों के लिए ग्राहकों को स्केलेबल डेटा वेयरहाउसिंग और बड़े डेटा समाधान बनाने में मदद की है। उन्हें AWS पर कुशल एंड-टू-एंड समाधान डिजाइन और निर्माण करना पसंद है। अपने खाली समय में उन्हें पढ़ना, घूमना और योग करना पसंद है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/big-data/near-real-time-fraud-detection-using-amazon-redshift-streaming-ingestion-with-amazon-kinesis-data-streams-and-amazon-redshift-ml/
- 000
- 000 ग्राहक
- 1
- 10
- 100
- 11
- 15 साल
- 67
- 7
- 9
- a
- योग्य
- About
- ऊपर
- पहुँच
- लेखा
- पाना
- कार्य
- अतिरिक्त
- प्रशासन
- उन्नत
- बाद
- के खिलाफ
- चेतावनी
- सब
- की अनुमति देता है
- वीरांगना
- अमेज़ॅन EC2
- अमेज़ॅन किनिस
- राशि
- विश्लेषकों
- विश्लेषणात्मक
- विश्लेषिकी
- विश्लेषण करें
- और
- असंगति का पता लगाये
- अपाचे
- आवेदन
- लागू करें
- लागू
- स्थापत्य
- चारों ओर
- संलग्न करना
- स्वत:
- स्वचालित
- स्वतः
- उपलब्ध
- से बचने
- एडब्ल्यूएस
- पृष्ठभूमि
- आधारित
- बुनियादी
- क्योंकि
- हो जाता है
- BEST
- बेहतर
- के बीच
- बड़ा
- बड़ा डेटा
- लाना
- निर्माण
- इमारत
- व्यापार
- व्यापार प्रक्रिया
- व्यवसायों
- कॉल
- बुलाया
- कॉल
- कब्जा
- कार्ड
- मामला
- मामलों
- चरित्र
- प्रभार
- चेक
- चुनें
- City
- बादल
- समूह
- कोड
- स्तंभ
- जोड़ती
- अ रहे है
- टिप्पणियाँ
- तुलना
- पूरा
- पूरा
- जटिल
- जटिलता
- गणना करना
- समझता है
- कंसोल
- उपभोग
- उपभोक्ता
- शामिल हैं
- प्रभावी लागत
- सका
- बनाना
- बनाया
- बनाता है
- बनाना
- साख
- श्रेय
- क्रेडिट कार्ड
- ग्राहक
- ग्राहक डेटा
- ग्राहक
- चक्र
- दैनिक
- डलास
- तिथि
- डेटा तैयारी
- डाटा गोदाम
- डेटा वेयरहाउस
- डाटाबेस
- डेटाबेस
- डेटासेट
- तारीख
- निर्णय
- चूक
- परिभाषित करने
- उद्धार
- साबित
- निर्भर
- तैनात
- तैनात
- तैनात
- वर्णित
- डिज़ाइन
- विवरण
- खोज
- डेवलपर्स
- विकास
- विभिन्न
- सीधे
- नहीं करता है
- कर
- dont
- डो
- गतिशील
- आसानी
- आसान करने के लिए उपयोग
- प्रभाव
- कुशल
- ईमेल
- सक्षम
- सक्षम बनाता है
- शुरू से अंत तक
- अभियांत्रिकी
- दर्ज
- ईथर (ईटीएच)
- कार्यक्रम
- घटनाओं
- उदाहरण
- उत्तेजित
- बाहरी
- निष्कर्षण
- f1
- परिचित
- फास्ट
- Feature
- विशेषताएं
- प्रतिक्रिया
- खेत
- फ़ील्ड
- फ़िल्टर
- वित्तीय
- खोज
- झंडे
- प्रवाह
- का पालन करें
- निम्नलिखित
- इस प्रकार है
- प्रपत्र
- प्रारूप
- पाया
- फ्रेम
- फ्रांसिस्को
- धोखा
- धोखाधड़ी का पता लगाना
- मुक्त
- आवृत्ति
- से
- पूरी तरह से
- समारोह
- कार्यों
- भविष्य
- उत्पन्न
- उत्पन्न
- सृजन
- जनक
- मिल
- देना
- Go
- अच्छा
- अनुदान
- जमीन
- समूह
- होने
- मदद की
- मदद करता है
- उच्चतर
- हाइलाइट
- ऐतिहासिक
- इतिहास
- कैसे
- How To
- एचटीएमएल
- HTTPS
- सैकड़ों
- आई ए एम
- पहचान
- पहचान
- महत्व
- in
- शामिल
- आवक
- बढ़ना
- बढ़ती
- व्यक्ति
- करें-
- इंफ्रास्ट्रक्चर
- निवेश
- आवेषण
- अंतर्दृष्टि
- स्थापित
- उदाहरण
- संस्थान
- निर्देश
- रुचि
- IT
- में शामिल होने
- JSON
- काफ्का
- किनेसिस डेटा स्ट्रीम
- भाषा
- बड़ा
- विलंब
- ताज़ा
- लांच
- सीख रहा हूँ
- छोड़ना
- लंबाई
- स्तर
- सीमा
- सीमा
- भार
- भार
- लंबे समय तक
- निम्न
- मशीन
- यंत्र अधिगम
- बनाया गया
- बनाना
- बनाता है
- कामयाब
- प्रबंध
- मैन्युअल
- बहुत
- नक्शा
- बड़े पैमाने पर
- मिलान
- matplotlib
- मैक्स
- साधन
- मीडिया
- तरीका
- मीट्रिक
- मेट्रिक्स
- कम करना
- ML
- मोड
- आदर्श
- मॉडल
- मासिक
- महीने
- अधिक
- अधिकांश
- चाल
- नाम
- पथ प्रदर्शन
- आवश्यकता
- की जरूरत है
- नया
- अगला
- अधिसूचना
- संख्या
- numpy
- उद्देश्य
- ONE
- खोलता है
- आपरेशन
- परिचालन
- संचालन
- अवसर
- ऑप्शंस
- आदेश
- संगठनों
- अन्य
- उल्लिखित
- संकुल
- पांडा
- फलक
- प्राचल
- भाग
- उत्तम
- निष्पादन
- प्रदर्शन
- प्रदर्शन
- अनुमतियाँ
- फ़ोन
- जगह
- की योजना बना
- मंच
- प्लेटफार्म
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- कृप्या अ
- नीतियाँ
- नीति
- संभव
- पद
- बिजली
- शुद्धता
- भविष्यवाणी करना
- भविष्यवाणी
- भविष्यवाणियों
- भविष्यवाणी
- पिछला
- कीमत निर्धारण
- प्रक्रिया
- प्रक्रियाओं
- उत्पादक
- कार्यक्रम
- प्रदान करना
- प्रदान करता है
- सार्वजनिक
- प्रकाशित करना
- अजगर
- प्रशन
- जल्दी से
- बिना सोचे समझे
- पढ़ना
- तैयार
- वास्तविक
- वास्तविक समय
- वास्तविक समय डाटा
- साकार
- प्राप्त करना
- प्राप्त
- हाल
- मान्यता प्राप्त
- अभिलेख
- बार बार
- की जगह
- अपेक्षित
- संसाधन
- उपयुक्त संसाधन चुनें
- बाकी
- परिणाम
- रिटर्न
- जोखिम
- भूमिका
- रन
- दौड़ना
- sagemaker
- सेन
- सैन फ्रांसिस्को
- स्केलेबल
- स्केल
- स्क्रीनशॉट
- एसडीके
- समुद्र में रहनेवाला
- दूसरा
- सेकंड
- अनुभाग
- वर्गों
- सुरक्षित
- चयनित
- चयन
- serverless
- सेवा
- सेट
- की स्थापना
- सेटिंग्स
- व्यवस्था
- लघु अवधि
- दिखाना
- दिखाता है
- सरल
- को आसान बनाने में
- सिम्युलेटर
- So
- सोशल मीडिया
- सोशल मीडिया
- समाधान
- समाधान ढूंढे
- कुछ
- स्रोत
- सूत्रों का कहना है
- विशेषज्ञ
- माहिर
- बिताना
- विभाजित
- एसक्यूएल
- ट्रेनिंग
- मानक
- शुरू
- राज्य
- कथन
- बयान
- स्थिति
- कदम
- कदम
- भंडारण
- की दुकान
- भंडार
- सामरिक
- धारा
- स्ट्रीमिंग
- स्ट्रीमिंग सेवा
- नदियों
- ऐसा
- सुपर
- प्रणाली
- सिस्टम
- तालिका
- लेना
- लेता है
- बाते
- लक्ष्य
- अंतिम
- परीक्षण
- RSI
- तीसरा
- हजारों
- यहाँ
- पहर
- टाइमस्टैम्प
- सेवा मेरे
- ऊपर का
- विषय
- पारंपरिक रूप से
- रेलगाड़ी
- प्रशिक्षित
- प्रशिक्षण
- ट्रांजेक्शन
- लेन-देन संबंधी
- लेनदेन
- बदालना
- परिवर्तनों
- बदलने
- प्रवृत्ति
- अपडेट
- अद्यतन
- प्रयोग
- उपयोग
- उपयोगकर्ता
- मान्य
- मूल्य
- मान
- विभिन्न
- सचाई
- संस्करण
- देखें
- विचारों
- घूमना
- walkthrough
- गोदाम
- भण्डारण
- वेबसाइट
- छुट्टी का दिन
- साप्ताहिक
- क्या
- कौन कौन से
- जब
- विकिपीडिया
- मर्जी
- बिना
- काम किया
- काम कर रहे
- कार्य
- लिखना
- साल
- योग
- आपका
- जेफिरनेट