Η σημασία των αποθηκών δεδομένων και των αναλυτικών στοιχείων που εκτελούνται σε πλατφόρμες αποθήκης δεδομένων αυξάνεται σταθερά με τα χρόνια, με πολλές επιχειρήσεις να βασίζονται σε αυτά τα συστήματα ως κρίσιμα τόσο για τη βραχυπρόθεσμη λήψη επιχειρησιακών αποφάσεων όσο και για τον μακροπρόθεσμο στρατηγικό σχεδιασμό. Παραδοσιακά, οι αποθήκες δεδομένων ανανεώνονται σε κύκλους παρτίδας, για παράδειγμα, μηνιαίες, εβδομαδιαίες ή καθημερινές, έτσι ώστε οι επιχειρήσεις να μπορούν να αντλούν διάφορες πληροφορίες από αυτές.
Πολλοί οργανισμοί συνειδητοποιούν ότι η απορρόφηση δεδομένων σχεδόν σε πραγματικό χρόνο μαζί με προηγμένα αναλυτικά στοιχεία ανοίγει νέες ευκαιρίες. Για παράδειγμα, ένα χρηματοπιστωτικό ίδρυμα μπορεί να προβλέψει εάν μια συναλλαγή με πιστωτική κάρτα είναι δόλια εκτελώντας ένα πρόγραμμα ανίχνευσης ανωμαλιών σε λειτουργία σχεδόν σε πραγματικό χρόνο και όχι σε λειτουργία δέσμης.
Σε αυτή την ανάρτηση, δείχνουμε πώς Amazon RedShift μπορεί να παρέχει προβλέψεις απορρόφησης ροής και μηχανικής μάθησης (ML) σε μία πλατφόρμα.
Το Amazon Redshift είναι μια γρήγορη, επεκτάσιμη, ασφαλής και πλήρως διαχειριζόμενη αποθήκη δεδομένων cloud που καθιστά απλή και οικονομικά αποδοτική την ανάλυση όλων των δεδομένων σας χρησιμοποιώντας την τυπική SQL.
Amazon Redshift ML διευκολύνει τους αναλυτές δεδομένων και τους προγραμματιστές βάσεων δεδομένων να δημιουργούν, να εκπαιδεύουν και να εφαρμόζουν μοντέλα ML χρησιμοποιώντας γνωστές εντολές SQL στις αποθήκες δεδομένων του Amazon Redshift.
Είμαστε ενθουσιασμένοι για την έναρξη Κατάποση ροής Amazon Redshift for Ροές δεδομένων Amazon Kinesis και Amazon Managed Streaming για το Apache Kafka (Amazon MSK), το οποίο σας δίνει τη δυνατότητα να λαμβάνετε δεδομένα απευθείας από μια ροή δεδομένων Kinesis ή ένα θέμα Kafka χωρίς να χρειάζεται να τοποθετήσετε τα δεδομένα σε Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3). Η απορρόφηση ροής Amazon Redshift σάς επιτρέπει να επιτυγχάνετε χαμηλό λανθάνοντα χρόνο της τάξης των δευτερολέπτων, ενώ απορροφάτε εκατοντάδες megabyte δεδομένων στην αποθήκη δεδομένων σας.
Αυτή η ανάρτηση δείχνει πώς το Amazon Redshift, η αποθήκη δεδομένων cloud σάς επιτρέπει να δημιουργείτε προβλέψεις ML σχεδόν σε πραγματικό χρόνο χρησιμοποιώντας την απορρόφηση ροής του Amazon Redshift και τις λειτουργίες Redshift ML με οικεία γλώσσα SQL.
Επισκόπηση λύσεων
Ακολουθώντας τα βήματα που περιγράφονται σε αυτήν την ανάρτηση, θα μπορείτε να ρυθμίσετε μια εφαρμογή streamer παραγωγού σε Amazon Elastic Compute Cloud Στιγμιότυπο (Amazon EC2) που προσομοιώνει τις συναλλαγές με πιστωτική κάρτα και ωθεί δεδομένα σε Kinesis Data Streams σε πραγματικό χρόνο. Ρυθμίζετε μια υλοποιημένη προβολή κατάποσης ροής Amazon Redshift στο Amazon Redshift, όπου λαμβάνονται δεδομένα ροής. Εκπαιδεύετε και δημιουργείτε ένα μοντέλο Redshift ML για να δημιουργήσετε συμπεράσματα σε πραγματικό χρόνο έναντι των δεδομένων ροής.
Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική και τη ροή της διαδικασίας.
Η διαδικασία βήμα προς βήμα είναι η εξής:
- Η περίπτωση EC2 προσομοιώνει μια εφαρμογή συναλλαγών με πιστωτική κάρτα, η οποία εισάγει συναλλαγές με πιστωτική κάρτα στη ροή δεδομένων Kinesis.
- Η ροή δεδομένων αποθηκεύει τα εισερχόμενα δεδομένα συναλλαγών με πιστωτική κάρτα.
- Δημιουργείται μια υλοποιημένη προβολή κατάποσης ροής Amazon Redshift πάνω από τη ροή δεδομένων, η οποία απορροφά αυτόματα δεδομένα ροής στο Amazon Redshift.
- Δημιουργείτε, εκπαιδεύετε και αναπτύσσετε ένα μοντέλο ML χρησιμοποιώντας το Redshift ML. Το μοντέλο Redshift ML εκπαιδεύεται χρησιμοποιώντας ιστορικά δεδομένα συναλλαγών.
- Μεταμορφώνετε τα δεδομένα ροής και δημιουργείτε προβλέψεις ML.
- Μπορείτε να ειδοποιήσετε τους πελάτες ή να ενημερώσετε την εφαρμογή για να μειώσετε τον κίνδυνο.
Αυτή η αναλυτική περιγραφή χρησιμοποιεί δεδομένα ροής συναλλαγών με πιστωτική κάρτα. Τα στοιχεία συναλλαγής με πιστωτική κάρτα είναι εικονικά και βασίζονται σε α προσομοιωτής. Το σύνολο δεδομένων πελατών είναι επίσης εικονικό και δημιουργείται με ορισμένες τυχαίες συναρτήσεις δεδομένων.
Προϋποθέσεις
- Δημιουργήστε ένα σύμπλεγμα Amazon Redshift.
- Διαμορφώστε το σύμπλεγμα ώστε να χρησιμοποιεί το Redshift ML.
- Δημιουργία an Διαχείριση ταυτότητας και πρόσβασης AWS (IAM) χρήστης.
- Ενημερώστε τον ρόλο IAM που είναι συνδεδεμένος στο σύμπλεγμα Redshift για να συμπεριλάβει δικαιώματα πρόσβασης στη ροή δεδομένων Kinesis. Για περισσότερες πληροφορίες σχετικά με την απαιτούμενη πολιτική, ανατρέξτε στο Ξεκινώντας με την απορρόφηση ροής.
- Δημιουργήστε ένα στιγμιότυπο m5.4xlarge EC2. Δοκιμάσαμε την εφαρμογή Παραγωγού με παράδειγμα m5.4xlarge, αλλά είστε ελεύθεροι να χρησιμοποιήσετε άλλο τύπο παρουσίας. Κατά τη δημιουργία του στιγμιότυπου, χρησιμοποιήστε το amzn2-ami-kernel-5.10-hvm-2.0.20220426.0-x86_64-gp2 AMI.
- Για να βεβαιωθείτε ότι η Python3 είναι εγκατεστημένη στην παρουσία EC2, εκτελέστε την ακόλουθη εντολή για να επαληθεύσετε την έκδοση Python σας (σημειώστε ότι το σενάριο εξαγωγής δεδομένων λειτουργεί μόνο στην Python 3):
- Εγκαταστήστε τα ακόλουθα εξαρτημένα πακέτα για να εκτελέσετε το πρόγραμμα προσομοιωτή:
- Διαμορφώστε το Amazon EC2 χρησιμοποιώντας τις μεταβλητές όπως τα διαπιστευτήρια AWS που δημιουργούνται για τον χρήστη IAM που δημιουργήθηκαν στο βήμα 3 παραπάνω. Το παρακάτω στιγμιότυπο οθόνης δείχνει ένα παράδειγμα χρήσης aws configure.
Ρυθμίστε τις ροές δεδομένων Kinesis
Το Amazon Kinesis Data Streams είναι μια μαζικά επεκτάσιμη και ανθεκτική υπηρεσία ροής δεδομένων σε πραγματικό χρόνο. Μπορεί να συλλαμβάνει συνεχώς gigabyte δεδομένων ανά δευτερόλεπτο από εκατοντάδες χιλιάδες πηγές, όπως ροές κλικ ιστότοπου, ροές συμβάντων βάσης δεδομένων, οικονομικές συναλλαγές, ροές μέσων κοινωνικής δικτύωσης, αρχεία καταγραφής πληροφορικής και συμβάντα παρακολούθησης τοποθεσίας. Τα δεδομένα που συλλέγονται είναι διαθέσιμα σε χιλιοστά του δευτερολέπτου για να ενεργοποιηθούν περιπτώσεις χρήσης αναλυτικών στοιχείων σε πραγματικό χρόνο, όπως πίνακες εργαλείων σε πραγματικό χρόνο, ανίχνευση ανωμαλιών σε πραγματικό χρόνο, δυναμική τιμολόγηση και πολλά άλλα. Χρησιμοποιούμε το Kinesis Data Streams επειδή είναι μια λύση χωρίς διακομιστή που μπορεί να κλιμακωθεί με βάση τη χρήση.
Δημιουργήστε μια ροή δεδομένων Kinesis
Αρχικά, πρέπει να δημιουργήσετε μια ροή δεδομένων Kinesis για να λάβετε τα δεδομένα ροής:
- Στην κονσόλα Amazon Kinesis, επιλέξτε Ροές δεδομένων στο παράθυρο πλοήγησης.
- Επιλέξτε Δημιουργία ροής δεδομένων.
- Για Όνομα ροής δεδομένων, εισαγω
cust-payment-txn-stream
. - Για Λειτουργία χωρητικότητας, Επιλέξτε Κατα παραγγελια.
- Για τις υπόλοιπες επιλογές, επιλέξτε τις προεπιλεγμένες επιλογές και ακολουθήστε τις οδηγίες για να ολοκληρώσετε τη ρύθμιση.
- Καταγράψτε το ARN για τη δημιουργημένη ροή δεδομένων για χρήση στην επόμενη ενότητα κατά τον καθορισμό της πολιτικής IAM.
Ρύθμιση αδειών
Για να μπορεί μια εφαρμογή ροής να γράφει στο Kinesis Data Streams, η εφαρμογή πρέπει να έχει πρόσβαση στο Kinesis. Μπορείτε να χρησιμοποιήσετε την ακόλουθη δήλωση πολιτικής για να παραχωρήσετε στη διαδικασία προσομοιωτή που ρυθμίσατε στην επόμενη ενότητα πρόσβαση στη ροή δεδομένων. Χρησιμοποιήστε το ARN της ροής δεδομένων που αποθηκεύσατε στο προηγούμενο βήμα.
Διαμορφώστε τον παραγωγό ροής
Για να μπορέσουμε να καταναλώσουμε δεδομένα ροής στο Amazon Redshift, χρειαζόμαστε μια πηγή δεδομένων ροής που εγγράφει δεδομένα στη ροή δεδομένων Kinesis. Αυτή η ανάρτηση χρησιμοποιεί μια προσαρμοσμένη δημιουργία δεδομένων και το AWS SDK για Python (Boto3) για να δημοσιεύσετε τα δεδομένα στη ροή δεδομένων. Για οδηγίες ρύθμισης, ανατρέξτε στο Προσομοιωτής Παραγωγού. Αυτή η διαδικασία προσομοιωτή δημοσιεύει δεδομένα ροής στη ροή δεδομένων που δημιουργήθηκε στο προηγούμενο βήμα (cust-payment-txn-stream
).
Διαμόρφωση του καταναλωτή ροής
Αυτή η ενότητα μιλά για τη διαμόρφωση του καταναλωτή ροής (προβολή απορρόφησης ροής Amazon Redshift).
Η απορρόφηση ροής Amazon Redshift παρέχει χαμηλής καθυστέρησης και υψηλής ταχύτητας απορρόφηση δεδομένων ροής από τα Kinesis Data Streams σε μια υλοποιημένη προβολή Amazon Redshift. Μπορείτε να διαμορφώσετε το σύμπλεγμα Amazon Redshift ώστε να ενεργοποιεί την απορρόφηση ροής και να δημιουργήσετε μια υλοποιημένη προβολή με αυτόματη ανανέωση, χρησιμοποιώντας δηλώσεις SQL, όπως περιγράφεται στο Δημιουργία υλοποιημένων προβολών στο Amazon Redshift. Η αυτόματη υλοποιημένη διαδικασία ανανέωσης προβολής θα απορροφήσει δεδομένα ροής σε εκατοντάδες megabyte δεδομένων ανά δευτερόλεπτο από το Kinesis Data Streams στο Amazon Redshift. Αυτό έχει ως αποτέλεσμα γρήγορη πρόσβαση σε εξωτερικά δεδομένα που ανανεώνονται γρήγορα.
Αφού δημιουργήσετε την υλοποιημένη προβολή, μπορείτε να αποκτήσετε πρόσβαση στα δεδομένα σας από τη ροή δεδομένων χρησιμοποιώντας SQL και να απλοποιήσετε τις σωληνώσεις δεδομένων σας δημιουργώντας υλοποιημένες προβολές απευθείας πάνω από τη ροή.
Ολοκληρώστε τα παρακάτω βήματα για να διαμορφώσετε μια υλοποιημένη προβολή ροής Amazon Redshift:
- Στην κονσόλα IAM, επιλέξτε πολιτικές στο παράθυρο πλοήγησης.
- Επιλέξτε Δημιουργήστε πολιτική.
- Δημιουργήστε μια νέα πολιτική IAM που ονομάζεται
KinesisStreamPolicy
. Για τον ορισμό της πολιτικής ροής, βλ Ξεκινώντας με την απορρόφηση ροής. - Στο παράθυρο πλοήγησης, επιλέξτε ρόλους.
- Επιλέξτε Δημιουργία ρόλου.
- Αγορά Υπηρεσία AWS Και επιλέξτε Redshift και Redshift προσαρμόσιμα.
- Δημιουργήστε έναν νέο ρόλο που ονομάζεται
redshift-streaming-role
και επισυνάψτε την πολιτικήKinesisStreamPolicy
. - Δημιουργήστε ένα εξωτερικό σχήμα για αντιστοίχιση σε ροές δεδομένων Kinesis:
Τώρα μπορείτε να δημιουργήσετε μια υλοποιημένη προβολή για να καταναλώσετε τα δεδομένα ροής. Μπορείτε να χρησιμοποιήσετε τον τύπο δεδομένων SUPER για να αποθηκεύσετε το ωφέλιμο φορτίο ως έχει, σε μορφή JSON ή να χρησιμοποιήσετε τις λειτουργίες JSON Redshift του Amazon για να αναλύσετε τα δεδομένα JSON σε μεμονωμένες στήλες. Για αυτήν την ανάρτηση, χρησιμοποιούμε τη δεύτερη μέθοδο επειδή το σχήμα είναι καλά καθορισμένο.
- Δημιουργήστε την υλοποιημένη προβολή απορρόφησης ροής
cust_payment_tx_stream
. Καθορίζοντας AUTO REFRESH YES στον ακόλουθο κώδικα, μπορείτε να ενεργοποιήσετε την αυτόματη ανανέωση της προβολής απορρόφησης ροής, η οποία εξοικονομεί χρόνο αποφεύγοντας τη δημιουργία σωληνώσεων δεδομένων:
Σημειώστε ότι json_extract_path_text
έχει περιορισμό μήκους 64 KB. Επίσης το from_varbye φιλτράρει εγγραφές μεγαλύτερες από 65KB.
- Ανανεώστε τα δεδομένα.
Η υλοποιημένη προβολή ροής Amazon Redshift ανανεώνεται αυτόματα από το Amazon Redshift για εσάς. Με αυτόν τον τρόπο, δεν χρειάζεται να ανησυχείτε για το μπαγιάτικο των δεδομένων. Με την αυτόματη ανανέωση υλοποιημένης προβολής, τα δεδομένα φορτώνονται αυτόματα στο Amazon Redshift καθώς γίνονται διαθέσιμα στη ροή. Εάν επιλέξετε να εκτελέσετε χειροκίνητα αυτήν τη λειτουργία, χρησιμοποιήστε την ακόλουθη εντολή:
- Τώρα ας υποβάλουμε ερώτημα στην προβολή που έχει υλοποιηθεί στη ροή για να δούμε δείγματα δεδομένων:
- Ας ελέγξουμε πόσες εγγραφές υπάρχουν στην προβολή ροής τώρα:
Τώρα έχετε ολοκληρώσει τη ρύθμιση της προβολής απορρόφησης ροής Amazon Redshift, η οποία ενημερώνεται συνεχώς με δεδομένα εισερχόμενων συναλλαγών με πιστωτική κάρτα. Στις ρυθμίσεις μου, βλέπω ότι περίπου 67,000 εγγραφές έχουν τραβηχτεί στην προβολή ροής τη στιγμή που έτρεξα το ερώτημα επιλογής καταμέτρησης. Αυτός ο αριθμός μπορεί να είναι διαφορετικός για εσάς.
Redshift ML
Με το Redshift ML, μπορείτε να φέρετε ένα προεκπαιδευμένο μοντέλο ML ή να δημιουργήσετε ένα εγγενώς. Για περισσότερες πληροφορίες, ανατρέξτε στο Χρήση μηχανικής εκμάθησης στο Amazon Redshift.
Σε αυτήν την ανάρτηση, εκπαιδεύουμε και κατασκευάζουμε ένα μοντέλο ML χρησιμοποιώντας ένα ιστορικό σύνολο δεδομένων. Τα δεδομένα περιέχουν α tx_fraud
πεδίο που επισημαίνει μια ιστορική συναλλαγή ως δόλια ή όχι. Δημιουργούμε ένα εποπτευόμενο μοντέλο ML χρησιμοποιώντας το Redshift Auto ML, το οποίο μαθαίνει από αυτό το σύνολο δεδομένων και προβλέπει τις εισερχόμενες συναλλαγές όταν αυτές εκτελούνται μέσω των συναρτήσεων πρόβλεψης.
Στις επόμενες ενότητες, δείχνουμε πώς να ρυθμίσετε το ιστορικό δεδομένων και τα δεδομένα πελατών.
Φορτώστε το ιστορικό σύνολο δεδομένων
Ο πίνακας ιστορικού έχει περισσότερα πεδία από αυτά που έχει η πηγή δεδομένων ροής. Αυτά τα πεδία περιέχουν τις πιο πρόσφατες δαπάνες του πελάτη και τη βαθμολογία κινδύνου τερματικού, όπως τον αριθμό των δόλιων συναλλαγών που υπολογίζονται με τη μετατροπή δεδομένων ροής. Υπάρχουν επίσης κατηγορικές μεταβλητές όπως συναλλαγές Σαββατοκύριακου ή νυχτερινές συναλλαγές.
Για να φορτώσετε τα δεδομένα ιστορικού, εκτελέστε τις εντολές χρησιμοποιώντας το Επεξεργαστής ερωτημάτων Amazon Redshift.
Δημιουργήστε τον πίνακα ιστορικού συναλλαγών με τον παρακάτω κώδικα. Το DDL μπορεί επίσης να βρεθεί στο GitHub.
Ας ελέγξουμε πόσες συναλλαγές έχουν φορτωθεί:
Ελέγξτε την τάση των μηνιαίων συναλλαγών απάτης και μη απάτης:
Δημιουργία και φόρτωση δεδομένων πελατών
Τώρα δημιουργούμε τον πίνακα πελατών και φορτώνουμε δεδομένα, τα οποία περιέχουν το email και τον αριθμό τηλεφώνου του πελάτη. Ο παρακάτω κώδικας δημιουργεί τον πίνακα, φορτώνει τα δεδομένα και λαμβάνει δείγματα του πίνακα. Ο πίνακας DDL είναι διαθέσιμος στο GitHub.
Τα δεδομένα των δοκιμών μας έχουν περίπου 5,000 πελάτες. Το παρακάτω στιγμιότυπο οθόνης δείχνει δείγματα δεδομένων πελατών.
Δημιουργήστε ένα μοντέλο ML
Ο ιστορικός πίνακας συναλλαγών καρτών μας έχει δεδομένα 6 μηνών, τα οποία πλέον χρησιμοποιούμε για να εκπαιδεύσουμε και να δοκιμάσουμε το μοντέλο ML.
Το μοντέλο λαμβάνει ως είσοδο τα ακόλουθα πεδία:
Παίρνουμε tx_fraud
ως έξοδος.
Διαχωρίσαμε αυτά τα δεδομένα σε σύνολα δεδομένων εκπαίδευσης και δοκιμής. Οι συναλλαγές από 2022-04-01 έως 2022-07-31 αφορούν το σετ εκπαίδευσης. Για το δοκιμαστικό σετ χρησιμοποιούνται συναλλαγές από 2022-08-01 έως 2022-09-30.
Ας δημιουργήσουμε το μοντέλο ML χρησιμοποιώντας τη γνωστή SQL ΔΗΜΙΟΥΡΓΙΑ ΔΗΛΩΣΗΣ ΜΟΝΤΕΛΟΥ. Χρησιμοποιούμε μια βασική μορφή της εντολής Redshift ML. Η ακόλουθη μέθοδος χρησιμοποιεί Αυτόματος πιλότος Amazon SageMaker, το οποίο εκτελεί αυτόματα για εσάς προετοιμασία δεδομένων, μηχανική λειτουργιών, επιλογή μοντέλου και εκπαίδευση. Δώστε το όνομα του κάδου S3 που περιέχει τον κωδικό.
Ονομάζω το μοντέλο ML ως Cust_cc_txn_fd
, και η λειτουργία πρόβλεψης ως fn_customer_cc_fd
. Ο όρος FROM εμφανίζει τις στήλες εισόδου από τον ιστορικό πίνακα public.cust_payment_tx_history
. Η παράμετρος στόχος έχει οριστεί σε tx_fraud
, η οποία είναι η μεταβλητή στόχος που προσπαθούμε να προβλέψουμε. IAM_Role
έχει οριστεί ως προεπιλογή επειδή το σύμπλεγμα έχει ρυθμιστεί με αυτόν τον ρόλο. Εάν όχι, θα πρέπει να παρέχετε το ρόλο ARN στο σύμπλεγμα Amazon Redshift IAM. ρύθμισα το max_runtime
σε 3,600 δευτερόλεπτα, που είναι ο χρόνος που δίνουμε στο SageMaker για να ολοκληρώσει τη διαδικασία. Το Redshift ML αναπτύσσει το καλύτερο μοντέλο που έχει εντοπιστεί σε αυτό το χρονικό πλαίσιο.
Ανάλογα με την πολυπλοκότητα του μοντέλου και τον όγκο των δεδομένων, μπορεί να χρειαστεί λίγος χρόνος για να είναι διαθέσιμο το μοντέλο. Εάν διαπιστώσετε ότι η επιλογή του μοντέλου σας δεν ολοκληρώνεται, αυξήστε την τιμή για max_runtime
. Μπορείτε να ορίσετε μια μέγιστη τιμή 9999.
Η εντολή CREATE MODEL εκτελείται ασύγχρονα, που σημαίνει ότι εκτελείται στο παρασκήνιο. Μπορείτε να χρησιμοποιήσετε το ΔΕΙΤΕ ΜΟΝΤΕΛΟ εντολή για να δείτε την κατάσταση του μοντέλου. Όταν η κατάσταση εμφανίζεται ως Έτοιμο, σημαίνει ότι το μοντέλο έχει εκπαιδευτεί και αναπτυχθεί.
Τα παρακάτω στιγμιότυπα οθόνης δείχνουν το αποτέλεσμα μας.
Από την έξοδο, βλέπω ότι το μοντέλο έχει αναγνωριστεί σωστά ως BinaryClassification
, και η F1 επιλέχθηκε ως στόχος. ο Βαθμολογία F1 είναι μια μέτρηση που λαμβάνει υπόψη και τα δύο ακρίβεια και ανάκληση. Επιστρέφει μια τιμή μεταξύ 1 (τέλεια ακρίβεια και ανάκληση) και 0 (χαμηλότερη δυνατή βαθμολογία). Στην περίπτωσή μου είναι 0.91. Όσο μεγαλύτερη είναι η τιμή, τόσο καλύτερη είναι η απόδοση του μοντέλου.
Ας δοκιμάσουμε αυτό το μοντέλο με το σύνολο δεδομένων δοκιμής. Εκτελέστε την ακόλουθη εντολή, η οποία ανακτά δείγματα προβλέψεων:
Βλέπουμε ότι κάποιες αξίες ταιριάζουν και κάποιες όχι. Ας συγκρίνουμε τις προβλέψεις με την αλήθεια:
Επικυρώσαμε ότι το μοντέλο λειτουργεί και η βαθμολογία F1 είναι καλή. Ας προχωρήσουμε στη δημιουργία προβλέψεων για ροή δεδομένων.
Προβλέψτε δόλιες συναλλαγές
Επειδή το μοντέλο Redshift ML είναι έτοιμο για χρήση, μπορούμε να το χρησιμοποιήσουμε για να εκτελέσουμε τις προβλέψεις κατά της απορρόφησης δεδομένων ροής. Το ιστορικό δεδομένων έχει περισσότερα πεδία από αυτά που έχουμε στην πηγή δεδομένων ροής, αλλά είναι απλώς μετρήσεις πρόσφατης και συχνότητας γύρω από τον πελάτη και τον τερματικό κίνδυνο για μια δόλια συναλλαγή.
Μπορούμε να εφαρμόσουμε τους μετασχηματισμούς πάνω από τα δεδομένα ροής πολύ εύκολα ενσωματώνοντας την SQL μέσα στις προβολές. Δημιουργήστε το πρώτη άποψη, το οποίο συγκεντρώνει δεδομένα ροής σε επίπεδο πελάτη. Στη συνέχεια δημιουργήστε το δεύτερη όψη, το οποίο συγκεντρώνει δεδομένα ροής σε επίπεδο τερματικού και το τρίτη άποψη, το οποίο συνδυάζει εισερχόμενα δεδομένα συναλλαγών με συγκεντρωτικά δεδομένα πελατών και τερματικών και καλεί τη συνάρτηση πρόβλεψης όλα σε ένα μέρος. Ο κώδικας για την τρίτη προβολή είναι ο εξής:
Εκτελέστε μια δήλωση SELECT στην προβολή:
Καθώς εκτελείτε επανειλημμένα τη δήλωση SELECT, οι πιο πρόσφατες συναλλαγές με πιστωτικές κάρτες περνούν από μετασχηματισμούς και προβλέψεις ML σε σχεδόν πραγματικό χρόνο.
Αυτό καταδεικνύει τη δύναμη του Amazon Redshift—με εύχρηστες εντολές SQL, μπορείτε να μετατρέψετε δεδομένα ροής εφαρμόζοντας σύνθετες συναρτήσεις παραθύρου και να εφαρμόσετε ένα μοντέλο ML για να προβλέψετε δόλιες συναλλαγές όλα σε ένα βήμα, χωρίς να δημιουργήσετε περίπλοκες αγωγούς δεδομένων ή να δημιουργήσετε και να διαχειριστείτε πρόσθετες υποδομές.
Επεκτείνετε τη λύση
Επειδή οι ροές δεδομένων και οι προβλέψεις ML γίνονται σε σχεδόν πραγματικό χρόνο, μπορείτε να δημιουργήσετε επιχειρηματικές διαδικασίες για να ειδοποιήσετε τον πελάτη σας χρησιμοποιώντας Υπηρεσία απλών ειδοποιήσεων Amazon (Amazon SNS), ή μπορείτε να κλειδώσετε τον λογαριασμό πιστωτικής κάρτας του πελάτη σε ένα λειτουργικό σύστημα.
Αυτή η ανάρτηση δεν αναφέρεται στις λεπτομέρειες αυτών των λειτουργιών, αλλά αν σας ενδιαφέρει να μάθετε περισσότερα σχετικά με τη δημιουργία λύσεων που βασίζονται σε εκδηλώσεις χρησιμοποιώντας το Amazon Redshift, ανατρέξτε στα παρακάτω Αποθετήριο GitHub.
εκκαθάριση
Για να αποφύγετε μελλοντικές χρεώσεις, διαγράψτε τους πόρους που δημιουργήθηκαν ως μέρος αυτής της ανάρτησης.
Συμπέρασμα
Σε αυτήν την ανάρτηση, δείξαμε πώς να ρυθμίσετε μια ροή δεδομένων Kinesis, να διαμορφώσετε έναν παραγωγό και να δημοσιεύσετε δεδομένα σε ροές και, στη συνέχεια, να δημιουργήσετε μια προβολή απορρόφησης ροής Amazon Redshift και να υποβάλετε ερωτήματα στα δεδομένα στο Amazon Redshift. Αφού τα δεδομένα ήταν στο σύμπλεγμα Amazon Redshift, δείξαμε πώς να εκπαιδεύσουμε ένα μοντέλο ML και να δημιουργήσουμε μια συνάρτηση πρόβλεψης και να την εφαρμόσουμε στα δεδομένα ροής για να δημιουργήσουμε προβλέψεις σχεδόν σε πραγματικό χρόνο.
Εάν έχετε οποιαδήποτε σχόλια ή ερωτήσεις, αφήστε τα στα σχόλια.
Σχετικά με τους Συγγραφείς
Μπάνου Πιτάμπαλι είναι ένας αρχιτέκτονας ειδικών λύσεων Analytics με έδρα το Ντάλας. Ειδικεύεται στην κατασκευή αναλυτικών λύσεων. Το υπόβαθρό του είναι στις αποθήκες δεδομένων—αρχιτεκτονική, ανάπτυξη και διοίκηση. Ασχολείται με τα δεδομένα και την ανάλυση για πάνω από 15 χρόνια.
Praveen Kadipikonda είναι Senior Analytics Specialist Solutions Architect στην AWS με έδρα το Ντάλας. Βοηθά τους πελάτες να δημιουργήσουν αποτελεσματικές, αποδοτικές και επεκτάσιμες αναλυτικές λύσεις. Έχει εργαστεί με την κατασκευή βάσεων δεδομένων και λύσεις αποθήκης δεδομένων για πάνω από 15 χρόνια.
Ριτές Κουμάρ Σίνχα είναι ένας αρχιτέκτονας εξειδικευμένων λύσεων Analytics με έδρα το Σαν Φρανσίσκο. Έχει βοηθήσει τους πελάτες να δημιουργήσουν επεκτάσιμες λύσεις αποθήκευσης δεδομένων και μεγάλων δεδομένων για περισσότερα από 16 χρόνια. Του αρέσει να σχεδιάζει και να δημιουργεί αποτελεσματικές λύσεις από άκρο σε άκρο στο AWS. Στον ελεύθερο χρόνο του, του αρέσει να διαβάζει, να περπατά και να κάνει γιόγκα.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/big-data/near-real-time-fraud-detection-using-amazon-redshift-streaming-ingestion-with-amazon-kinesis-data-streams-and-amazon-redshift-ml/
- 000
- 000 Πελάτες
- 1
- 10
- 100
- 11
- 15 χρόνια
- 67
- 7
- 9
- a
- Ικανός
- Σχετικα
- πάνω από
- πρόσβαση
- Λογαριασμός
- Κατορθώνω
- Ενέργειες
- Πρόσθετος
- διαχείριση
- προηγμένες
- Μετά το
- κατά
- Ειδοποίηση
- Όλα
- επιτρέπει
- Amazon
- Amazon EC2
- Amazon Kinesis
- ποσό
- Αναλυτές
- Αναλυτικός
- analytics
- αναλύσει
- και
- ανίχνευση ανωμαλιών
- Apache
- Εφαρμογή
- Εφαρμογή
- εφαρμόζοντας
- αρχιτεκτονική
- γύρω
- αποδίδουν
- αυτόματη
- Αυτόματο
- αυτομάτως
- διαθέσιμος
- αποφεύγοντας
- AWS
- φόντο
- βασίζονται
- βασικός
- επειδή
- γίνεται
- ΚΑΛΎΤΕΡΟΣ
- Καλύτερα
- μεταξύ
- Μεγάλος
- Big Data
- φέρω
- χτίζω
- Κτίριο
- επιχείρηση
- επιχειρηματικών διαδικασιών
- επιχειρήσεις
- κλήση
- που ονομάζεται
- κλήσεις
- πιάνω
- κάρτα
- περίπτωση
- περιπτώσεις
- χαρακτήρας
- φορτία
- έλεγχος
- Επιλέξτε
- Πόλη
- Backup
- συστάδα
- κωδικός
- Στήλες
- συνδυάζει
- ερχομός
- σχόλια
- συγκρίνουν
- πλήρης
- ολοκληρώνοντας
- συγκρότημα
- περίπλοκο
- Υπολογίστε
- θεωρεί
- πρόξενος
- καταναλώνουν
- καταναλωτής
- Περιέχει
- αποδοτική
- θα μπορούσε να
- δημιουργία
- δημιουργήθηκε
- δημιουργεί
- δημιουργία
- Διαπιστεύσεις
- μονάδες
- πιστωτική κάρτα
- πελάτης
- στοιχεία πελάτη
- Πελάτες
- κύκλους
- καθημερινά
- Ντάλας
- ημερομηνία
- Προετοιμασία δεδομένων
- αποθήκη δεδομένων
- αποθήκες δεδομένων
- βάση δεδομένων
- βάσεις δεδομένων
- σύνολα δεδομένων
- Ημερομηνία
- Λήψη Αποφάσεων
- Προεπιλογή
- καθορίζοντας
- παραδώσει
- κατέδειξε
- εξαρτώμενος
- παρατάσσω
- αναπτυχθεί
- αναπτύσσεται
- περιγράφεται
- Υπηρεσίες
- καθέκαστα
- Ανίχνευση
- προγραμματιστές
- Ανάπτυξη
- διαφορετικές
- κατευθείαν
- Όχι
- πράξη
- Μην
- dow
- δυναμικός
- εύκολα
- εύκολο στη χρήση
- αποτέλεσμα
- αποτελεσματικός
- ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
- ενεργοποιήσετε
- δίνει τη δυνατότητα
- από άκρη σε άκρη
- Μηχανική
- εισάγετε
- Αιθέρας (ΕΤΗ)
- Συμβάν
- εκδηλώσεις
- παράδειγμα
- ενθουσιασμένοι
- εξωτερικός
- εξαγωγή
- f1
- οικείος
- FAST
- Χαρακτηριστικό
- Χαρακτηριστικά
- ανατροφοδότηση
- πεδίο
- Πεδία
- Φίλτρα
- οικονομικός
- Εύρεση
- σημαίες
- ροή
- ακολουθήστε
- Εξής
- εξής
- μορφή
- μορφή
- Βρέθηκαν
- ΠΛΑΙΣΙΟ
- Φρανσίσκο
- απάτη
- ανίχνευση απάτης
- Δωρεάν
- Συχνότητα
- από
- πλήρως
- λειτουργία
- λειτουργίες
- μελλοντικός
- παράγουν
- παράγεται
- παραγωγής
- γεννήτρια
- παίρνω
- Δώστε
- Go
- καλός
- χορηγεί
- Έδαφος
- Group
- που έχει
- βοήθησε
- βοηθά
- υψηλότερο
- Επισημάνετε
- ιστορικών
- ιστορία
- Πως
- Πώς να
- HTML
- HTTPS
- Εκατοντάδες
- IAM
- προσδιορίζονται
- Ταυτότητα
- σπουδαιότητα
- in
- περιλαμβάνουν
- Εισερχόμενος
- Αυξάνουν
- αύξηση
- ατομικές
- πληροφορίες
- Υποδομή
- εισαγωγή
- Ένθετα
- ιδέες
- εγκαθιστώ
- παράδειγμα
- Ινστιτούτο
- οδηγίες
- ενδιαφερόμενος
- IT
- ενταχθούν
- json
- Kafka
- Ροές δεδομένων Kinesis
- Γλώσσα
- μεγαλύτερος
- Αφάνεια
- αργότερο
- ξεκινήσει
- μάθηση
- Άδεια
- Μήκος
- Επίπεδο
- LIMIT
- περιορισμός
- φορτίο
- φορτία
- μακροπρόθεσμος
- Χαμηλός
- μηχανή
- μάθηση μηχανής
- που
- κάνω
- ΚΑΝΕΙ
- διαχειρίζεται
- διαχείριση
- χειροκίνητα
- πολοί
- χάρτη
- μαζικά
- ταιριάζουν
- matplotlib
- max
- μέσα
- Εικόνες / Βίντεο
- μέθοδος
- μετρικός
- Metrics
- Μετριάζω
- ML
- Τρόπος
- μοντέλο
- μοντέλα
- μηνιαίος
- μήνες
- περισσότερο
- πλέον
- μετακινήσετε
- όνομα
- Πλοήγηση
- Ανάγκη
- ανάγκες
- Νέα
- επόμενη
- κοινοποίηση
- αριθμός
- πολλοί
- σκοπός
- ONE
- ανοίγει
- λειτουργία
- επιχειρήσεων
- λειτουργίες
- Ευκαιρίες
- Επιλογές
- τάξη
- οργανώσεις
- ΑΛΛΑ
- σκιαγραφείται
- Packages
- Πάντα
- παράθυρο
- παράμετρος
- μέρος
- τέλειος
- εκτελέσει
- επίδοση
- εκτελεί
- δικαιώματα
- τηλέφωνο
- Μέρος
- σχεδιασμό
- πλατφόρμες
- Πλατφόρμες
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- σας παρακαλούμε
- Πολιτικές
- πολιτική
- δυνατός
- Θέση
- δύναμη
- Ακρίβεια
- προβλέψει
- πρόβλεψη
- Προβλέψεις
- Προβλέπει
- προηγούμενος
- τιμολόγηση
- διαδικασια μας
- Διεργασίες
- παραγωγός
- Πρόγραμμα
- παρέχουν
- παρέχει
- δημόσιο
- δημοσιεύει
- Python
- Ερωτήσεις
- γρήγορα
- τυχαίος
- Ανάγνωση
- έτοιμος
- πραγματικός
- σε πραγματικό χρόνο
- δεδομένα σε πραγματικό χρόνο
- συνειδητοποιώντας
- λαμβάνω
- έλαβε
- πρόσφατος
- αναγνωρισμένος
- αρχεία
- ΚΑΤ 'ΕΠΑΝΑΛΗΨΗ
- αντικαθιστώ
- απαιτείται
- πόρος
- Υποστηρικτικό υλικό
- ΠΕΡΙΦΕΡΕΙΑ
- Αποτελέσματα
- Επιστροφές
- Κίνδυνος
- Ρόλος
- τρέξιμο
- τρέξιμο
- σοφός
- Σαν
- Σαν Φρανσίσκο
- επεκτάσιμη
- Κλίμακα
- screenshots
- SDK
- θαλασσοπόρος
- Δεύτερος
- δευτερόλεπτα
- Τμήμα
- τμήματα
- προστατευμένο περιβάλλον
- επιλέγονται
- επιλογή
- Χωρίς διακομιστή
- υπηρεσία
- σειρά
- τον καθορισμό
- ρυθμίσεις
- setup
- βραχυπρόθεσμα
- δείχνουν
- Δείχνει
- Απλούς
- απλοποίηση
- προσομοιωτής
- So
- Μ.Κ.Δ
- social media
- λύση
- Λύσεις
- μερικοί
- Πηγή
- Πηγές
- ειδικός
- ειδικεύεται
- δαπανήσει
- διαίρεση
- SQL
- Στάδιο
- πρότυπο
- ξεκίνησε
- Κατάσταση
- Δήλωση
- δηλώσεις
- Κατάσταση
- Βήμα
- Βήματα
- χώρος στο δίσκο
- κατάστημα
- καταστήματα
- Στρατηγική
- μετάδοση
- ροής
- streaming υπηρεσία
- ροές
- τέτοιος
- Σούπερ
- σύστημα
- συστήματα
- τραπέζι
- Πάρτε
- παίρνει
- συνομιλίες
- στόχος
- τερματικό
- δοκιμή
- Η
- Τρίτος
- χιλιάδες
- Μέσω
- ώρα
- timestamp
- προς την
- κορυφή
- τοπικός
- παραδοσιακά
- Τρένο
- εκπαιδευμένο
- Εκπαίδευση
- συναλλαγή
- συναλλακτική
- Συναλλαγές
- Μεταμορφώστε
- μετασχηματισμούς
- μετασχηματίζοντας
- τάση
- Ενημέρωση
- ενημερώθηκε
- Χρήση
- χρήση
- Χρήστες
- επικυρωμένο
- αξία
- Αξίες
- διάφορα
- Αλήθεια
- εκδοχή
- Δες
- εμφανίσεις
- περπάτημα
- περιδιάβαση
- Αποθήκη
- Αποθήκευση
- Ιστοσελίδα : www.example.gr
- σαββατοκύριακο
- εβδομαδιαίος
- Τι
- Ποιό
- ενώ
- Wikipedia
- θα
- χωρίς
- εργάστηκαν
- εργαζόμενος
- λειτουργεί
- γράφω
- χρόνια
- Yoga
- Σας
- zephyrnet