Ανίχνευση, κάλυψη και επεξεργασία δεδομένων PII με χρήση κόλλας AWS πριν από τη φόρτωση στην Υπηρεσία OpenSearch της Amazon | Υπηρεσίες Ιστού της Amazon

Ανίχνευση, κάλυψη και επεξεργασία δεδομένων PII με χρήση κόλλας AWS πριν από τη φόρτωση στην Υπηρεσία OpenSearch της Amazon | Υπηρεσίες Ιστού της Amazon

Κόμβος πηγής: 3059547

Πολλοί οργανισμοί, μικροί και μεγάλοι, εργάζονται για τη μετεγκατάσταση και τον εκσυγχρονισμό του φόρτου εργασίας τους στα αναλυτικά στοιχεία στις Υπηρεσίες Ιστού της Amazon (AWS). Υπάρχουν πολλοί λόγοι για τους πελάτες να μεταναστεύσουν στο AWS, αλλά ένας από τους κύριους λόγους είναι η δυνατότητα χρήσης πλήρως διαχειριζόμενων υπηρεσιών αντί να αφιερώνουν χρόνο για τη συντήρηση της υποδομής, την ενημέρωση κώδικα, την παρακολούθηση, τη δημιουργία αντιγράφων ασφαλείας και άλλα. Οι ομάδες ηγεσίας και ανάπτυξης μπορούν να αφιερώσουν περισσότερο χρόνο βελτιστοποιώντας τις τρέχουσες λύσεις και ακόμη και πειραματιζόμενοι με νέες περιπτώσεις χρήσης, αντί να διατηρούν την τρέχουσα υποδομή.

Με τη δυνατότητα γρήγορης κίνησης στο AWS, πρέπει επίσης να είστε υπεύθυνοι με τα δεδομένα που λαμβάνετε και επεξεργάζεστε καθώς συνεχίζετε να κλιμακώνεστε. Αυτές οι ευθύνες περιλαμβάνουν τη συμμόρφωση με τους νόμους και τους κανονισμούς περί απορρήτου δεδομένων και τη μη αποθήκευση ή έκθεση ευαίσθητων δεδομένων όπως προσωπικά αναγνωρίσιμες πληροφορίες (PII) ή προστατευμένες πληροφορίες υγείας (PHI) από προηγούμενες πηγές.

Σε αυτήν την ανάρτηση, περιηγούμαστε σε μια αρχιτεκτονική υψηλού επιπέδου και μια συγκεκριμένη περίπτωση χρήσης που δείχνει πώς μπορείτε να συνεχίσετε να κλιμακώνετε την πλατφόρμα δεδομένων του οργανισμού σας χωρίς να χρειάζεται να ξοδεύετε μεγάλο χρόνο ανάπτυξης για την αντιμετώπιση προβλημάτων απορρήτου δεδομένων. Χρησιμοποιούμε Κόλλα AWS για ανίχνευση, κάλυψη και διόρθωση δεδομένων PII πριν από τη φόρτωσή τους Amazon OpenSearch Service.

Επισκόπηση λύσεων

Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική λύσεων υψηλού επιπέδου. Έχουμε ορίσει όλα τα επίπεδα και τα στοιχεία του σχεδίου μας σύμφωνα με το Καλά αρχιτεκτονημένος φακός ανάλυσης δεδομένων πλαισίου AWS.

os_glue_architecture

Η αρχιτεκτονική αποτελείται από μια σειρά από στοιχεία:

Πηγή των δεδομένων

Τα δεδομένα μπορεί να προέρχονται από πολλές δεκάδες έως εκατοντάδες πηγές, όπως βάσεις δεδομένων, μεταφορές αρχείων, αρχεία καταγραφής, εφαρμογές λογισμικού ως υπηρεσία (SaaS) και πολλά άλλα. Οι οργανισμοί μπορεί να μην έχουν πάντα τον έλεγχο σχετικά με τα δεδομένα που έρχονται μέσω αυτών των καναλιών και στο μεταγενέστερο αποθηκευτικό χώρο και τις εφαρμογές τους.

Κατάποση: Παρτίδα λίμνης δεδομένων, μικροπαρτίδα και ροή

Πολλοί οργανισμοί μεταφέρουν τα δεδομένα πηγής τους στη λίμνη δεδομένων τους με διάφορους τρόπους, συμπεριλαμβανομένων εργασιών δέσμης, μικρο-παρτίδας και συνεχούς ροής. Για παράδειγμα, EMR Αμαζονίου, Κόλλα AWS, να Υπηρεσία μετεγκατάστασης βάσης δεδομένων AWS (AWS DMS) μπορούν όλα να χρησιμοποιηθούν για την εκτέλεση λειτουργιών δέσμης ή ροής που βυθίζονται σε μια λίμνη δεδομένων στο Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3). Ροή εφαρμογών Amazon μπορεί να χρησιμοποιηθεί για τη μεταφορά δεδομένων από διαφορετικές εφαρμογές SaaS σε μια λίμνη δεδομένων. AWS DataSync και Οικογένεια μεταφοράς AWS μπορεί να βοηθήσει στη μετακίνηση αρχείων από και προς μια λίμνη δεδομένων μέσω πολλών διαφορετικών πρωτοκόλλων. Amazon Kinesis και το Amazon MSK έχουν επίσης δυνατότητες ροής δεδομένων απευθείας σε μια λίμνη δεδομένων στο Amazon S3.

Λίμνη δεδομένων S3

Η χρήση του Amazon S3 για τη λίμνη δεδομένων σας είναι σύμφωνη με τη σύγχρονη στρατηγική δεδομένων. Παρέχει αποθήκευση χαμηλού κόστους χωρίς να θυσιάζει την απόδοση, την αξιοπιστία ή τη διαθεσιμότητα. Με αυτήν την προσέγγιση, μπορείτε να φέρετε τον υπολογισμό στα δεδομένα σας όπως απαιτείται και να πληρώσετε μόνο για τη χωρητικότητα που χρειάζεται για να εκτελεστεί.

Σε αυτήν την αρχιτεκτονική, τα ανεπεξέργαστα δεδομένα μπορούν να προέρχονται από διάφορες πηγές (εσωτερικές και εξωτερικές), οι οποίες μπορεί να περιέχουν ευαίσθητα δεδομένα.

Χρησιμοποιώντας ανιχνευτές AWS Glue, μπορούμε να ανακαλύψουμε και να καταγράψουμε τα δεδομένα, τα οποία θα δημιουργήσουν τα σχήματα πινάκων για εμάς, και τελικά θα καταστήσουμε εύκολη τη χρήση του AWS Glue ETL με τον μετασχηματισμό PII για τον εντοπισμό και την κάλυψη ή και τη διόρθωση τυχόν ευαίσθητων δεδομένων που μπορεί να έχουν προσγειωθεί στη λίμνη δεδομένων.

Επιχειρηματικό πλαίσιο και σύνολα δεδομένων

Για να δείξουμε την αξία της προσέγγισής μας, ας φανταστούμε ότι ανήκετε σε μια ομάδα μηχανικής δεδομένων για έναν οργανισμό χρηματοοικονομικών υπηρεσιών. Οι απαιτήσεις σας είναι να ανιχνεύσετε και να αποκρύψετε ευαίσθητα δεδομένα καθώς αυτά απορροφώνται στο περιβάλλον cloud του οργανισμού σας. Τα δεδομένα θα καταναλωθούν από μεταγενέστερες αναλυτικές διαδικασίες. Στο μέλλον, οι χρήστες σας θα μπορούν να αναζητούν με ασφάλεια ιστορικές συναλλαγές πληρωμών με βάση ροές δεδομένων που συλλέγονται από εσωτερικά τραπεζικά συστήματα. Τα αποτελέσματα αναζήτησης από ομάδες λειτουργίας, πελάτες και εφαρμογές διεπαφής πρέπει να καλύπτονται σε ευαίσθητα πεδία.

Ο παρακάτω πίνακας δείχνει τη δομή δεδομένων που χρησιμοποιείται για τη λύση. Για λόγους σαφήνειας, αντιστοιχίσαμε ακατέργαστα σε επιλεγμένα ονόματα στηλών. Θα παρατηρήσετε ότι πολλά πεδία σε αυτό το σχήμα θεωρούνται ευαίσθητα δεδομένα, όπως όνομα, επώνυμο, αριθμός κοινωνικής ασφάλισης (SSN), διεύθυνση, αριθμός πιστωτικής κάρτας, αριθμός τηλεφώνου, email και διεύθυνση IPv4.

Όνομα ακατέργαστης στήλης Επιμέλεια Όνομα στήλης Χαρακτηριστικά
c0 όνομα κορδόνι
c1 επίθετο κορδόνι
c2 ΑΜ κορδόνι
c3 διεύθυνση κορδόνι
c4 ταχυδρομικό κώδικα κορδόνι
c5 χώρα κορδόνι
c6 buy_site κορδόνι
c7 αριθμός πιστωτικής κάρτας κορδόνι
c8 πιστωτική_κάρτα_παρόχου κορδόνι
c9 νόμισμα κορδόνι
c10 τιμή_αγοράς ακέραιος αριθμός
c11 Ημερομηνία Συναλλαγής Ραντεβού
c12 τηλεφωνικό νούμερο κορδόνι
c13 ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ κορδόνι
c14 ipv4 κορδόνι

Περίπτωση χρήσης: Ανίχνευση παρτίδας PII πριν από τη φόρτωση στην Υπηρεσία OpenSearch

Οι πελάτες που εφαρμόζουν την ακόλουθη αρχιτεκτονική έχουν δημιουργήσει τη λίμνη δεδομένων τους στο Amazon S3 για την εκτέλεση διαφορετικών τύπων αναλυτικών στοιχείων σε κλίμακα. Αυτή η λύση είναι κατάλληλη για πελάτες που δεν χρειάζονται απορρόφηση σε πραγματικό χρόνο στην Υπηρεσία OpenSearch και σχεδιάζουν να χρησιμοποιήσουν εργαλεία ενοποίησης δεδομένων που εκτελούνται βάσει χρονοδιαγράμματος ή ενεργοποιούνται μέσω συμβάντων.

batch_architecture

Πριν οι εγγραφές δεδομένων προσγειωθούν στο Amazon S3, εφαρμόζουμε ένα επίπεδο απορρόφησης για να μεταφέρουμε όλες τις ροές δεδομένων αξιόπιστα και με ασφάλεια στη λίμνη δεδομένων. Το Kinesis Data Streams αναπτύσσεται ως στρώμα απορρόφησης για ταχεία πρόσληψη δομημένων και ημιδομημένων ροών δεδομένων. Παραδείγματα αυτών είναι αλλαγές σχεσιακής βάσης δεδομένων, εφαρμογές, αρχεία καταγραφής συστήματος ή ροές κλικ. Για περιπτώσεις χρήσης καταγραφής δεδομένων αλλαγής (CDC), μπορείτε να χρησιμοποιήσετε το Kinesis Data Streams ως στόχο για το AWS DMS. Οι εφαρμογές ή τα συστήματα που δημιουργούν ροές που περιέχουν ευαίσθητα δεδομένα αποστέλλονται στη ροή δεδομένων Kinesis μέσω μίας από τις τρεις υποστηριζόμενες μεθόδους: του Amazon Kinesis Agent, του AWS SDK για Java ή του Kinesis Producer Library. Ως τελευταίο βήμα, Firehose δεδομένων Amazon Kinesis μας βοηθά να φορτώνουμε αξιόπιστα παρτίδες δεδομένων σχεδόν σε πραγματικό χρόνο στον προορισμό μας στη λίμνη δεδομένων S3.

Το ακόλουθο στιγμιότυπο οθόνης δείχνει πώς τα δεδομένα ρέουν μέσω των ροών δεδομένων Kinesis μέσω του Πρόγραμμα προβολής δεδομένων και ανακτά δείγματα δεδομένων που προσγειώνονται στο ακατέργαστο πρόθεμα S3. Για αυτήν την αρχιτεκτονική, ακολουθήσαμε τον κύκλο ζωής δεδομένων για τα προθέματα S3, όπως συνιστάται στο Ίδρυμα λίμνης δεδομένων.

ακατέργαστα δεδομένα kinesis

Όπως μπορείτε να δείτε από τις λεπτομέρειες της πρώτης εγγραφής στο παρακάτω στιγμιότυπο οθόνης, το ωφέλιμο φορτίο JSON ακολουθεί το ίδιο σχήμα όπως στην προηγούμενη ενότητα. Μπορείτε να δείτε τα μη διορθωμένα δεδομένα να ρέουν στη ροή δεδομένων Kinesis, η οποία θα ασαφεί αργότερα στα επόμενα στάδια.

raw_json

Αφού συλλεχθούν τα δεδομένα και απορριφθούν στις ροές δεδομένων Kinesis και παραδοθούν στον κάδο S3 χρησιμοποιώντας το Kinesis Data Firehose, το επίπεδο επεξεργασίας της αρχιτεκτονικής αναλαμβάνει. Χρησιμοποιούμε τον μετασχηματισμό AWS Glue PII για την αυτοματοποίηση της ανίχνευσης και της κάλυψης ευαίσθητων δεδομένων στον αγωγό μας. Όπως φαίνεται στο παρακάτω διάγραμμα ροής εργασίας, ακολουθήσαμε μια οπτική προσέγγιση ETL χωρίς κώδικα για να εφαρμόσουμε την εργασία μετασχηματισμού στο AWS Glue Studio.

κόλλα στούντιο κόμβων

Αρχικά, έχουμε πρόσβαση στον πίνακα καταλόγου δεδομένων προέλευσης από το pii_data_db βάση δεδομένων. Ο πίνακας έχει τη δομή σχήματος που παρουσιάστηκε στην προηγούμενη ενότητα. Για να παρακολουθούμε τα ακατέργαστα επεξεργασμένα δεδομένα, χρησιμοποιήσαμε σελιδοδείκτες εργασίας.

κατάλογος κόλλας

Χρησιμοποιούμε το Συνταγές AWS Glue DataBrew στην οπτική εργασία ETL του AWS Glue Studio για να μετατρέψετε δύο χαρακτηριστικά ημερομηνίας ώστε να είναι συμβατά με την αναμενόμενη OpenSearch μορφές. Αυτό μας επιτρέπει να έχουμε μια πλήρη εμπειρία χωρίς κώδικα.

Χρησιμοποιούμε την ενέργεια Ανίχνευση PII για να αναγνωρίσουμε ευαίσθητες στήλες. Αφήνουμε το AWS Glue να το προσδιορίσει με βάση επιλεγμένα μοτίβα, το όριο ανίχνευσης και το τμήμα δείγματος σειρών από το σύνολο δεδομένων. Στο παράδειγμά μας, χρησιμοποιήσαμε μοτίβα που ισχύουν ειδικά για τις Ηνωμένες Πολιτείες (όπως SSN) και ενδέχεται να μην εντοπίζουν ευαίσθητα δεδομένα από άλλες χώρες. Μπορείτε να αναζητήσετε διαθέσιμες κατηγορίες και τοποθεσίες που ισχύουν για την περίπτωση χρήσης σας ή να χρησιμοποιήσετε κανονικές εκφράσεις (regex) στο AWS Glue για να δημιουργήσετε οντότητες ανίχνευσης για ευαίσθητα δεδομένα από άλλες χώρες.

Είναι σημαντικό να επιλέξετε τη σωστή μέθοδο δειγματοληψίας που προσφέρει το AWS Glue. Σε αυτό το παράδειγμα, είναι γνωστό ότι τα δεδομένα που προέρχονται από τη ροή έχουν ευαίσθητα δεδομένα σε κάθε σειρά, επομένως δεν είναι απαραίτητο να δειγματιστεί το 100% των σειρών στο σύνολο δεδομένων. Εάν έχετε μια απαίτηση όπου δεν επιτρέπονται ευαίσθητα δεδομένα σε μεταγενέστερες πηγές, εξετάστε το ενδεχόμενο να κάνετε δειγματοληψία 100% των δεδομένων για τα μοτίβα που επιλέξατε ή σαρώστε ολόκληρο το σύνολο δεδομένων και ενεργήστε σε κάθε μεμονωμένο κελί για να διασφαλίσετε ότι ανιχνεύονται όλα τα ευαίσθητα δεδομένα. Το όφελος που αποκομίζετε από τη δειγματοληψία είναι το μειωμένο κόστος, επειδή δεν χρειάζεται να σαρώσετε τόσα δεδομένα.

Επιλογές PII

Η ενέργεια Ανίχνευση PII σάς επιτρέπει να επιλέξετε μια προεπιλεγμένη συμβολοσειρά κατά την απόκρυψη ευαίσθητων δεδομένων. Στο παράδειγμά μας, χρησιμοποιούμε τη συμβολοσειρά **********.

επιλεγμένες_επιλογές

Χρησιμοποιούμε τη λειτουργία εφαρμογής αντιστοίχισης για να μετονομάσουμε και να αφαιρέσουμε περιττές στήλες όπως π.χ ingestion_year, ingestion_month, να ingestion_day. Αυτό το βήμα μας επιτρέπει επίσης να αλλάξουμε τον τύπο δεδομένων μιας από τις στήλες (purchase_value) από συμβολοσειρά σε ακέραιο.

σχέδιο

Από αυτό το σημείο και μετά, η εργασία χωρίζεται σε δύο προορισμούς εξόδου: Υπηρεσία OpenSearch και Amazon S3.

Το παρεχόμενο σύμπλεγμα Υπηρεσιών OpenSearch είναι συνδεδεμένο μέσω του Ενσωματωμένη υποδοχή OpenSearch για κόλλα. Καθορίζουμε το OpenSearch Index στο οποίο θα θέλαμε να γράψουμε και η εφαρμογή σύνδεσης χειρίζεται τα διαπιστευτήρια, τον τομέα και τη θύρα. Στο στιγμιότυπο οθόνης παρακάτω, γράφουμε στο καθορισμένο ευρετήριο index_os_pii.

opensearch config

Αποθηκεύουμε το συγκαλυμμένο σύνολο δεδομένων στο επιμελημένο πρόθεμα S3. Εκεί, έχουμε δεδομένα κανονικοποιημένα σε μια συγκεκριμένη περίπτωση χρήσης και ασφαλή κατανάλωση από επιστήμονες δεδομένων ή για ανάγκες ad hoc αναφοράς.

φάκελος opensearch target s3

Για ενοποιημένη διακυβέρνηση, έλεγχο πρόσβασης και ίχνη ελέγχου όλων των συνόλων δεδομένων και των πινάκων καταλόγου δεδομένων, μπορείτε να χρησιμοποιήσετε Σχηματισμός Λίμνης AWS. Αυτό σας βοηθά να περιορίσετε την πρόσβαση στους πίνακες του AWS Glue Data Catalog και στα υποκείμενα δεδομένα μόνο σε εκείνους τους χρήστες και ρόλους στους οποίους έχουν παραχωρηθεί τα απαραίτητα δικαιώματα για να το κάνουν.

Μετά την επιτυχή εκτέλεση της ομαδικής εργασίας, μπορείτε να χρησιμοποιήσετε την Υπηρεσία OpenSearch για να εκτελέσετε ερωτήματα αναζήτησης ή αναφορές. Όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης, η διοχέτευση κάλυψε τα ευαίσθητα πεδία αυτόματα χωρίς προσπάθειες ανάπτυξης κώδικα.

Μπορείτε να προσδιορίσετε τις τάσεις από τα λειτουργικά δεδομένα, όπως το ποσό των συναλλαγών ανά ημέρα που φιλτράρεται από τον πάροχο πιστωτικών καρτών, όπως φαίνεται στο προηγούμενο στιγμιότυπο οθόνης. Μπορείτε επίσης να προσδιορίσετε τις τοποθεσίες και τους τομείς όπου οι χρήστες πραγματοποιούν αγορές. ο transaction_date Το χαρακτηριστικό μας βοηθά να δούμε αυτές τις τάσεις με την πάροδο του χρόνου. Το ακόλουθο στιγμιότυπο οθόνης δείχνει μια εγγραφή με όλες τις πληροφορίες της συναλλαγής να έχουν διορθωθεί κατάλληλα.

json μασκοφόρος

Για εναλλακτικές μεθόδους σχετικά με τον τρόπο φόρτωσης δεδομένων στο Amazon OpenSearch, ανατρέξτε στο Φόρτωση δεδομένων ροής στην υπηρεσία OpenSearch της Amazon.

Επιπλέον, ευαίσθητα δεδομένα μπορούν επίσης να ανακαλυφθούν και να καλυφθούν χρησιμοποιώντας άλλες λύσεις AWS. Για παράδειγμα, μπορείτε να χρησιμοποιήσετε Amazon Macie για να εντοπίσετε ευαίσθητα δεδομένα μέσα σε έναν κάδο S3 και, στη συνέχεια, χρησιμοποιήστε Κατανοήστε το Amazon για τη διόρθωση των ευαίσθητων δεδομένων που εντοπίστηκαν. Για περισσότερες πληροφορίες, ανατρέξτε στο Κοινές τεχνικές για την ανίχνευση δεδομένων PHI και PII χρησιμοποιώντας υπηρεσίες AWS.

Συμπέρασμα

Αυτή η ανάρτηση εξέτασε τη σημασία του χειρισμού ευαίσθητων δεδομένων στο περιβάλλον σας και τις διάφορες μεθόδους και αρχιτεκτονικές για να παραμείνουν συμβατές, επιτρέποντας επίσης στον οργανισμό σας να κλιμακωθεί γρήγορα. Θα πρέπει τώρα να κατανοήσετε καλά τον τρόπο ανίχνευσης, κάλυψης ή επεξεργασίας και φόρτωσης των δεδομένων σας στην Υπηρεσία OpenSearch της Amazon.


Σχετικά με τους συγγραφείς

Μάικλ Χάμιλτον είναι Αρχιτέκτονας λύσεων Sr Analytics που εστιάζει στο να βοηθά τους εταιρικούς πελάτες να εκσυγχρονίσουν και να απλοποιήσουν τον φόρτο εργασίας τους στα αναλυτικά στοιχεία στο AWS. Του αρέσει η ποδηλασία βουνού και να περνά χρόνο με τη γυναίκα του και τα τρία παιδιά του όταν δεν εργάζεται.

Ντάνιελ Ρόζο είναι Senior Solutions Architect με την AWS που υποστηρίζει πελάτες στην Ολλανδία. Το πάθος του είναι να σχεδιάζει απλές λύσεις δεδομένων και ανάλυσης και να βοηθά τους πελάτες να μετακινηθούν σε σύγχρονες αρχιτεκτονικές δεδομένων. Εκτός δουλειάς, του αρέσει να παίζει τένις και ποδηλασία.

Σφραγίδα ώρας:

Περισσότερα από Μεγάλα δεδομένα AWS