Χρησιμοποιήστε δεδομένα κινητικότητας για να αντλήσετε πληροφορίες χρησιμοποιώντας τις γεωχωρικές δυνατότητες του Amazon SageMaker | Υπηρεσίες Ιστού της Amazon

Χρησιμοποιήστε δεδομένα κινητικότητας για να αντλήσετε πληροφορίες χρησιμοποιώντας τις γεωχωρικές δυνατότητες του Amazon SageMaker | Υπηρεσίες Ιστού της Amazon

Κόμβος πηγής: 3067923

Τα γεωχωρικά δεδομένα είναι δεδομένα για συγκεκριμένες τοποθεσίες στην επιφάνεια της γης. Μπορεί να αντιπροσωπεύει μια γεωγραφική περιοχή στο σύνολό της ή μπορεί να αντιπροσωπεύει ένα γεγονός που σχετίζεται με μια γεωγραφική περιοχή. Η ανάλυση των γεωχωρικών δεδομένων αναζητείται σε λίγους κλάδους. Περιλαμβάνει την κατανόηση του πού υπάρχουν τα δεδομένα από χωρική προοπτική και γιατί υπάρχουν εκεί.

Υπάρχουν δύο τύποι γεωχωρικών δεδομένων: διανυσματικά και ράστερ δεδομένα. Τα δεδομένα ράστερ είναι μια μήτρα κελιών που αντιπροσωπεύονται ως πλέγμα, που αντιπροσωπεύουν κυρίως φωτογραφίες και δορυφορικές εικόνες. Σε αυτήν την ανάρτηση, εστιάζουμε σε διανυσματικά δεδομένα, τα οποία αναπαρίστανται ως γεωγραφικές συντεταγμένες γεωγραφικού πλάτους και μήκους, καθώς και ως γραμμές και πολύγωνα (περιοχές) που τα συνδέουν ή τα περικλείουν. Τα διανυσματικά δεδομένα έχουν πολλές περιπτώσεις χρήσης για την εξαγωγή πληροφοριών κινητικότητας. Τα δεδομένα κινητής τηλεφωνίας χρήστη είναι ένα τέτοιο συστατικό του και προέρχονται κυρίως από τη γεωγραφική θέση των κινητών συσκευών που χρησιμοποιούν GPS ή εκδότες εφαρμογών που χρησιμοποιούν SDK ή παρόμοιες ενσωματώσεις. Για τους σκοπούς αυτής της ανάρτησης, αναφερόμαστε σε αυτά τα δεδομένα ως δεδομένα κινητικότητας.

Αυτή είναι μια σειρά δύο μερών. Σε αυτήν την πρώτη ανάρτηση, παρουσιάζουμε τα δεδομένα κινητικότητας, τις πηγές τους και ένα τυπικό σχήμα αυτών των δεδομένων. Στη συνέχεια, συζητάμε τις διάφορες περιπτώσεις χρήσης και διερευνούμε πώς μπορείτε να χρησιμοποιήσετε τις υπηρεσίες AWS για να καθαρίσετε τα δεδομένα, πώς η μηχανική εκμάθηση (ML) μπορεί να βοηθήσει σε αυτήν την προσπάθεια και πώς μπορείτε να κάνετε ηθική χρήση των δεδομένων για τη δημιουργία γραφικών και πληροφοριών. Η δεύτερη ανάρτηση θα είναι πιο τεχνικής φύσης και θα καλύπτει αυτά τα βήματα λεπτομερώς μαζί με το δείγμα κώδικα. Αυτή η ανάρτηση δεν έχει δείγμα δεδομένων ή δείγμα κώδικα, αλλά καλύπτει τον τρόπο χρήσης των δεδομένων μετά την αγορά τους από έναν αθροιστή δεδομένων.

Μπορείς να χρησιμοποιήσεις Γεωχωρικές δυνατότητες του Amazon SageMaker για την επικάλυψη δεδομένων κινητικότητας σε έναν βασικό χάρτη και την παροχή πολυεπίπεδης απεικόνισης για να διευκολύνει τη συνεργασία. Ο διαδραστικός οπτικοποιητής με GPU και τα σημειωματάρια Python παρέχουν έναν απρόσκοπτο τρόπο για να εξερευνήσετε εκατομμύρια σημεία δεδομένων σε ένα μόνο παράθυρο και να μοιραστείτε πληροφορίες και αποτελέσματα.

Πηγές και σχήμα

Υπάρχουν λίγες πηγές δεδομένων κινητικότητας. Εκτός από τα ping GPS και τους εκδότες εφαρμογών, άλλες πηγές χρησιμοποιούνται για την αύξηση του συνόλου δεδομένων, όπως σημεία πρόσβασης Wi-Fi, δεδομένα ροής προσφορών που λαμβάνονται μέσω προβολής διαφημίσεων σε κινητές συσκευές και συγκεκριμένους πομπούς υλικού που τοποθετούνται από επιχειρήσεις (για παράδειγμα, σε φυσικά καταστήματα ). Συχνά είναι δύσκολο για τις επιχειρήσεις να συλλέξουν οι ίδιες αυτά τα δεδομένα, επομένως μπορούν να τα αγοράσουν από τους αθροιστές δεδομένων. Οι συγκεντρωτές δεδομένων συλλέγουν δεδομένα κινητικότητας από διάφορες πηγές, τα καθαρίζουν, προσθέτουν θόρυβο και καθιστούν τα δεδομένα διαθέσιμα σε καθημερινή βάση για συγκεκριμένες γεωγραφικές περιοχές. Λόγω της φύσης των ίδιων των δεδομένων και επειδή είναι δύσκολο να αποκτηθούν, η ακρίβεια και η ποιότητα αυτών των δεδομένων μπορεί να ποικίλλει σημαντικά και εναπόκειται στις επιχειρήσεις να το εκτιμήσουν και να το επαληθεύσουν χρησιμοποιώντας μετρήσεις όπως καθημερινοί ενεργοί χρήστες, συνολικές ημερήσιες ping, και μέσο ημερήσιο ping ανά συσκευή. Ο παρακάτω πίνακας δείχνει πώς μπορεί να μοιάζει ένα τυπικό σχήμα μιας ημερήσιας ροής δεδομένων που αποστέλλεται από φορείς συγκέντρωσης δεδομένων.

Χαρακτηριστικό Περιγραφή
Id ή MAID Αναγνωριστικό διαφήμισης για κινητά (MAID) της συσκευής (κατακερματισμένο)
lat Γεωγραφικό πλάτος της συσκευής
ΥΦΑ Γεωγραφικό μήκος της συσκευής
geohash Θέση Geohash της συσκευής
Τύπος συσκευής Λειτουργικό σύστημα της συσκευής = IDFA ή GAID
οριζόντια_ακρίβεια Ακρίβεια οριζόντιων συντεταγμένων GPS (σε μέτρα)
timestamp Χρονική σήμανση της εκδήλωσης
ip διεύθυνση IP
άλλος Υψόμετρο της συσκευής (σε μέτρα)
ταχύτητα Ταχύτητα της συσκευής (σε μέτρα/δευτερόλεπτο)
χώρα Διψήφιος κωδικός ISO για τη χώρα προέλευσης
κατάσταση Κώδικες που αντιπροσωπεύουν το κράτος
πόλη Κώδικες που αντιπροσωπεύουν την πόλη
Τ.Κ. Ταχυδρομικός κώδικας όπου εμφανίζεται το αναγνωριστικό συσκευής
μεταφορέας Φορέας της συσκευής
συσκευή_κατασκευαστής Κατασκευαστής της συσκευής

Χρήση περιπτώσεις

Τα δεδομένα κινητικότητας έχουν εκτεταμένες εφαρμογές σε ποικίλους κλάδους. Οι παρακάτω είναι μερικές από τις πιο συνηθισμένες περιπτώσεις χρήσης:

  • Μετρήσεις πυκνότητας – Η ανάλυση της κυκλοφορίας στα πόδια μπορεί να συνδυαστεί με την πυκνότητα πληθυσμού για την παρατήρηση δραστηριοτήτων και επισκέψεων σε σημεία ενδιαφέροντος (POI). Αυτές οι μετρήσεις παρουσιάζουν μια εικόνα του πόσες συσκευές ή χρήστες σταματούν ενεργά και αλληλεπιδρούν με μια επιχείρηση, η οποία μπορεί να χρησιμοποιηθεί περαιτέρω για την επιλογή ιστότοπου ή ακόμη και την ανάλυση των μοτίβων κίνησης γύρω από ένα συμβάν (για παράδειγμα, άτομα που ταξιδεύουν για μια ημέρα παιχνιδιού). Για να αποκτήσετε τέτοιες πληροφορίες, τα εισερχόμενα μη επεξεργασμένα δεδομένα περνούν από μια διαδικασία εξαγωγής, μετασχηματισμού και φόρτωσης (ETL) για τον εντοπισμό δραστηριοτήτων ή δεσμεύσεων από τη συνεχή ροή των ping τοποθεσίας της συσκευής. Μπορούμε να αναλύσουμε δραστηριότητες προσδιορίζοντας τις στάσεις που πραγματοποιούνται από τον χρήστη ή την κινητή συσκευή ομαδοποιώντας ping χρησιμοποιώντας μοντέλα ML σε Amazon Sage Maker.
  • Ταξίδια και τροχιές – Η καθημερινή ροή τοποθεσίας μιας συσκευής μπορεί να εκφραστεί ως μια συλλογή δραστηριοτήτων (στάσεις) και ταξιδιών (κίνηση). Ένα ζεύγος δραστηριοτήτων μπορεί να αντιπροσωπεύει ένα ταξίδι μεταξύ τους και η ανίχνευση του ταξιδιού από την κινούμενη συσκευή στο γεωγραφικό χώρο μπορεί να οδηγήσει στη χαρτογράφηση της πραγματικής τροχιάς. Τα μοτίβα τροχιάς των κινήσεων των χρηστών μπορούν να οδηγήσουν σε ενδιαφέρουσες πληροφορίες, όπως μοτίβα κυκλοφορίας, κατανάλωση καυσίμου, πολεοδομία και πολλά άλλα. Μπορεί επίσης να παρέχει δεδομένα για την ανάλυση της διαδρομής από διαφημιστικά σημεία, όπως μια διαφημιστική πινακίδα, τον εντοπισμό των πιο αποτελεσματικών οδών παράδοσης για τη βελτιστοποίηση των λειτουργιών της εφοδιαστικής αλυσίδας ή την ανάλυση των διαδρομών εκκένωσης σε φυσικές καταστροφές (για παράδειγμα, εκκένωση τυφώνα).
  • Ανάλυση λεκάνης απορροής - Μια λεκάνη απορροής αναφέρεται σε μέρη από τα οποία μια δεδομένη περιοχή προσελκύει τους επισκέπτες της, οι οποίοι μπορεί να είναι πελάτες ή δυνητικοί πελάτες. Οι επιχειρήσεις λιανικής μπορούν να χρησιμοποιήσουν αυτές τις πληροφορίες για να προσδιορίσουν τη βέλτιστη τοποθεσία για να ανοίξουν ένα νέο κατάστημα ή να προσδιορίσουν εάν δύο τοποθεσίες καταστημάτων είναι πολύ κοντά η μία στην άλλη με επικαλυπτόμενες περιοχές λεκάνης απορροής και εμποδίζουν η μία την επιχείρηση της άλλης. Μπορούν επίσης να ανακαλύψουν από πού προέρχονται οι πραγματικοί πελάτες, να εντοπίσουν πιθανούς πελάτες που περνούν από την περιοχή ταξιδεύοντας προς τη δουλειά ή το σπίτι, να αναλύσουν παρόμοιες μετρήσεις επισκέψεων για ανταγωνιστές και πολλά άλλα. Οι εταιρείες Marketing Tech (MarTech) και Advertisement Tech (AdTech) μπορούν επίσης να χρησιμοποιήσουν αυτήν την ανάλυση για να βελτιστοποιήσουν τις καμπάνιες μάρκετινγκ προσδιορίζοντας το κοινό κοντά στο κατάστημα μιας επωνυμίας ή για να ταξινομήσουν τα καταστήματα με βάση την απόδοση για διαφημίσεις εκτός σπιτιού.

Υπάρχουν πολλές άλλες περιπτώσεις χρήσης, όπως η δημιουργία πληροφοριών τοποθεσίας για εμπορικά ακίνητα, η αύξηση δεδομένων δορυφορικών εικόνων με αριθμούς πεζοπορίας, ο προσδιορισμός κόμβων παράδοσης για εστιατόρια, ο προσδιορισμός της πιθανότητας εκκένωσης της γειτονιάς, η ανακάλυψη μοτίβων κίνησης ανθρώπων κατά τη διάρκεια μιας πανδημίας και πολλά άλλα.

Προκλήσεις και ηθική χρήση

Η ηθική χρήση των δεδομένων κινητικότητας μπορεί να οδηγήσει σε πολλές ενδιαφέρουσες ιδέες που μπορούν να βοηθήσουν τους οργανισμούς να βελτιώσουν τις δραστηριότητές τους, να πραγματοποιήσουν αποτελεσματικό μάρκετινγκ ή ακόμα και να αποκτήσουν ανταγωνιστικό πλεονέκτημα. Για να χρησιμοποιηθούν αυτά τα δεδομένα ηθικά, πρέπει να ακολουθηθούν αρκετά βήματα.

Ξεκινά με την ίδια τη συλλογή δεδομένων. Αν και τα περισσότερα δεδομένα κινητικότητας παραμένουν απαλλαγμένα από πληροφορίες προσωπικής ταυτοποίησης (PII), όπως όνομα και διεύθυνση, οι συλλέκτες δεδομένων και οι συγκεντρωτές πρέπει να έχουν τη συγκατάθεση του χρήστη για τη συλλογή, χρήση, αποθήκευση και κοινή χρήση των δεδομένων τους. Πρέπει να τηρούνται οι νόμοι περί απορρήτου δεδομένων, όπως ο GDPR και ο CCPA, επειδή δίνουν τη δυνατότητα στους χρήστες να προσδιορίζουν πώς οι επιχειρήσεις μπορούν να χρησιμοποιήσουν τα δεδομένα τους. Αυτό το πρώτο βήμα είναι μια ουσιαστική κίνηση προς την ηθική και υπεύθυνη χρήση των δεδομένων κινητικότητας, αλλά μπορούν να γίνουν περισσότερα.

Σε κάθε συσκευή εκχωρείται ένα κατακερματισμένο αναγνωριστικό διαφήμισης για κινητά (MAID), το οποίο χρησιμοποιείται για την αγκύρωση των μεμονωμένων ping. Αυτό μπορεί να συγχέεται περαιτέρω με τη χρήση Amazon Macie, Amazon S3 Object Lambda, Κατανοήστε το Amazon, ή ακόμα και το AWS Glue Studio Ανίχνευση μετασχηματισμού PII. Για περισσότερες πληροφορίες, ανατρέξτε στο Κοινές τεχνικές για την ανίχνευση δεδομένων PHI και PII χρησιμοποιώντας υπηρεσίες AWS.

Εκτός από τα PII, θα πρέπει να ληφθούν μέτρα για την απόκρυψη της τοποθεσίας κατοικίας του χρήστη καθώς και άλλων ευαίσθητων τοποθεσιών όπως στρατιωτικές βάσεις ή τόποι λατρείας.

Το τελευταίο βήμα για ηθική χρήση είναι η εξαγωγή και η εξαγωγή μόνο συγκεντρωτικών μετρήσεων από το Amazon SageMaker. Αυτό σημαίνει τη λήψη μετρήσεων όπως ο μέσος αριθμός ή ο συνολικός αριθμός επισκεπτών σε αντίθεση με τα μεμονωμένα μοτίβα ταξιδιού. λήψη ημερήσιων, εβδομαδιαίων, μηνιαίων ή ετήσιων τάσεων. ή ευρετηρίαση μοτίβων κινητικότητας σε δημόσια διαθέσιμα δεδομένα, όπως δεδομένα απογραφής.

Επισκόπηση λύσεων

Όπως αναφέρθηκε προηγουμένως, οι υπηρεσίες AWS που μπορείτε να χρησιμοποιήσετε για την ανάλυση δεδομένων κινητικότητας είναι οι γεωχωρικές δυνατότητες Amazon S3, Amazon Macie, AWS Glue, S3 Object Lambda, Amazon Comprehend και Amazon SageMaker. Οι γεωχωρικές δυνατότητες του Amazon SageMaker διευκολύνουν τους επιστήμονες δεδομένων και τους μηχανικούς ML να κατασκευάσουν, να εκπαιδεύσουν και να αναπτύξουν μοντέλα χρησιμοποιώντας γεωχωρικά δεδομένα. Μπορείτε να μετατρέψετε ή να εμπλουτίσετε αποτελεσματικά σύνολα δεδομένων γεωχωρικών δεδομένων μεγάλης κλίμακας, να επιταχύνετε τη δημιουργία μοντέλων με προεκπαιδευμένα μοντέλα ML και να εξερευνήσετε προβλέψεις μοντέλων και γεωχωρικά δεδομένα σε έναν διαδραστικό χάρτη χρησιμοποιώντας τρισδιάστατα επιταχυνόμενα γραφικά και ενσωματωμένα εργαλεία απεικόνισης.

Η ακόλουθη αρχιτεκτονική αναφοράς απεικονίζει μια ροή εργασίας που χρησιμοποιεί ML με γεωχωρικά δεδομένα.

Διάγραμμα Αρχιτεκτονικής

Σε αυτήν τη ροή εργασίας, τα ανεπεξέργαστα δεδομένα συγκεντρώνονται από διάφορες πηγές δεδομένων και αποθηκεύονται σε ένα Απλή υπηρεσία αποθήκευσης Amazon (S3) κάδος. Το Amazon Macie χρησιμοποιείται σε αυτόν τον κάδο S3 για την αναγνώριση και τη διόρθωση PII. Στη συνέχεια, η κόλλα AWS χρησιμοποιείται για τον καθαρισμό και τη μετατροπή των πρωτογενών δεδομένων στην απαιτούμενη μορφή και, στη συνέχεια, τα τροποποιημένα και καθαρισμένα δεδομένα αποθηκεύονται σε ξεχωριστό κάδο S3. Για εκείνους τους μετασχηματισμούς δεδομένων που δεν είναι δυνατοί μέσω του AWS Glue, χρησιμοποιείτε AWS Lambda για να τροποποιήσετε και να καθαρίσετε τα ανεπεξέργαστα δεδομένα. Όταν τα δεδομένα καθαρίζονται, μπορείτε να χρησιμοποιήσετε το Amazon SageMaker για να δημιουργήσετε, να εκπαιδεύσετε και να αναπτύξετε μοντέλα ML στα προετοιμασμένα γεωχωρικά δεδομένα. Μπορείτε επίσης να χρησιμοποιήσετε το θέσεις εργασίας γεωχωρικής επεξεργασίας χαρακτηριστικό των γεωχωρικών δυνατοτήτων του Amazon SageMaker για προεπεξεργασία των δεδομένων—για παράδειγμα, χρησιμοποιώντας μια συνάρτηση Python και δηλώσεις SQL για τον εντοπισμό δραστηριοτήτων από τα ακατέργαστα δεδομένα κινητικότητας. Οι επιστήμονες δεδομένων μπορούν να ολοκληρώσουν αυτή τη διαδικασία συνδέοντας μέσω φορητών υπολογιστών Amazon SageMaker. Μπορείτε επίσης να χρησιμοποιήσετε Amazon QuickSight για την οπτικοποίηση των επιχειρηματικών αποτελεσμάτων και άλλων σημαντικών μετρήσεων από τα δεδομένα.

Γεωχωρικές δυνατότητες και εργασίες γεωχωρικής επεξεργασίας του Amazon SageMaker

Αφού ληφθούν τα δεδομένα και τροφοδοτηθούν στο Amazon S3 με καθημερινή τροφοδοσία και καθαριστούν για τυχόν ευαίσθητα δεδομένα, μπορούν να εισαχθούν στο Amazon SageMaker χρησιμοποιώντας ένα Στούντιο Amazon SageMaker σημειωματάριο με γεωχωρική εικόνα. Το ακόλουθο στιγμιότυπο οθόνης δείχνει ένα δείγμα ημερήσιων ping συσκευής που ανεβαίνουν στο Amazon S3 ως αρχείο CSV και στη συνέχεια φορτώνονται σε ένα πλαίσιο δεδομένων pandas. Το σημειωματάριο Amazon SageMaker Studio με γεωχωρική εικόνα είναι προφορτωμένο με γεωχωρικές βιβλιοθήκες όπως οι GDAL, GeoPandas, Fiona και Shapely, και καθιστά εύκολη την επεξεργασία και ανάλυση αυτών των δεδομένων.

Αυτό το δείγμα δεδομένων περιέχει περίπου 400,000 καθημερινά ping συσκευών από 5,000 συσκευές από 14,000 μοναδικά μέρη που καταγράφηκαν από χρήστες που επισκέφτηκαν το Arrowhead Mall, ένα δημοφιλές συγκρότημα εμπορικών κέντρων στο Phoenix της Αριζόνα, στις 15 Μαΐου 2023. Το προηγούμενο στιγμιότυπο οθόνης δείχνει ένα υποσύνολο στηλών στο σχήμα δεδομένων. ο MAID η στήλη αντιπροσωπεύει το αναγνωριστικό συσκευής και κάθε MAID δημιουργεί ping κάθε λεπτό αναμεταδίδοντας το γεωγραφικό πλάτος και το μήκος της συσκευής, που καταγράφονται στο αρχείο δείγματος ως Lat και Lng στήλες.

Τα παρακάτω είναι στιγμιότυπα οθόνης από το εργαλείο οπτικοποίησης χαρτών των γεωχωρικών δυνατοτήτων του Amazon SageMaker που υποστηρίζεται από το Foursquare Studio, που απεικονίζουν τη διάταξη των ping από συσκευές που επισκέπτονται το εμπορικό κέντρο μεταξύ 7:00 π.μ. και 6:00 μ.μ.

Το παρακάτω στιγμιότυπο οθόνης δείχνει ping από το εμπορικό κέντρο και τις γύρω περιοχές.

Το παρακάτω δείχνει ping από το εσωτερικό διαφόρων καταστημάτων στο εμπορικό κέντρο.

Κάθε κουκκίδα στα στιγμιότυπα οθόνης απεικονίζει ένα ping από μια δεδομένη συσκευή σε μια δεδομένη χρονική στιγμή. Ένα σύμπλεγμα ping αντιπροσωπεύει δημοφιλή σημεία όπου συγκεντρώθηκαν ή σταμάτησαν συσκευές, όπως καταστήματα ή εστιατόρια.

Ως μέρος του αρχικού ETL, αυτά τα ακατέργαστα δεδομένα μπορούν να φορτωθούν σε πίνακες χρησιμοποιώντας κόλλα AWS. Μπορείτε να δημιουργήσετε έναν ανιχνευτή AWS Glue για να προσδιορίσετε το σχήμα των δεδομένων και να σχηματίσετε πίνακες, δείχνοντας τη θέση μη επεξεργασμένων δεδομένων στο Amazon S3 ως την πηγή δεδομένων.

Όπως αναφέρθηκε παραπάνω, τα ανεπεξέργαστα δεδομένα (οι ημερήσιοι ping της συσκευής), ακόμη και μετά την αρχική ETL, θα αντιπροσωπεύουν μια συνεχή ροή ping GPS που υποδεικνύει τις τοποθεσίες της συσκευής. Για να εξαγάγουμε χρήσιμες πληροφορίες από αυτά τα δεδομένα, πρέπει να προσδιορίσουμε στάσεις και διαδρομές (τροχιές). Αυτό μπορεί να επιτευχθεί χρησιμοποιώντας το θέσεις εργασίας γεωχωρικής επεξεργασίας χαρακτηριστικό των γεωχωρικών δυνατοτήτων του SageMaker. Επεξεργασία Amazon SageMaker χρησιμοποιεί μια απλοποιημένη, διαχειριζόμενη εμπειρία στο SageMaker για την εκτέλεση φόρτου εργασίας επεξεργασίας δεδομένων με το ειδικά κατασκευασμένο γεωχωρικό κοντέινερ. Η υποκείμενη υποδομή για μια εργασία Επεξεργασίας SageMaker διαχειρίζεται πλήρως το SageMaker. Αυτή η δυνατότητα επιτρέπει την εκτέλεση προσαρμοσμένου κώδικα σε γεωχωρικά δεδομένα που είναι αποθηκευμένα στο Amazon S3 εκτελώντας ένα γεωχωρικό κοντέινερ ML σε μια εργασία Επεξεργασίας SageMaker. Μπορείτε να εκτελέσετε προσαρμοσμένες λειτουργίες σε ανοιχτά ή ιδιωτικά γεωχωρικά δεδομένα γράφοντας προσαρμοσμένο κώδικα με βιβλιοθήκες ανοιχτού κώδικα και να εκτελέσετε τη λειτουργία σε κλίμακα χρησιμοποιώντας εργασίες επεξεργασίας SageMaker. Η προσέγγιση που βασίζεται σε εμπορευματοκιβώτια λύνει τις ανάγκες γύρω από την τυποποίηση του περιβάλλοντος ανάπτυξης με τις κοινώς χρησιμοποιούμενες βιβλιοθήκες ανοιχτού κώδικα.

Για να εκτελέσετε τέτοιους φόρτους εργασίας μεγάλης κλίμακας, χρειάζεστε ένα ευέλικτο υπολογιστικό σύμπλεγμα που μπορεί να κλιμακωθεί από δεκάδες περιπτώσεις για την επεξεργασία ενός συγκροτήματος πόλης, σε χιλιάδες περιπτώσεις για επεξεργασία πλανητικής κλίμακας. Η μη αυτόματη διαχείριση ενός συμπλέγματος υπολογιστών DIY είναι αργή και δαπανηρή. Αυτή η δυνατότητα είναι ιδιαίτερα χρήσιμη όταν το σύνολο δεδομένων κινητικότητας περιλαμβάνει περισσότερες από λίγες πόλεις σε πολλές πολιτείες ή ακόμη και χώρες και μπορεί να χρησιμοποιηθεί για την εκτέλεση μιας προσέγγισης ML δύο βημάτων.

Το πρώτο βήμα είναι η χρήση χωρικής ομαδοποίησης εφαρμογών με αλγόριθμο θορύβου (DBSCAN) με βάση την πυκνότητα για την ομαδοποίηση στάσεων από ping. Το επόμενο βήμα είναι να χρησιμοποιήσετε τη μέθοδο μηχανών διανυσμάτων υποστήριξης (SVM) για να βελτιώσετε περαιτέρω την ακρίβεια των προσδιορισμένων στάσεων και επίσης να διακρίνετε στάσεις με εμπλοκές με POI έναντι στάσεων χωρίς (όπως σπίτι ή εργασία). Μπορείτε επίσης να χρησιμοποιήσετε την εργασία SageMaker Processing για να δημιουργήσετε διαδρομές και τροχιές από τα καθημερινά ping της συσκευής, προσδιορίζοντας διαδοχικές στάσεις και χαρτογραφώντας τη διαδρομή μεταξύ της πηγής και των στάσεων προορισμού.

Μετά την επεξεργασία των ακατέργαστων δεδομένων (καθημερινά ping συσκευής) σε κλίμακα με εργασίες γεωχωρικής επεξεργασίας, το νέο σύνολο δεδομένων που ονομάζεται stops θα πρέπει να έχει το ακόλουθο σχήμα.

Χαρακτηριστικό Περιγραφή
Id ή MAID Αναγνωριστικό διαφήμισης για κινητά της συσκευής (κατακερματισμένο)
lat Γεωγραφικό πλάτος του κέντρου του συμπλέγματος τερματισμού
ΥΦΑ Γεωγραφικό μήκος του κέντρου του συμπλέγματος στοπ
geohash Τοποθεσία Geohash του POI
Τύπος συσκευής Λειτουργικό σύστημα της συσκευής (IDFA ή GAID)
timestamp Ώρα έναρξης της στάσης
χρόνος παραμονής Χρόνος παραμονής της στάσης (σε δευτερόλεπτα)
ip διεύθυνση IP
άλλος Υψόμετρο της συσκευής (σε μέτρα)
χώρα Διψήφιος κωδικός ISO για τη χώρα προέλευσης
κατάσταση Κώδικες που αντιπροσωπεύουν το κράτος
πόλη Κώδικες που αντιπροσωπεύουν την πόλη
Τ.Κ. Ταχυδρομικός κώδικας όπου εμφανίζεται το αναγνωριστικό συσκευής
μεταφορέας Φορέας της συσκευής
συσκευή_κατασκευαστής Κατασκευαστής της συσκευής

Οι στάσεις ενοποιούνται με ομαδοποίηση των ping ανά συσκευή. Η ομαδοποίηση με βάση την πυκνότητα συνδυάζεται με παραμέτρους όπως το όριο διακοπής είναι 300 δευτερόλεπτα και η ελάχιστη απόσταση μεταξύ των στάσεων είναι 50 μέτρα. Αυτές οι παράμετροι μπορούν να προσαρμοστούν ανάλογα με την περίπτωση χρήσης σας.

Το παρακάτω στιγμιότυπο οθόνης δείχνει περίπου 15,000 στάσεις που προσδιορίζονται από 400,000 ping. Υπάρχει επίσης ένα υποσύνολο του προηγούμενου σχήματος, όπου η στήλη Dwell Time αντιπροσωπεύει τη διάρκεια στάσης και το Lat και Lng Οι στήλες αντιπροσωπεύουν το γεωγραφικό πλάτος και το μήκος των κεντροειδών του συμπλέγματος στάσεων ανά συσκευή ανά τοποθεσία.

Μετά το ETL, τα δεδομένα αποθηκεύονται σε μορφή αρχείου Parquet, η οποία είναι μια μορφή στηλών αποθήκευσης που διευκολύνει την επεξεργασία μεγάλων ποσοτήτων δεδομένων.

Το παρακάτω στιγμιότυπο οθόνης δείχνει τις στάσεις που συγκεντρώθηκαν από ping ανά συσκευή εντός του εμπορικού κέντρου και των γύρω περιοχών.

Μετά τον εντοπισμό στάσεων, αυτό το σύνολο δεδομένων μπορεί να ενωθεί με δημόσια διαθέσιμα δεδομένα POI ή προσαρμοσμένα δεδομένα POI ειδικά για την περίπτωση χρήσης για τον προσδιορισμό δραστηριοτήτων, όπως η δέσμευση με επωνυμίες.

Το ακόλουθο στιγμιότυπο οθόνης δείχνει τις στάσεις που έχουν εντοπιστεί σε μεγάλα POI (καταστήματα και επωνυμίες) μέσα στο Arrowhead Mall.

Οι ταχυδρομικοί κώδικες του σπιτιού έχουν χρησιμοποιηθεί για να κρύψουν την τοποθεσία του σπιτιού κάθε επισκέπτη για να διατηρήσουν το απόρρητο σε περίπτωση που αποτελεί μέρος του ταξιδιού του στο σύνολο δεδομένων. Το γεωγραφικό πλάτος και μήκος σε τέτοιες περιπτώσεις είναι οι αντίστοιχες συντεταγμένες του κέντρου του ταχυδρομικού κώδικα.

Το παρακάτω στιγμιότυπο οθόνης είναι μια οπτική αναπαράσταση τέτοιων δραστηριοτήτων. Η αριστερή εικόνα αντιστοιχίζει τις στάσεις στα καταστήματα και η δεξιά εικόνα δίνει μια ιδέα για τη διάταξη του ίδιου του εμπορικού κέντρου.

Αυτό το σύνολο δεδομένων που προκύπτει μπορεί να οπτικοποιηθεί με διάφορους τρόπους, τους οποίους συζητάμε στις επόμενες ενότητες.

Μετρήσεις πυκνότητας

Μπορούμε να υπολογίσουμε και να οπτικοποιήσουμε την πυκνότητα των δραστηριοτήτων και των επισκέψεων.

Παράδειγμα 1 – Το παρακάτω στιγμιότυπο οθόνης δείχνει τα 15 κορυφαία καταστήματα στο εμπορικό κέντρο.

Παράδειγμα 2 – Το παρακάτω στιγμιότυπο οθόνης δείχνει τον αριθμό των επισκέψεων στο Apple Store ανά ώρα.

Ταξίδια και τροχιές

Όπως αναφέρθηκε προηγουμένως, ένα ζευγάρι διαδοχικών δραστηριοτήτων αντιπροσωπεύει ένα ταξίδι. Μπορούμε να χρησιμοποιήσουμε την ακόλουθη προσέγγιση για να εξάγουμε ταξίδια από τα δεδομένα δραστηριοτήτων. Εδώ, οι συναρτήσεις παραθύρου χρησιμοποιούνται με την SQL για τη δημιουργία του trips πίνακα, όπως φαίνεται στο στιγμιότυπο οθόνης.

Μετά το trips δημιουργείται πίνακας, μπορούν να προσδιοριστούν τα ταξίδια σε ένα POI.

Παράδειγμα 1 - Το παρακάτω στιγμιότυπο οθόνης δείχνει τα 10 κορυφαία καταστήματα που κατευθύνουν την κίνηση προς το Apple Store.

Παράδειγμα 2 – Το παρακάτω στιγμιότυπο οθόνης δείχνει όλα τα ταξίδια στο Arrowhead Mall.

Παράδειγμα 3 – Το παρακάτω βίντεο δείχνει τα μοτίβα κίνησης μέσα στο εμπορικό κέντρο.

Παράδειγμα 4 – Το παρακάτω βίντεο δείχνει τα μοτίβα κίνησης έξω από το εμπορικό κέντρο.

Ανάλυση λεκάνης απορροής

Μπορούμε να αναλύσουμε όλες τις επισκέψεις σε ένα POI και να προσδιορίσουμε την περιοχή λεκάνης απορροής.

Παράδειγμα 1 - Το παρακάτω στιγμιότυπο οθόνης δείχνει όλες τις επισκέψεις στο κατάστημα Macy.

Παράδειγμα 2 – Το παρακάτω στιγμιότυπο οθόνης δείχνει τους 10 κορυφαίους ταχυδρομικούς κώδικες της περιοχής κατοικίας (επισημαίνονται τα όρια) από όπου πραγματοποιήθηκαν οι επισκέψεις.

Έλεγχος ποιότητας δεδομένων

Μπορούμε να ελέγξουμε την καθημερινή εισερχόμενη ροή δεδομένων για ποιότητα και να εντοπίσουμε ανωμαλίες χρησιμοποιώντας πίνακες εργαλείων και αναλύσεις δεδομένων QuickSight. Το παρακάτω στιγμιότυπο οθόνης δείχνει ένα παράδειγμα πίνακα εργαλείων.

Συμπέρασμα

Τα δεδομένα κινητικότητας και η ανάλυσή τους για την απόκτηση γνώσεων πελατών και την απόκτηση ανταγωνιστικού πλεονεκτήματος παραμένουν μια εξειδικευμένη περιοχή επειδή είναι δύσκολο να αποκτήσετε ένα συνεπές και ακριβές σύνολο δεδομένων. Ωστόσο, αυτά τα δεδομένα μπορούν να βοηθήσουν τους οργανισμούς να προσθέσουν το πλαίσιο στην υπάρχουσα ανάλυση και ακόμη και να παράγουν νέες πληροφορίες σχετικά με τα μοτίβα κίνησης των πελατών. Οι γεωχωρικές δυνατότητες του Amazon SageMaker και οι εργασίες γεωχωρικής επεξεργασίας μπορούν να βοηθήσουν στην εφαρμογή αυτών των περιπτώσεων χρήσης και στην εξαγωγή πληροφοριών με διαισθητικό και προσιτό τρόπο.

Σε αυτήν την ανάρτηση, δείξαμε πώς να χρησιμοποιείτε υπηρεσίες AWS για τον καθαρισμό των δεδομένων κινητικότητας και, στη συνέχεια, τη χρήση γεωχωρικών δυνατοτήτων του Amazon SageMaker για τη δημιουργία συνόλων δεδομένων παραγώγων όπως στάσεις, δραστηριότητες και ταξίδια χρησιμοποιώντας μοντέλα ML. Στη συνέχεια χρησιμοποιήσαμε τα σύνολα δεδομένων παραγώγων για να οπτικοποιήσουμε τα μοτίβα κίνησης και να δημιουργήσουμε πληροφορίες.

Μπορείτε να ξεκινήσετε με τις γεωχωρικές δυνατότητες του Amazon SageMaker με δύο τρόπους:

Για να μάθετε περισσότερα, επισκεφθείτε τη διεύθυνση Γεωχωρικές δυνατότητες του Amazon SageMaker και Ξεκινώντας με το Amazon SageMaker geospatial. Επίσης, επισκεφθείτε μας GitHub repo, το οποίο διαθέτει πολλά παραδείγματα σημειωματάρια σχετικά με τις γεωχωρικές δυνατότητες του Amazon SageMaker.


Σχετικά με τους Συγγραφείς

Τζίμι Μάθιους είναι αρχιτέκτονας λύσεων AWS, με εξειδίκευση στην τεχνολογία AI/ML. Ο Jimy εδρεύει στη Βοστώνη και συνεργάζεται με εταιρικούς πελάτες καθώς μεταμορφώνουν την επιχείρησή τους υιοθετώντας το cloud και τους βοηθά να δημιουργήσουν αποτελεσματικές και βιώσιμες λύσεις. Είναι παθιασμένος με την οικογένειά του, τα αυτοκίνητα και τις μικτές πολεμικές τέχνες.

Girish Keshav είναι αρχιτέκτονας λύσεων στην AWS, που βοηθά τους πελάτες στο ταξίδι τους στη μετεγκατάσταση στο cloud για τον εκσυγχρονισμό και την εκτέλεση φόρτου εργασίας με ασφάλεια και αποτελεσματικότητα. Συνεργάζεται με ηγέτες τεχνολογικών ομάδων για να τους καθοδηγήσει σε θέματα ασφάλειας εφαρμογών, μηχανικής εκμάθησης, βελτιστοποίησης κόστους και βιωσιμότητας. Έχει έδρα έξω από το Σαν Φρανσίσκο και λατρεύει τα ταξίδια, την πεζοπορία, την παρακολούθηση αθλημάτων και την εξερεύνηση βιοτεχνικών ζυθοποιιών.

Ραμές Τζέτι είναι ανώτερος ηγέτης της Solutions Architecture που επικεντρώνεται στο να βοηθά τους εταιρικούς πελάτες της AWS να δημιουργούν έσοδα από τα στοιχεία δεδομένων τους. Συμβουλεύει στελέχη και μηχανικούς να σχεδιάσουν και να δημιουργήσουν εξαιρετικά επεκτάσιμες, αξιόπιστες και οικονομικά αποδοτικές λύσεις cloud, ειδικά εστιασμένες στη μηχανική μάθηση, τα δεδομένα και την ανάλυση. Στον ελεύθερο χρόνο του απολαμβάνει την ύπαιθρο, ποδηλασία και πεζοπορία με την οικογένειά του.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS