Kasutage liikuvusandmeid Amazon SageMakeri georuumiliste võimaluste abil ülevaate saamiseks | Amazoni veebiteenused

Kasutage liikuvusandmeid Amazon SageMakeri georuumiliste võimaluste abil ülevaate saamiseks | Amazoni veebiteenused

Allikasõlm: 3067923

Geosruumilised andmed on andmed konkreetsete asukohtade kohta maakeral. See võib esindada geograafilist piirkonda tervikuna või geograafilise piirkonnaga seotud sündmust. Georuumiliste andmete analüüs on nõutud mõnes üksikus tööstusharus. See hõlmab mõistmist, kus andmed ruumilisest vaatenurgast eksisteerivad ja miks need seal eksisteerivad.

Georuumilisi andmeid on kahte tüüpi: vektorandmed ja rasterandmed. Rasterandmed on ruudustikuna esitatud lahtrite maatriks, mis esindab enamasti fotosid ja satelliidipilte. Selles postituses keskendume vektorandmetele, mis on kujutatud laius- ja pikkuskraadi geograafiliste koordinaatidena ning neid ühendavate või hõlmavate joonte ja hulknurkade (aladena). Vektorandmetel on mobiilsuse ülevaate saamiseks palju kasutusjuhtumeid. Kasutajate mobiilsed andmed on üks selle komponente ja need tuletatakse peamiselt GPS-i kasutavate mobiilseadmete geograafilisest asukohast või SDK-sid või sarnaseid integratsioone kasutavate rakenduste avaldajate kaudu. Selle postituse jaoks viitame neile andmetele kui liikuvusandmed.

See on kaheosaline sari. Selles esimeses postituses tutvustame liikuvusandmeid, nende allikaid ja nende andmete tüüpilist skeemi. Seejärel arutame erinevaid kasutusjuhtumeid ja uurime, kuidas saate AWS-i teenuseid andmete puhastamiseks kasutada, kuidas masinõpe (ML) saab sellele jõupingutusele kaasa aidata ja kuidas saate andmeid visuaalide ja arusaamade loomisel eetiliselt kasutada. Teine postitus on olemuselt tehnilisem ja hõlmab neid samme üksikasjalikult koos näidiskoodiga. Sellel postitusel ei ole näidisandmestikku ega näidiskoodi, pigem käsitletakse seda, kuidas andmeid kasutada pärast andmete koondajast ostmist.

Võite kasutada Amazon SageMakeri georuumilised võimalused katta mobiilsusandmed baaskaardile ja pakkuda koostöö hõlbustamiseks kihilist visualiseerimist. GPU-toega interaktiivne visualiseerija ja Pythoni sülearvutid pakuvad sujuvat viisi miljoneid andmepunkte ühes aknas uurida ning teadmisi ja tulemusi jagada.

Allikad ja skeem

Liikuvusandmete allikaid on vähe. Lisaks GPS-i pingitele ja rakenduste avaldajatele kasutatakse andmestiku täiendamiseks muid allikaid, näiteks WiFi-pääsupunkte, mobiilseadmetes reklaamide esitamise kaudu saadud pakkumiste voo andmeid ja ettevõtete paigutatud konkreetseid riistvarasaatjaid (nt füüsilistes kauplustes). ). Ettevõtetel on sageli raske neid andmeid ise koguda, nii et nad võivad neid osta andmete koondajatelt. Andmete koondajad koguvad liikuvusandmeid erinevatest allikatest, puhastavad neid, lisavad müra ja teevad andmed konkreetsete geograafiliste piirkondade kohta igapäevaselt kättesaadavaks. Andmete endi olemuse ja raske hankimise tõttu võib nende andmete täpsus ja kvaliteet märkimisväärselt erineda ning ettevõtted peavad seda hindama ja kontrollima, kasutades selliseid mõõdikuid nagu igapäevased aktiivsed kasutajad, päevased pingid, ja keskmised päevased pingid seadme kohta. Järgmine tabel näitab, milline võib välja näha andmete koondajate saadetud igapäevase andmevoo tüüpiline skeem.

Atribuut Kirjeldus
ID või MAID Seadme mobiilireklaami ID (MAID) (räsi)
lat Seadme laiuskraad
lng Seadme pikkuskraad
geohash Seadme geohash asukoht
seadme tüüp Seadme operatsioonisüsteem = IDFA või GAID
horisontaalne_täpsus Horisontaalsete GPS-koordinaatide täpsus (meetrites)
ajatempel Sündmuse ajatempel
ip IP aadress
alt Seadme kõrgus merepinnast (meetrites)
kiirus Seadme kiirus (meetrites/sekundis)
riik Päritoluriigi kahekohaline ISO kood
riik Olekut tähistavad koodid
linn Linna tähistavad koodid
postiindeks Sihtnumber, kus seadme ID on näha
kandja Seadme kandja
seadme_tootja Seadme tootja

Kasuta juhtudel

Mobiilsusandmetel on laialt levinud rakendusi erinevates tööstusharudes. Järgmised on mõned levinumad kasutusjuhtumid.

  • Tiheduse mõõdikud – Jalgsiliikluse analüüsi saab kombineerida rahvastikutihedusega, et jälgida tegevusi ja huvipunktide (POI) külastusi. Need mõõdikud annavad pildi sellest, kui palju seadmeid või kasutajaid ettevõttega aktiivselt peatub ja sellega tegeleb, mida saab edasi kasutada saidi valimiseks või isegi sündmuse ümbruses liikumismustrite analüüsimiseks (nt mängupäevaks reisivad inimesed). Sellise ülevaate saamiseks läbivad sissetulevad algandmed ekstraktimise, teisendamise ja laadimise (ETL) protsessi, et tuvastada tegevused või seotused pidevast seadme asukoha pingi voost. Saame tegevusi analüüsida, tuvastades kasutaja või mobiilseadme tehtud peatusi, koondades pingid ML-mudelite abil Amazon SageMaker.
  • Reisid ja trajektoorid – Seadme igapäevast asukohavoogu saab väljendada tegevuste (peatuste) ja reiside (liikumise) kogumina. Tegevuspaar võib kujutada nendevahelist reisi ja reisi jälgimine liikuva seadme abil geograafilises ruumis võib viia tegeliku trajektoori kaardistamiseni. Kasutajate liikumiste trajektoorimustrid võivad anda huvitavaid teadmisi, nagu liiklusmustrid, kütusekulu, linnaplaneerimine ja palju muud. Samuti võib see anda andmeid reklaamipunktidest (nt stendilt) võetud marsruudi analüüsimiseks, tarneahela toimingute optimeerimiseks kõige tõhusamate tarneteede tuvastamiseks või evakuatsiooniteede analüüsimiseks loodusõnnetuste korral (nt orkaani evakueerimine).
  • Valla analüüs - A valgala viitab kohtadele, kust antud piirkond tõmbab külastajaid, kes võivad olla kliendid või potentsiaalsed kliendid. Jaemüügiettevõtted saavad seda teavet kasutada, et määrata optimaalne asukoht uue poe avamiseks või teha kindlaks, kas kaks poe asukohta on teineteisele liiga lähedal ja kattuvad valgalad ja takistavad üksteise äritegevust. Samuti saavad nad teada, kust tegelikud kliendid tulevad, tuvastada potentsiaalseid kliente, kes mööduvad piirkonnast tööle või koju sõites, analüüsida konkurentide sarnaseid külastusmõõdikuid ja palju muud. Marketing Tech (MarTech) ja Advertisement Tech (AdTech) ettevõtted saavad seda analüüsi kasutada ka turunduskampaaniate optimeerimiseks, tuvastades brändi poe lähedal oleva vaatajaskonna või poodide järjestamiseks toimivuse järgi väljaspool kodu.

On mitmeid muid kasutusjuhtumeid, sealhulgas kommertskinnisvara asukohateabe loomine, satelliidipiltide andmete täiendamine käitajate arvuga, restoranide kohaletoimetamiskeskuste tuvastamine, naabruskonna evakueerimise tõenäosuse määramine, inimeste liikumisharjumuste avastamine pandeemia ajal ja palju muud.

Väljakutsed ja eetiline kasutamine

Mobiilsusandmete eetiline kasutamine võib anda palju huvitavaid teadmisi, mis aitavad organisatsioonidel oma tegevust täiustada, tõhusalt turundust teha või isegi konkurentsieelise saavutada. Nende andmete eetiliseks kasutamiseks tuleb järgida mitmeid samme.

See algab andmete kogumisest endast. Kuigi enamik liikuvusandmeid ei sisalda isikut tuvastavat teavet (PII), nagu nimi ja aadress, peab andmete kogujatel ja koondajatel olema kasutaja nõusolek oma andmete kogumiseks, kasutamiseks, salvestamiseks ja jagamiseks. Andmete privaatsusseadusi, nagu GDPR ja CCPA, tuleb järgida, kuna need annavad kasutajatele võimaluse otsustada, kuidas ettevõtted saavad oma andmeid kasutada. See esimene samm on oluline samm liikuvusandmete eetilise ja vastutustundliku kasutamise suunas, kuid teha on veel rohkem.

Igale seadmele määratakse räsitud mobiilireklaami ID (MAID), mida kasutatakse üksikute pingide ankurdamiseks. Seda saab kasutades veelgi hägustada Amazon Macie, Amazon S3 Object Lambda, Amazoni mõistminevõi isegi AWS liimistuudio Tuvasta PII teisendus. Lisateabe saamiseks vaadake Levinud tehnikad PHI- ja PII-andmete tuvastamiseks AWS-teenuste abil.

Lisaks isikuandmetele tuleks varjata kasutaja kodu asukohta ja muid tundlikke asukohti, nagu sõjaväebaasid või jumalateenistuskohad.

Eetilise kasutamise viimane samm on Amazon SageMakerist ainult koondatud mõõdikute tuletamine ja eksportimine. See tähendab selliste mõõdikute hankimist nagu keskmine külastajate arv või koguarv, mitte individuaalsed reisimustrid; igapäevaste, iganädalaste, kuu- või aastasuundade saamine; või liikuvusmustrite indekseerimine avalikult kättesaadavate andmete, näiteks rahvaloenduse andmetega.

Lahenduse ülevaade

Nagu varem mainitud, on AWS-teenused, mida saate mobiilsusandmete analüüsimiseks kasutada, Amazon S3, Amazon Macie, AWS Glue, S3 Object Lambda, Amazon Comprehend ja Amazon SageMaker georuumilised võimalused. Amazon SageMakeri georuumilised võimalused muudavad andmeteadlaste ja ML-i inseneride jaoks georuumilisi andmeid kasutades mudelite loomise, koolitamise ja juurutamise lihtsaks. 3D-kiirendatud graafika ja sisseehitatud visualiseerimistööriistade abil saate tõhusalt teisendada või rikastada suuremahulisi georuumilisi andmekogumeid, kiirendada mudeli koostamist eelkoolitatud ML-mudelitega ning uurida mudelite ennustusi ja georuumilisi andmeid interaktiivsel kaardil.

Järgmine viitearhitektuur kujutab töövoogu, mis kasutab georuumiliste andmetega ML-i.

Arhitektuuriskeem

Selles töövoos koondatakse algandmed erinevatest andmeallikatest ja salvestatakse Amazoni lihtne salvestusteenus (S3) kopp. Amazon Macie't kasutatakse selles S3 ämbris isikuandmete tuvastamiseks ja redigeerimiseks. Seejärel kasutatakse AWS Glue'i algandmete puhastamiseks ja teisendamiseks vajalikku vormingusse, seejärel salvestatakse muudetud ja puhastatud andmed eraldi S3 ämbrisse. Nende andmete teisenduste jaoks, mis pole AWS Glue'i kaudu võimalikud, kasutate AWS Lambda algandmete muutmiseks ja puhastamiseks. Kui andmed on puhastatud, saate kasutada Amazon SageMakerit ML-mudelite koostamiseks, koolitamiseks ja juurutamiseks ettevalmistatud georuumilistel andmetel. Võite kasutada ka georuumiline Töötlemine Amazon SageMakeri georuumiliste võimaluste funktsioon andmete eeltöötlemiseks – näiteks Pythoni funktsiooni ja SQL-lausete abil tegevuste tuvastamiseks mobiilsuse toorandmete põhjal. Andmeteadlased saavad selle protsessi teostada, luues ühenduse Amazon SageMakeri sülearvutite kaudu. Võite ka kasutada Amazon QuickSight äritulemuste ja muude oluliste mõõdikute visualiseerimiseks andmetest.

Amazon SageMakeri georuumilised võimalused ja georuumilised töötlemistööd

Kui andmed on hankitud ja igapäevase söödaga Amazon S3-sse sisestatud ning tundlike andmete jaoks puhastatud, saab need importida Amazon SageMakerisse, kasutades Amazon SageMaker Studio georuumilise pildiga märkmik. Järgmisel ekraanipildil on näidis igapäevastest seadme pingitest, mis laaditakse Amazon S3-sse CSV-failina ja laaditakse seejärel pandade andmeraami. Georuumilise kujutisega sülearvuti Amazon SageMaker Studio on eelsalvestatud georuumiliste teekide, nagu GDAL, GeoPandas, Fiona ja Shapely, ning muudab nende andmete töötlemise ja analüüsimise lihtsaks.

See näidisandmekogum sisaldab ligikaudu 400,000 5,000 igapäevast seadme pingi 14,000 seadmest 15 2023 ainulaadsest kohast, mis on salvestatud kasutajatelt, kes külastasid XNUMX. mail XNUMX Arizonas Phoenixis asuvat populaarset kaubanduskeskuste kompleksi Arrowhead Mall. Eelnev ekraanipilt näitab veergude alamhulka andmeskeem. The MAID veerg tähistab seadme ID-d ja iga MAID genereerib iga minuti järel pingi, edastades seadme laius- ja pikkuskraadi, mis on salvestatud näidisfaili kui Lat ja Lng veerud.

Järgmised on Foursquare Studio toiteallika Amazon SageMakeri georuumiliste võimaluste kaardi visualiseerimistööriista ekraanipildid, mis kujutavad kella 7–00 kaubanduskeskust külastavate seadmete pingide paigutust.

Järgmisel ekraanipildil on kaubanduskeskusest ja ümbritsevatest piirkondadest pärit pingid.

Järgnevalt on näidatud pingid kaubanduskeskuse erinevatest poodidest.

Iga punkt ekraanipiltidel kujutab antud seadmest teatud ajahetkel pingi. Pingide kobar tähistab populaarseid kohti, kus seadmed kogunesid või peatusid, nt poed või restoranid.

Algse ETL-i osana saab need algandmed AWS-liimi abil tabelitesse laadida. Saate luua AWS Glue roomaja, et tuvastada andmete skeemi ja vormida tabeleid, osutades andmeallikana Amazon S3 toorandmete asukohale.

Nagu eespool mainitud, esindavad töötlemata andmed (igapäevased seadme pingid) isegi pärast esialgset ETL-i GPS-pingituste pidevat voogu, mis näitavad seadme asukohti. Nendest andmetest praktilise ülevaate saamiseks peame tuvastama peatused ja reisid (trajektoorid). Seda on võimalik saavutada kasutades georuumiline Töötlemine SageMakeri georuumiliste võimaluste funktsioon. Amazon SageMakeri töötlemine kasutab SageMakeris lihtsustatud, hallatud kogemust, et käitada andmetöötluse töökoormusi spetsiaalselt loodud georuumilise konteineriga. SageMakeri töötlemistöö aluseks olevat infrastruktuuri haldab täielikult SageMaker. See funktsioon võimaldab kohandatud koodi käitada Amazon S3-sse salvestatud georuumiandmetel, käivitades SageMakeri töötlemistööl georuumilise ML-i konteineri. Saate käitada avatud või privaatsete georuumiandmetega kohandatud toiminguid, kirjutades avatud lähtekoodiga teekide abil kohandatud koodi, ja käitada toimingut mastaapselt, kasutades SageMakeri töötlemistöid. Konteineripõhine lähenemine lahendab arenduskeskkonna standardimise vajadused üldkasutatavate avatud lähtekoodiga teekide abil.

Selliste suuremahuliste töökoormuste käitamiseks vajate paindlikku arvutusklastrit, mis võib ulatuda kümnetest eksemplaridest linnaosa töötlemiseks kuni tuhandete eksemplarideni planeedi mastaabis töötlemiseks. DIY arvutusklastri käsitsi haldamine on aeglane ja kulukas. See funktsioon on eriti kasulik, kui mobiilsuse andmestik hõlmab rohkem kui mõnda linna mitmesse osariiki või isegi riiki ja seda saab kasutada kaheastmelise ML-meetodi käitamiseks.

Esimene samm on pingitest tulenevate peatuste klastrite koondamiseks kasutada rakenduste tiheduspõhist ruumilist rühmitamist müraga (DBSCAN) algoritmiga. Järgmiseks sammuks on tugivektori masinate (SVM) meetodi kasutamine tuvastatud peatuste täpsuse edasiseks parandamiseks ja ka POI-ga seotud peatuste eristamiseks nendeta peatustest (nt kodu või töö). Saate kasutada ka SageMakeri töötlemistööd, et genereerida reise ja trajektoore igapäevastest seadme pingitest, tuvastades järjestikused peatused ja kaardistades tee lähte- ja sihtpeatuste vahel.

Pärast algandmete töötlemist (igapäevased seadme pingid) georuumiliste töötlemistöödega mastaabis, peaks uuel andmehulgal, mida nimetatakse peatusteks, olema järgmine skeem.

Atribuut Kirjeldus
ID või MAID Seadme mobiilireklaami ID (räsi)
lat Peatusklastri tsentroidi laiuskraad
lng Peatusklastri tsentroidi pikkuskraad
geohash POI geohash asukoht
seadme tüüp Seadme operatsioonisüsteem (IDFA või GAID)
ajatempel Peatuse algusaeg
viivitusaeg Peatuse ooteaeg (sekundites)
ip IP aadress
alt Seadme kõrgus merepinnast (meetrites)
riik Päritoluriigi kahekohaline ISO kood
riik Olekut tähistavad koodid
linn Linna tähistavad koodid
postiindeks Seadme ID-d kuvatava sihtnumbri sihtnumber
kandja Seadme kandja
seadme_tootja Seadme tootja

Peatused konsolideeritakse pingide rühmitamise teel seadme kohta. Tiheduspõhine rühmitus on kombineeritud selliste parameetritega nagu peatumislävi on 300 sekundit ja minimaalne vahemaa peatuste vahel on 50 meetrit. Neid parameetreid saab kohandada vastavalt teie kasutusjuhule.

Järgmine ekraanipilt näitab ligikaudu 15,000 400,000 peatust, mis on tuvastatud XNUMX XNUMX pingi järel. Samuti on olemas eelmise skeemi alamhulk, kus veerg Dwell Time tähistab peatuse kestust ja Lat ja Lng veerud tähistavad peatuste klastri tsentroidide laius- ja pikkuskraade seadme ja asukoha kohta.

ETL-i järgselt salvestatakse andmeid Parquet failivormingus, mis on veeruline salvestusvorming, mis hõlbustab suurte andmemahtude töötlemist.

Järgmisel ekraanipildil on pingitest koondatud peatused iga seadme kohta kaubanduskeskuses ja selle ümbruses.

Pärast peatuste tuvastamist saab selle andmestiku liita avalikult kättesaadavate POI-andmete või kasutusjuhtumile vastavate kohandatud POI-andmetega, et tuvastada tegevusi, näiteks seotust kaubamärkidega.

Järgmisel ekraanipildil on Arrowhead Malli peamistes POI-des (poed ja kaubamärgid) tuvastatud peatused.

Koduseid sihtindekseid on kasutatud iga külastaja kodu asukoha varjamiseks, et säilitada privaatsus juhuks, kui see on osa nende reisist andmestikus. Laius- ja pikkuskraad on sellistel juhtudel sihtnumbri tsentroidi vastavad koordinaadid.

Järgmine ekraanipilt on selliste tegevuste visuaalne kujutis. Vasakpoolne pilt kaardistab peatused kaupluste juurde ning parempoolne pilt annab aimu kaubanduskeskuse enda paigutusest.

Seda saadud andmekogumit saab visualiseerida mitmel viisil, mida käsitleme järgmistes jaotistes.

Tiheduse mõõdikud

Saame arvutada ja visualiseerida tegevuste ja külastuste tihedust.

Näiteks 1 - Järgmine ekraanipilt näitab kaubanduskeskuse 15 populaarseimat külastatud kauplust.

Näiteks 2 – Järgmine ekraanipilt näitab Apple Store'i külastuste arvu tunnis.

Reisid ja trajektoorid

Nagu varem mainitud, tähistab järjestikuste tegevuste paar reisi. Saame tegevuste andmetest väljasõitude tuletamiseks kasutada järgmist lähenemisviisi. Siin kasutatakse aknafunktsioone koos SQL-iga genereerimiseks trips tabel, nagu on näidatud ekraanipildil.

Pärast trips Tabel luuakse, saab määrata reisid POI-sse.

Näide 1 – Järgmine ekraanipilt näitab 10 parimat poodi, mis suunavad liiklust Apple Store'i poole.

Näiteks 2 - Järgmine ekraanipilt näitab kõiki reise Arrowheadi kaubanduskeskusesse.

Näiteks 3 – Järgmine video näitab liikumismustreid kaubanduskeskuses.

Näiteks 4 – Järgmine video näitab liikumismustreid väljaspool kaubanduskeskust.

Valla analüüs

Saame analüüsida kõiki HP külastusi ja määrata valgala.

Näide 1 – Järgmine ekraanipilt näitab kõiki Macy poe külastusi.

Näiteks 2 – Järgmine ekraanipilt näitab 10 parimat kodupiirkonna sihtnumbrit (piirid on esile tõstetud), kust külastused toimusid.

Andmete kvaliteedi kontroll

Saame kontrollida igapäevase sissetuleva andmevoo kvaliteeti ja tuvastada kõrvalekaldeid QuickSighti armatuurlaudade ja andmeanalüüside abil. Järgmisel ekraanipildil on armatuurlaua näidis.

Järeldus

Liikuvusandmed ja nende analüüs klientide ülevaate saamiseks ja konkurentsieelise saamiseks on endiselt nišivaldkond, kuna ühtset ja täpset andmekogumit on raske hankida. Need andmed võivad aga aidata organisatsioonidel olemasolevale analüüsile konteksti lisada ja isegi luua uusi teadmisi klientide liikumisharjumuste kohta. Amazon SageMakeri georuumilised võimalused ja georuumilised töötlemistööd võivad aidata neid kasutusjuhtumeid rakendada ja hankida teadmisi intuitiivsel ja ligipääsetaval viisil.

Selles postituses demonstreerisime, kuidas kasutada AWS-i teenuseid liikuvusandmete puhastamiseks ja seejärel kasutada Amazon SageMakeri georuumilisi võimalusi tuletatud andmekogumite (nt peatused, tegevused ja reisid) genereerimiseks ML-mudelite abil. Seejärel kasutasime liikumismustrite visualiseerimiseks ja arusaamade loomiseks tuletatud andmekogumeid.

Amazon SageMakeri georuumiliste võimalustega saate alustada kahel viisil.

Lisateabe saamiseks külastage Amazon SageMakeri georuumilised võimalused ja Amazon SageMakeri georuumilise kasutamise alustamine. Külastage ka meie GitHub repo, millel on mitu märkmikku Amazon SageMakeri georuumiliste võimaluste kohta.


Autoritest

Jimy Matthews on AWS-i lahenduste arhitekt, kellel on AI/ML-tehnoloogia alased teadmised. Jimy asub Bostonis ja töötab äriklientidega, kes muudavad oma äri pilve kasutuselevõtuga ning aitavad neil luua tõhusaid ja jätkusuutlikke lahendusi. Ta on kirglik oma perekonna, autode ja segavõitluskunstide vastu.

Girish Keshav on AWS-i lahenduste arhitekt, kes aitab kliente nende pilve migratsiooni teekonnal ajakohastada ning töökoormust turvaliselt ja tõhusalt käitada. Ta teeb koostööd tehnoloogiameeskondade juhtidega, et juhendada neid rakenduste turvalisuse, masinõppe, kulude optimeerimise ja jätkusuutlikkuse vallas. Ta asub San Franciscos ja talle meeldib reisida, matkata, sporti vaadata ja käsitööõlletehaseid uurida.

Rameshi sadamasild on Solutions Architecture'i vanemjuht, kes keskendub AWS-i ettevõtete klientidele oma andmevarade monetiseerimisele. Ta soovitab juhtidel ja inseneridel kavandada ja luua väga skaleeritavaid, usaldusväärseid ja kulutõhusaid pilvelahendusi, mis keskenduvad eelkõige masinõppele, andmetele ja analüütikale. Vabal ajal naudib ta õues olemist, rattasõitu ja perega matkamist.

Ajatempel:

Veel alates AWS-i masinõpe