Tunnista, peitä ja poista PII-tiedot AWS Glue -liimalla ennen lataamista Amazon OpenSearch Serviceen | Amazon Web Services

Tunnista, peitä ja poista PII-tiedot AWS Glue -liimalla ennen lataamista Amazon OpenSearch Serviceen | Amazon Web Services

Lähdesolmu: 3059547

Monet pienet ja suuret organisaatiot pyrkivät siirtämään ja modernisoimaan analytiikkatyökuormiaan Amazon Web Servicesissä (AWS). Asiakkailla on monia syitä siirtyä AWS:ään, mutta yksi tärkeimmistä syistä on kyky käyttää täysin hallittuja palveluita sen sijaan, että kuluttaisit aikaa infrastruktuurin ylläpitoon, korjauksiin, valvontaan, varmuuskopiointiin ja muihin. Johto- ja kehitystiimit voivat käyttää enemmän aikaa nykyisten ratkaisujen optimointiin ja jopa uusien käyttötapojen kokeilemiseen nykyisen infrastruktuurin ylläpitämisen sijaan.

Koska pystyt liikkumaan nopeasti AWS:ssä, sinun on myös oltava vastuussa vastaanottamistasi ja käsittelemistäsi tiedoista, kun jatkat skaalausta. Näihin velvollisuuksiin kuuluu tietosuojalakien ja -määräysten noudattaminen ja arkaluonteisten tietojen, kuten henkilökohtaisten tunnistetietojen (PII) tai suojattujen terveystietojen (PHI) säilyttäminen tai paljastaminen alkupään lähteistä.

Tässä viestissä käymme läpi korkean tason arkkitehtuurin ja erityisen käyttötapauksen, joka osoittaa, kuinka voit jatkaa organisaatiosi tietoalustan skaalaamista ilman, että sinun tarvitsee käyttää suuria määriä kehitysaikaa tietosuojaongelmien ratkaisemiseen. Käytämme AWS-liima tunnistaa, peittää ja poistaa henkilökohtaisia ​​tunnistetietoja ennen niiden lataamista Amazon OpenSearch-palvelu.

Ratkaisun yleiskatsaus

Seuraava kaavio havainnollistaa korkean tason ratkaisuarkkitehtuuria. Olemme määrittäneet suunnittelumme kaikki tasot ja komponentit noudattaen Hyvin suunniteltu AWS Framework Data Analytics -linssi.

os_glue_architecture

Arkkitehtuuri koostuu useista osista:

Lähdetiedot

Tiedot voivat tulla useista kymmenistä satoihin lähteistä, mukaan lukien tietokannat, tiedostonsiirrot, lokit, ohjelmistot palveluna (SaaS) -sovellukset ja paljon muuta. Organisaatiot eivät välttämättä pysty aina hallitsemaan sitä, mitä dataa tulee näiden kanavien kautta niiden myöhempään tallennustilaan ja sovelluksiin.

Nieleminen: Data Lake -erä, mikroerä ja suoratoisto

Monet organisaatiot siirtävät lähdetietonsa tietojärveensä eri tavoilla, mukaan lukien erä-, mikro-erä- ja suoratoistotyöt. Esimerkiksi, Amazonin EMR, AWS-liimaja AWS -tietokannan siirtopalvelu (AWS DMS) voidaan käyttää erä- ja/tai suoratoistotoimintojen suorittamiseen, jotka uppoavat datajärveen Amazonin yksinkertainen tallennuspalvelu (Amazon S3). Amazon App Flow voidaan käyttää datan siirtämiseen eri SaaS-sovelluksista datajärveen. AWS DataSync ja AWS-siirtoperhe voi auttaa tiedostojen siirtämisessä datajärvelle ja sieltä useiden eri protokollien kautta. Amazon kinesis ja Amazon MSK pystyvät myös suoratoistamaan dataa suoraan Amazon S3:n datajärveen.

S3 datajärvi

Amazon S3:n käyttäminen datajärvelläsi on nykyaikaisen datastrategian mukaista. Se tarjoaa edullista tallennustilaa suorituskyvystä, luotettavuudesta tai saatavuudesta tinkimättä. Tällä lähestymistavalla voit tuoda laskentaa tietoihisi tarpeen mukaan ja maksaa vain kapasiteetista, jota se tarvitsee toimiakseen.

Tässä arkkitehtuurissa raakadata voi olla peräisin useista lähteistä (sisäisistä ja ulkoisista), jotka voivat sisältää arkaluontoisia tietoja.

AWS Glue -indeksointirobottien avulla voimme löytää ja luetteloida tiedot, jotka muodostavat taulukkokaaviot puolestamme. Lopulta AWS Glue ETL:n käyttäminen PII-muunnoksen kanssa on helppoa havaita ja peittää tai poistaa kaikki mahdollisesti saapuneet arkaluontoiset tiedot. datajärvessä.

Liiketoimintakonteksti ja tietojoukot

Osoittaaksemme lähestymistapamme arvon oletetaan, että olet osa rahoituspalveluorganisaation tietotekniikkatiimiä. Vaatimuksenne on havaita ja peittää arkaluontoiset tiedot, kun ne siirretään organisaatiosi pilviympäristöön. Tiedot kulutetaan loppupään analyyttisiin prosesseihin. Jatkossa käyttäjäsi voivat etsiä historiallisia maksutapahtumia turvallisesti sisäisistä pankkijärjestelmistä kerättyjen tietovirtojen perusteella. Käyttötiimien, asiakkaiden ja liitäntäsovellusten hakutulokset on piilotettava arkaluontoisiin kenttiin.

Seuraavassa taulukossa on esitetty ratkaisussa käytetty tietorakenne. Selvyyden vuoksi olemme yhdistäneet raaka-aineet kuratoituihin sarakkeiden nimiin. Huomaat, että useita tämän mallin kenttiä pidetään arkaluontoisina tiedoina, kuten etunimi, sukunimi, sosiaaliturvatunnus (SSN), osoite, luottokortin numero, puhelinnumero, sähköpostiosoite ja IPv4-osoite.

Raaka sarakkeen nimi Kuroidun sarakkeen nimi Tyyppi
c0 etunimi jono
c1 sukunimi jono
c2 ssn jono
c3 osoite jono
c4 postinumero jono
c5 maa jono
c6 ostosivusto jono
c7 luottokortin numero jono
c8 credit_card_provider jono
c9 valuutta jono
c10 osto_arvo kokonaisluku
c11 tapahtuman_päivämäärä data
c12 puhelinnumero jono
c13 email jono
c14 ipv4 jono

Käyttötapaus: PII-erän tunnistus ennen lataamista OpenSearch-palveluun

Asiakkaat, jotka ottavat käyttöön seuraavan arkkitehtuurin, ovat rakentaneet datajärvensä Amazon S3:lle erityyppisten analytiikan suorittamiseksi mittakaavassa. Tämä ratkaisu sopii asiakkaille, jotka eivät vaadi reaaliaikaista pääsyä OpenSearch-palveluun ja aikovat käyttää datan integrointityökaluja, jotka toimivat aikataulussa tai tapahtumien kautta.

eräarkkitehtuuri

Ennen kuin tietueet laskeutuvat Amazon S3:lle, otamme käyttöön käsittelykerroksen tuodaksemme kaikki tietovirrat luotettavasti ja turvallisesti datajärveen. Kinesis Data Streamsia käytetään sisäänottokerroksena strukturoitujen ja puolistrukturoitujen tietovirtojen nopeutettuun vastaanottamiseen. Esimerkkejä näistä ovat relaatiotietokantamuutokset, sovellukset, järjestelmälokit tai napsautusvirrat. Muutostietojen kaappauksen (CDC) käyttötapauksissa voit käyttää Kinesis Data Streamsiä AWS DMS:n kohteena. Arkaluontoisia tietoja sisältäviä virtoja luovat sovellukset tai järjestelmät lähetetään Kinesis-tietovirtaan jollakin kolmesta tuetuista tavoista: Amazon Kinesis Agent, AWS SDK for Java tai Kinesis Producer Library. Viimeisenä askeleena Amazon Kinesis Data Firehose auttaa meitä lataamaan luotettavasti lähes reaaliaikaisia ​​tietoeriä S3-datajärven kohteeseen.

Seuraava kuvakaappaus näyttää, kuinka tiedot kulkevat Kinesis-datavirtojen läpi Data Viewer ja hakee näytetiedot, jotka laskeutuvat raaka S3-etuliitteelle. Tässä arkkitehtuurissa noudatimme S3-etuliitteille annettua tietojen elinkaarta, kuten kohdassa suositellaan Datajärven perustus.

kinesis raakadataa

Kuten seuraavan kuvakaappauksen ensimmäisen tietueen tiedoista näkyy, JSON-hyötykuorma noudattaa samaa kaavaa kuin edellisessä osassa. Näet muokkaamattomien tietojen virtaavan Kinesis-tietovirtaan, joka hämärtyy myöhemmin seuraavissa vaiheissa.

raw_json

Kun tiedot on kerätty ja syötetty Kinesis Data Streamsiin ja toimitettu S3-ämpäriin Kinesis Data Firehosen avulla, arkkitehtuurin käsittelykerros ottaa vallan. Käytämme AWS Glue PII -muunnosta automatisoidaksemme arkaluonteisten tietojen havaitsemisen ja peittämisen prosessissamme. Kuten seuraavasta työnkulkukaaviosta käy ilmi, otimme koodittoman visuaalisen ETL-lähestymistavan toteuttaaksemme muunnostyömme AWS Glue Studiossa.

liimaa studiosolmut

Ensin pääsemme lähdetietokatalogitaulukkoon raakana osoitteesta pii_data_db tietokanta. Taulukossa on edellisessä osiossa esitetty skeemarakenne. Raakakäsiteltyjen tietojen seuraamiseksi käytimme työn kirjanmerkit.

liimaluettelo

Käytämme AWS Glue DataBrew -reseptit AWS Glue Studion visuaalisessa ETL-työssä muuttaa kaksi päivämääräattribuuttia yhteensopivaksi OpenSearchin kanssa formaatit. Tämä mahdollistaa täydellisen koodittoman kokemuksen.

Tunnistamme arkaluontoiset sarakkeet Tunnista PII -toiminnolla. Annetaan AWS Gluen määrittää tämä valittujen mallien, tunnistuskynnyksen ja tietojoukon rivien näyteosuuden perusteella. Esimerkissämme käytimme malleja, jotka koskevat erityisesti Yhdysvaltoja (kuten SSN-numeroita), eivätkä välttämättä havaitse arkaluonteisia tietoja muista maista. Voit etsiä käytettävissä olevia luokkia ja sijainteja käyttötapauksiisi tai käyttää säännöllisiä lausekkeita (regex) AWS Gluessa luodaksesi tunnistuskokonaisuuksia muista maista peräisin oleville arkaluonteisille tiedoille.

On tärkeää valita oikea näytteenottomenetelmä, jonka AWS Glue tarjoaa. Tässä esimerkissä tiedetään, että virrasta tulevassa datassa on arkaluontoisia tietoja jokaisella rivillä, joten tietojoukon riveistä ei tarvitse ottaa 100 %:a. Jos sinulla on vaatimus, jonka mukaan arkaluontoisia tietoja ei sallita myöhempien lähteiden lähteisiin, harkitse 100 %:n näytteenottoa valitsemiesi mallien tiedoista tai skannaa koko tietojoukko ja toimi jokaisessa yksittäisessä solussa varmistaaksesi, että kaikki arkaluontoiset tiedot havaitaan. Näytteenoton hyöty on alemmat kustannukset, koska sinun ei tarvitse skannata niin paljon tietoja.

PII-asetukset

Tunnista PII -toiminnon avulla voit valita oletusmerkkijonon, kun arkaluontoiset tiedot peitetään. Esimerkissämme käytämme merkkijonoa **********.

valitut_asetukset

Käytämme Apply Mapping -toimintoa tarpeettomien sarakkeiden nimeämiseen ja poistamiseen, kuten ingestion_year, ingestion_monthja ingestion_day. Tämän vaiheen avulla voimme myös muuttaa yhden sarakkeen tietotyyppiä (purchase_value) merkkijonosta kokonaislukuun.

malli

Tästä eteenpäin työ jakautuu kahteen tulostuskohteeseen: OpenSearch Service ja Amazon S3.

Tarjottu OpenSearch-palveluklusterimme on yhdistetty kautta OpenSearchin sisäänrakennettu liitin Gluelle. Määritämme OpenSearch-hakemiston, johon haluamme kirjoittaa, ja liitin käsittelee tunnistetiedot, verkkotunnuksen ja portin. Alla olevassa kuvakaappauksessa kirjoitamme määritettyyn hakemistoon index_os_pii.

opensearch konfiguraatio

Tallennamme maskatun tietojoukon kuratoituun S3-etuliitteeseen. Siellä meillä on dataa, joka on normalisoitu tiettyyn käyttötapaukseen ja datatutkijoiden turvalliseen kulutukseen tai tapauskohtaisiin raportointitarpeisiin.

opensearch target s3 -kansio

Voit käyttää kaikkien tietojoukkojen ja tietokatalogitaulukoiden yhtenäistä hallintaa, kulunvalvontaa ja kirjausketjuja AWS-järvien muodostuminen. Tämä auttaa sinua rajoittamaan pääsyn AWS Glue Data Catalog -taulukoihin ja niiden taustalla oleviin tietoihin vain niille käyttäjille ja rooleille, joille on myönnetty tarvittavat käyttöoikeudet.

Kun erätyö on suoritettu onnistuneesti, voit käyttää OpenSearch Serviceä hakukyselyjen tai raporttien suorittamiseen. Kuten seuraavassa kuvakaappauksessa näkyy, liukuhihna peitti arkaluontoiset kentät automaattisesti ilman koodin kehitystyötä.

Voit tunnistaa trendit operatiivisista tiedoista, kuten luottokortin tarjoajan suodattamien tapahtumien määrä päivässä, kuten edellisessä kuvakaappauksessa näkyy. Voit myös määrittää sijainnit ja verkkotunnukset, joissa käyttäjät tekevät ostoksia. The transaction_date attribuutti auttaa meitä näkemään nämä trendit ajan mittaan. Seuraava kuvakaappaus näyttää tietueen, jossa kaikki tapahtuman tiedot on muokattu asianmukaisesti.

json naamioitu

Katso vaihtoehtoiset menetelmät tietojen lataamiseen Amazon OpenSearchiin Ladataan suoratoistodataa Amazon OpenSearch Serviceen.

Lisäksi arkaluonteisia tietoja voidaan löytää ja peittää myös muilla AWS-ratkaisuilla. Voit esimerkiksi käyttää Amazon Macie tunnistaa arkaluontoiset tiedot S3-ämpäriin ja käyttää sitten Amazonin käsitys poistaaksesi havaitut arkaluontoiset tiedot. Lisätietoja on kohdassa Yleisiä tekniikoita PHI- ja PII-tietojen havaitsemiseen AWS-palveluiden avulla.

Yhteenveto

Tässä viestissä käsiteltiin arkaluontoisten tietojen käsittelyn tärkeyttä ympäristössäsi sekä erilaisia ​​menetelmiä ja arkkitehtuureja, jotta ne pysyisivät vaatimustenmukaisina ja samalla mahdollistetaan organisaatiosi nopea skaalautuminen. Sinulla pitäisi nyt olla hyvä ymmärrys tietojesi havaitsemisesta, peittämisestä tai muokkaamisesta ja lataamisesta Amazon OpenSearch Serviceen.


Tietoja kirjoittajista

Michael Hamilton on Sr Analytics Solutions -arkkitehti, joka keskittyy auttamaan yritysasiakkaita modernisoimaan ja yksinkertaistamaan analytiikan työtaakkaa AWS:ssä. Hän nauttii maastopyöräilystä ja viettää aikaa vaimonsa ja kolmen lapsensa kanssa, kun hän ei ole töissä.

Daniel Rozo on Senior Solutions Architect, jonka AWS tukee asiakkaita Alankomaissa. Hänen intohimonsa on yksinkertaisten data- ja analytiikkaratkaisujen suunnittelu ja asiakkaiden auttaminen siirtymään moderneihin tietoarkkitehtuureihin. Työn ulkopuolella hän pelaa tennistä ja pyöräilee.

Aikaleima:

Lisää aiheesta AWS Big Data