Laadi ETL-työsi MongoDB Atlasille AWS Gluen avulla

Laadi ETL-työsi MongoDB Atlasille AWS Gluen avulla

Lähdesolmu: 2634433

Nykypäivän tietovetoisessa liiketoimintaympäristössä organisaatiot kohtaavat haasteen valmistaa ja muuntaa tehokkaasti suuria tietomääriä analytiikkaa ja datatieteen tarkoituksiin. Yritysten on rakennettava tietovarastoja ja datajärviä toimintatietojen pohjalta. Tämä johtuu tarpeesta keskittää ja integroida eri lähteistä peräisin olevaa tietoa.

Samaan aikaan toimintatiedot ovat usein peräisin vanhojen tietovarastojen tukemista sovelluksista. Sovellusten modernisointi vaatii mikropalveluarkkitehtuuria, mikä puolestaan ​​edellyttää useiden lähteiden tietojen yhdistämistä toimivan tietovaraston rakentamiseksi. Ilman modernisointia vanhojen sovellusten ylläpitokustannukset voivat kasvaa. Sovellusten modernisointi edellyttää taustalla olevan tietokantamoottorin vaihtamista nykyaikaiseksi asiakirjapohjaiseksi tietokannaksi, kuten MongoDB.

Nämä kaksi tehtävää (tietojärvien tai tietovarastojen rakentaminen ja sovellusten modernisointi) sisältävät tiedon siirron, joka käyttää ETL-prosessia (Extract, Transform and load). ETL-työ on avaintoiminto hyvin jäsennellyn prosessin onnistumiseksi.

AWS-liima on palvelimeton tietojen integrointipalvelu, jonka avulla on helppo löytää, valmistella, siirtää ja integroida tietoja useista lähteistä analytiikkaa, koneoppimista (ML) ja sovelluskehitystä varten. MongoDB Atlas on integroitu pilvitietokanta- ja tietopalvelupaketti, joka yhdistää tapahtumien käsittelyn, osuvuuteen perustuvan haun, reaaliaikaisen analytiikan ja mobiili-pilvitietojen synkronoinnin tyylikkäässä ja integroidussa arkkitehtuurissa.

Käyttämällä AWS-liimaa MongoDB Atlasin kanssa organisaatiot voivat virtaviivaistaa ETL-prosessejaan. Täysin hallitun, skaalautuvan ja suojatun tietokantaratkaisunsa ansiosta MongoDB Atlas tarjoaa joustavan ja luotettavan ympäristön operatiivisten tietojen tallentamiseen ja hallintaan. Yhdessä AWS Glue ETL ja MongoDB Atlas ovat tehokas ratkaisu organisaatioille, jotka haluavat optimoida tapansa rakentaa datajärviä ja tietovarastoja sekä modernisoida sovelluksiaan parantaakseen liiketoiminnan suorituskykyä, alentaakseen kustannuksia sekä edistääkseen kasvua ja menestystä.

Tässä viestissä näytämme, kuinka tietoja siirretään Amazonin yksinkertainen tallennuspalvelu (Amazon S3) ämpärit MongoDB Atlasille AWS Glue ETL:n avulla ja kuinka poimia tietoja MongoDB Atlasista Amazon S3 -pohjaiseen datajärveen.

Ratkaisun yleiskatsaus

Tässä viestissä tutkimme seuraavia käyttötapauksia:

  • Poimitaan tietoja MongoDB:stä – MongoDB on suosittu tietokanta, jota tuhannet asiakkaat käyttävät sovellustietojen tallentamiseen mittakaavassa. Yritysasiakkaat voivat keskittää ja integroida useista tietovarastoista tulevaa dataa rakentamalla tietojärviä ja tietovarastoja. Tämä prosessi sisältää tiedon poimimisen operatiivisista tietovarastoista. Kun tiedot ovat yhdessä paikassa, asiakkaat voivat käyttää niitä nopeasti business intelligence -tarpeisiin tai ML:ään.
  • Tietojen siirtäminen MongoDB:hen – MongoDB toimii myös ei-SQL-tietokantana sovellustietojen tallentamiseen ja operatiivisten tietovarastojen rakentamiseen. Sovellusten modernisointiin liittyy usein operatiivisen varaston siirto MongoDB:hen. Asiakkaiden tulee poimia olemassa olevia tietoja relaatiotietokannoista tai litteistä tiedostoista. Mobiili- ja verkkosovellukset vaativat usein tietosuunnittelijoita rakentamaan tietoputkia, jotta ne voivat luoda yhden näkymän tiedoista Atlasissa samalla, kun ne käsittelevät tietoja useista suojatuista lähteistä. Siirron aikana heidän on liityttävä eri tietokantoihin asiakirjojen luomiseksi. Tämä monimutkainen liitostoiminto vaatisi merkittävän kertaluonteisen laskentatehon. Kehittäjien olisi myös rakennettava tämä nopeasti tietojen siirtämiseksi.

AWS Glue on kätevä näissä tapauksissa pay-as-you-go-mallin ja sen kyvyn suorittaa monimutkaisia ​​muunnoksia valtavissa tietojoukoissa. Kehittäjät voivat käyttää AWS Glue Studiota tällaisten tietoputkien luomiseen tehokkaasti.

Seuraava kaavio näyttää tietojen poiminnan työnkulun MongoDB Atlasista S3-säihöön AWS Glue Studion avulla.

Tietojen purkaminen MongoDB Atlasista Amazon S3:een

Tämän arkkitehtuurin toteuttamiseksi tarvitset MongoDB Atlas -klusterin, S3-kauhan ja AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) rooli AWS Gluelle. Voit määrittää nämä resurssit seuraavien edellytysvaiheiden mukaisesti GitHub repo.

Seuraava kuva näyttää tietojen lataamisen työnkulun S3-säilystä MongoDB Atlasiin AWS-liiman avulla.

Ladataan tietoja Amazon S3:sta MongoDB Atlasiin

Täällä tarvitaan samat edellytykset: S3-säilö, IAM-rooli ja MongoDB Atlas -klusteri.

Lataa tiedot Amazon S3:sta MongoDB Atlasiin AWS Glue -liimalla

Seuraavissa vaiheissa kuvataan, kuinka ladata tietoja S3-säilystä MongoDB Atlasiin AWS-liimatyön avulla. Purausprosessi MongoDB Atlasista Amazon S3:een on hyvin samanlainen, lukuun ottamatta käytettyä komentosarjaa. Kutsumme esiin näiden kahden prosessin väliset erot.

  1. Luo ilmainen klusteri MongoDB Atlasissa.
  2. Lataa esimerkki JSON-tiedostosta S3-ämpäriisi.
  3. Luo uusi AWS Glue Studio -työ Spark-skriptieditori vaihtoehto.

Glue Studio -työnluontikäyttöliittymä

  1. Syötä sen mukaan, haluatko ladata tai poimia tietoja MongoDB Atlas -klusterista lataa skripti or pura käsikirjoitus AWS Glue Studion komentosarjaeditorissa.

Seuraava kuvakaappaus näyttää koodinpätkän tietojen lataamiseksi MongoDB Atlas -klusteriin.

Koodinpätkä tietojen lataamiseksi MongoDB Atlasiin

Koodi käyttää AWS -salaisuuksien hallinta hakeaksesi MongoDB Atlas -klusterin nimen, käyttäjänimen ja salasanan. Sitten se luo a DynamicFrame komentosarjalle parametreina S3-säilölle ja tiedostonimelle. Koodi hakee tietokannan ja kokoelman nimet työn parametrien määrityksistä. Lopuksi koodi kirjoittaa DynamicFrame MongoDB Atlas -klusteriin haettujen parametrien avulla.

  1. Luo IAM-rooli seuraavan kuvakaappauksen mukaisesti.

Katso lisätietoja kohdasta Määritä IAM-rooli ETL-työllesi.

IAM-roolin käyttöoikeudet

  1. Anna työlle nimi ja anna edellisessä vaiheessa luotu IAM-rooli Työn yksityiskohdat Tab.
  2. Voit jättää loput parametrit oletusarvoiksi, kuten seuraavissa kuvakaappauksissa näkyy.
    työ tiedotTyön yksityiskohdat jatkuivat
  3. Määritä seuraavaksi komentosarjan käyttämät työn parametrit ja anna oletusarvot.
    Työn syöttöparametrit
  4. Tallenna työ ja suorita se.
  5. Voit varmistaa onnistuneen ajon tarkkailemalla MongoDB Atlas -tietokantakokoelman sisältöä, jos lataat tietoja, tai S3-säihön sisältöä, jos suoritit poiminta.

Seuraava kuvakaappaus näyttää tulokset onnistuneesta datalatauksesta Amazon S3 -ämpäristä MongoDB Atlas -klusteriin. Tiedot ovat nyt saatavilla MongoDB Atlas -käyttöliittymän kyselyihin.
Tiedot ladattu MongoDB Atlas -klusteriin

  1. Tarkista juoksujen vianetsintä amazonin pilvikello lokit työn alla olevan linkin avulla ajaa Tab.

Seuraava kuvakaappaus näyttää, että työ suoritettiin onnistuneesti, ja siinä on lisätietoja, kuten linkkejä CloudWatch-lokeihin.

Onnistuneen työn tiedot

Yhteenveto

Tässä viestissä kuvailimme kuinka purkaa ja niellä tietoja MongoDB Atlasille AWS-liiman avulla.

AWS Glue ETL -töiden avulla voimme nyt siirtää tiedot MongoDB Atlasista AWS Glue -yhteensopiviin lähteisiin ja päinvastoin. Voit myös laajentaa ratkaisua rakentamaan analytiikkaa AWS AI- ja ML-palveluilla.

Lisätietoja saat osoitteesta GitHub-arkisto vaiheittaiset ohjeet ja esimerkkikoodi. Voit hankkia MongoDB Atlas AWS Marketplacessa.


Tietoja Tekijät

Igor Alekseev on vanhempi kumppaniratkaisuarkkitehti AWS:ssä Data and Analytics -verkkotunnuksessa. Roolissaan Igor työskentelee strategisten kumppaneiden kanssa auttaen heitä rakentamaan monimutkaisia, AWS-optimoituja arkkitehtuureja. Ennen AWS:ään liittymistään hän toteutti Data/Solution Architectina monia Big Data -alueen projekteja, mukaan lukien useita datajärviä Hadoop-ekosysteemissä. Tietosuunnittelijana hän oli mukana AI/ML:n soveltamisessa petosten havaitsemiseen ja toimistoautomaatioon.


Babu Srinivasan
on Senior Partner Solutions -arkkitehti MongoDB:ssä. Nykyisessä tehtävässään hän työskentelee AWS:n kanssa teknisten integraatioiden ja referenssiarkkitehtuurien rakentamiseksi AWS- ja MongoDB-ratkaisuille. Hänellä on yli kahden vuosikymmenen kokemus tietokanta- ja pilviteknologioista. Hän on intohimoinen teknisten ratkaisujen tarjoamisesta asiakkaille, jotka työskentelevät useiden maailmanlaajuisten järjestelmäintegraattoreiden (GSI) kanssa useilla maantieteellisillä alueilla.

Aikaleima:

Lisää aiheesta AWS Big Data