Koostage oma ETL-tööd MongoDB Atlase jaoks AWS-liimiga

Koostage oma ETL-tööd MongoDB Atlase jaoks AWS-liimiga

Allikasõlm: 2634433

Tänapäeva andmepõhises ärikeskkonnas seisavad organisatsioonid silmitsi väljakutsega suurte andmemahtude tõhusaks ettevalmistamiseks ja teisendamiseks analüütika ja andmeteaduse eesmärkidel. Ettevõtetel tuleb rajada andmelaod ja andmejärved operatiivandmete põhjal. Selle põhjuseks on vajadus tsentraliseerida ja integreerida erinevatest allikatest pärinevaid andmeid.

Samal ajal pärinevad tööandmed sageli rakendustest, mida toetavad pärandandmesalved. Rakenduste moderniseerimiseks on vaja mikroteenuse arhitektuuri, mis omakorda nõuab mitmest allikast pärinevate andmete konsolideerimist, et luua toimiva andmesalve. Ilma moderniseerimiseta võivad pärandrakenduste hoolduskulud suureneda. Rakenduste moderniseerimine hõlmab aluseks oleva andmebaasimootori muutmist kaasaegseks dokumendipõhiseks andmebaasiks, nagu MongoDB.

Need kaks ülesannet (andmejärvede või andmeladude ehitamine ja rakenduste moderniseerimine) hõlmavad andmete teisaldamist, mis kasutab ekstraktimise, teisendamise ja laadimise (ETL) protsessi. ETL-i töö on hästi struktureeritud protsessi edu võtmefunktsioon.

AWS liim on serverita andmeintegratsiooniteenus, mis muudab analüütika, masinõppe (ML) ja rakenduste arendamise jaoks mitmest allikast pärit andmete avastamise, ettevalmistamise, teisaldamise ja integreerimise lihtsaks. MongoDB atlas on integreeritud pilvandmebaaside ja andmeteenuste komplekt, mis ühendab elegantses ja integreeritud arhitektuuris tehingute töötlemise, asjakohasusepõhise otsingu, reaalajas analüüsi ning mobiilside ja pilve andmete sünkroonimise.

Kasutades AWS-liimi koos MongoDB Atlasega, saavad organisatsioonid oma ETL-protsesse sujuvamaks muuta. Täielikult hallatava, skaleeritava ja turvalise andmebaasilahendusega MongoDB Atlas pakub paindlikku ja usaldusväärset keskkonda tööandmete salvestamiseks ja haldamiseks. AWS Glue ETL ja MongoDB Atlas on koos võimas lahendus organisatsioonidele, kes soovivad optimeerida andmejärvede ja andmeladude ehitamist ning moderniseerida oma rakendusi, et parandada äritegevuse tulemuslikkust, vähendada kulusid ning edendada majanduskasvu ja edu.

Selles postituses näitame, kuidas andmeid migreerida Amazoni lihtne salvestusteenus (Amazon S3) ämbrid MongoDB Atlasesse, kasutades AWS Glue ETL-i, ja kuidas hankida andmeid MongoDB Atlasest Amazon S3-põhisesse andmejärve.

Lahenduse ülevaade

Selles postituses uurime järgmisi kasutusjuhtumeid:

  • Andmete ekstraheerimine MongoDB-st - MongoDB on populaarne andmebaas, mida kasutavad tuhanded kliendid rakendusandmete ulatuslikuks salvestamiseks. Ettevõtluskliendid saavad tsentraliseerida ja integreerida mitmest andmesalvest pärinevaid andmeid, luues andmejärved ja andmelaod. See protsess hõlmab andmete ekstraheerimist operatiivandmete hoidlatest. Kui andmed on ühes kohas, saavad kliendid neid kiiresti äriteabe vajaduste või ML-i jaoks kasutada.
  • Andmete sisestamine MongoDB-sse - MongoDB toimib ka SQL-ita andmebaasina rakenduste andmete salvestamiseks ja operatiivandmete salvestamiseks. Rakenduste moderniseerimine hõlmab sageli toimiva poe migreerimist MongoDB-sse. Kliendid peaksid eraldama olemasolevad andmed relatsiooniandmebaasidest või lamefailidest. Mobiili- ja veebirakendused nõuavad sageli, et andmeinsenerid koostaksid andmekonveierid, et luua Atlases andmetest üks vaade, kasutades samal ajal andmeid mitmest suletud allikast. Selle migratsiooni ajal peaksid nad dokumentide loomiseks liituma erinevate andmebaasidega. See keeruline liitumisoperatsioon vajaks märkimisväärset ühekordset arvutusvõimsust. Samuti peaksid arendajad selle andmete migreerimiseks kiiresti üles ehitama.

AWS Glue on sellistel juhtudel kasulik tänu väljamaksemudelile ja selle võimele käivitada keerulisi teisendusi tohututes andmekogumites. Arendajad saavad selliste andmekanalite tõhusaks loomiseks kasutada AWS Glue Studio.

Järgmine diagramm näitab andmete ekstraheerimise töövoogu MongoDB Atlasest S3 ämbrisse, kasutades AWS Glue Studio.

Andmete ekstraheerimine MongoDB Atlasest Amazon S3-sse

Selle arhitektuuri rakendamiseks vajate MongoDB Atlase klastrit, S3 ämbrit ja AWS-i identiteedi- ja juurdepääsuhaldus (IAM) roll AWS Glue'i jaoks. Nende ressursside konfigureerimiseks vaadake alljärgnevaid eeltingimusetappe GitHub repo.

Järgmine joonis näitab andmete laadimise töövoogu S3 ämbrist MongoDB Atlasesse, kasutades AWS-liimi.

Amazon S3 andmete laadimine MongoDB Atlasesse

Siin on vaja samu eeldusi: S3 ämber, IAM-i roll ja MongoDB Atlase klaster.

Laadige andmed Amazon S3-st MongoDB Atlasesse, kasutades AWS-liimi

Järgmised sammud kirjeldavad, kuidas laadida S3 ämbrist andmeid MongoDB Atlasesse, kasutades AWS-liimitööd. Ekstraheerimisprotsess MongoDB Atlasest Amazon S3-le on väga sarnane, välja arvatud kasutatav skript. Toome välja nende kahe protsessi erinevused.

  1. Looge tasuta klaster MongoDB Atlases.
  2. Laadige üles JSON-faili näidis oma S3 ämbrisse.
  3. Looge rakendusega uus AWS Glue Studio töö Spark-skripti redaktor valik.

Glue Studio töö loomise kasutajaliides

  1. Olenevalt sellest, kas soovite MongoDB Atlase klastrist andmeid laadida või sealt ekstraheerida, sisestage laadige skript or skripti väljavõte AWS Glue Studio skriptiredaktoris.

Järgmine ekraanipilt näitab koodilõiku andmete laadimiseks MongoDB Atlase klastrisse.

Koodilõik andmete laadimiseks MongoDB Atlasesse

Kood kasutab AWS-i saladuste haldur MongoDB Atlase klastri nime, kasutajanime ja parooli hankimiseks. Seejärel loob see a DynamicFrame skriptile parameetritena edastatud S3 ämbri ja failinime jaoks. Kood hangib andmebaasi ja kogunimed tööparameetrite konfiguratsioonist. Lõpuks kirjutab kood DynamicFrame MongoDB Atlase klastrisse, kasutades allalaaditud parameetreid.

  1. Looge IAM-i roll lubadega, nagu on näidatud järgmisel ekraanipildil.

Lisateavet leiate aadressilt Seadistage oma ETL-töö jaoks IAM-i roll.

IAM-i rolli load

  1. Andke tööle nimi ja sisestage eelmises etapis loodud IAM-i roll Töö üksikasjad Tab.
  2. Ülejäänud parameetrid saate jätta vaikeväärtusteks, nagu on näidatud järgmistel ekraanipiltidel.
    töö üksikasjadTöö üksikasjad jätkusid
  3. Järgmisena määrake töö parameetrid, mida skript kasutab, ja esitage vaikeväärtused.
    Töö sisendparameetrid
  4. Salvestage töö ja käivitage see.
  5. Eduka käitamise kinnitamiseks jälgige andmete laadimisel MongoDB Atlase andmebaasikogu sisu või väljavõtte tegemisel S3 ämbri sisu.

Järgmine ekraanipilt näitab eduka andmete laadimise tulemusi Amazon S3 ämbrist MongoDB Atlase klastrisse. Andmed on nüüd päringute jaoks saadaval MongoDB Atlase kasutajaliideses.
Andmed laaditi MongoDB Atlase klastrisse

  1. Jooksude tõrkeotsinguks vaadake üle Amazon CloudWatch logid, kasutades töö juures olevat linki jooks Tab.

Järgmine ekraanipilt näitab, et töö toimis edukalt koos täiendavate üksikasjadega, nagu lingid CloudWatchi logidele.

Eduka töö üksikasjad

Järeldus

Selles postituses kirjeldasime, kuidas AWS-liimi abil andmeid MongoDB Atlasesse ekstraheerida ja alla neelata.

AWS Glue ETL töödega saame nüüd MongoDB Atlase andmeid üle kanda AWS Glue'iga ühilduvatesse allikatesse ja vastupidi. Samuti saate lahendust laiendada, et luua analüütikat, kasutades AWS AI ja ML teenuseid.

Lisateabe saamiseks vaadake GitHubi hoidla samm-sammult juhised ja näidiskoodi. Saate hankida MongoDB atlas AWS Marketplace'is.


Autoritest

Igor Aleksejev on AWS-i vanempartnerlahenduste arhitekt Andmete ja Analyticsi domeenis. Oma rollis teeb Igor koostööd strateegiliste partneritega, aidates neil ehitada keerulisi AWS-i jaoks optimeeritud arhitektuure. Enne AWS-iga liitumist viis ta andmete/lahenduste arhitektina ellu palju projekte suurandmete domeenis, sealhulgas mitut Hadoopi ökosüsteemi andmejärve. Andmeinsenerina oli ta seotud AI/ML rakendamisega pettuste tuvastamisel ja kontori automatiseerimisel.


Babu Srinivasan
on MongoDB vanempartnerilahenduste arhitekt. Oma praeguses rollis töötab ta koos AWS-iga, et luua AWS-i ja MongoDB lahenduste tehnilisi integratsioone ja võrdlusarhitektuure. Tal on enam kui kahe aastakümne pikkune kogemus andmebaasi- ja pilvetehnoloogiate vallas. Ta on kirglik tehniliste lahenduste pakkumise vastu klientidele, kes töötavad mitme globaalse süsteemiintegraatoriga (GSI) mitmes geograafilises piirkonnas.

Ajatempel:

Veel alates AWSi suured andmed