Állítsa össze ETL-feladatait a MongoDB Atlas számára az AWS ragasztóval

Állítsa össze ETL-feladatait a MongoDB Atlas számára az AWS ragasztóval

Forrás csomópont: 2634433

A mai adatvezérelt üzleti környezetben a szervezetek azzal a kihívással néznek szembe, hogy hatékonyan készítsenek elő és alakítsanak át nagy mennyiségű adatot analitikai és adattudományi célokra. A vállalkozásoknak adattárházakat és adattó-rendszereket kell építeniük a működési adatok alapján. Ennek oka a különböző forrásokból származó adatok központosítása és integrálása.

Ugyanakkor a működési adatok gyakran olyan alkalmazásokból származnak, amelyeket örökölt adattárak támogatnak. Az alkalmazások modernizálása mikroszolgáltatási architektúrát igényel, ami viszont szükségessé teszi a több forrásból származó adatok konszolidációját egy működő adattár létrehozásához. Korszerűsítés nélkül a régebbi alkalmazásoknak megnövekedhetnek a karbantartási költségei. Az alkalmazások modernizálása magában foglalja a mögöttes adatbázismotor módosítását egy modern dokumentum alapú adatbázisra, például a MongoDB-re.

Ez a két feladat (adatlakok vagy adattárházak építése és az alkalmazások korszerűsítése) magában foglalja az adatmozgatást, amely egy kibontási, átalakítási és betöltési (ETL) folyamatot használ. Az ETL-feladat kulcsfontosságú funkciója a jól strukturált folyamatnak a siker érdekében.

AWS ragasztó egy szerver nélküli adatintegrációs szolgáltatás, amely egyszerűvé teszi több forrásból származó adatok felfedezését, előkészítését, mozgatását és integrálását elemzési, gépi tanulási (ML) és alkalmazásfejlesztési célokra. MongoDB Atlasz felhőalapú adatbázisok és adatszolgáltatások integrált csomagja, amely elegáns és integrált architektúrában ötvözi a tranzakciós feldolgozást, a relevancia alapú keresést, a valós idejű elemzést és a mobil-felhő adatszinkronizálást.

Az AWS Glue és a MongoDB Atlas használatával a szervezetek egyszerűsíthetik ETL-folyamataikat. Teljesen felügyelt, méretezhető és biztonságos adatbázis-megoldásával a MongoDB Atlas rugalmas és megbízható környezetet biztosít a működési adatok tárolására és kezelésére. Az AWS Glue ETL és a MongoDB Atlas együttesen hatékony megoldást jelentenek azoknak a szervezeteknek, amelyek optimalizálni kívánják adattó- és adattárház-építési módját, valamint korszerűsíteni kívánják alkalmazásaikat az üzleti teljesítmény javítása, a költségek csökkentése, valamint a növekedés és a siker előmozdítása érdekében.

Ebben a bejegyzésben bemutatjuk, hogyan lehet adatokat migrálni Amazon egyszerű tárolási szolgáltatás (Amazon S3) a MongoDB Atlashoz az AWS Glue ETL használatával, és hogyan lehet adatokat kinyerni a MongoDB Atlasból egy Amazon S3-alapú adattóba.

Megoldás áttekintése

Ebben a bejegyzésben a következő felhasználási eseteket vizsgáljuk:

  • Adatok kinyerése a MongoDB-ből – A MongoDB egy népszerű adatbázis, amelyet ügyfelek ezrei használnak az alkalmazások adatainak nagyarányú tárolására. A vállalati ügyfelek központosíthatják és integrálhatják a több adattárból származó adatokat azáltal, hogy adattókot és adattárházat építenek. Ez a folyamat magában foglalja az adatok kinyerését az operatív adattárakból. Ha az adatok egy helyen vannak, az ügyfelek gyorsan felhasználhatják azokat üzleti intelligencia-szükségleteikhez vagy ML-hez.
  • Adatok bevitele a MongoDB-be – A MongoDB SQL nélküli adatbázisként is szolgál az alkalmazásadatok tárolására és az operatív adattárolók létrehozására. Az alkalmazások modernizálása gyakran magában foglalja az operatív tároló áttelepítését a MongoDB-be. Az ügyfeleknek a meglévő adatokat relációs adatbázisokból vagy lapos fájlokból kell kinyerniük. A mobil- és webalkalmazások gyakran megkövetelik az adatmérnököktől, hogy adatfolyamokat építsenek fel, hogy egyetlen adatnézetet hozzanak létre az Atlasban, miközben több szigetelt forrásból származó adatokat is feldolgoznak. Az áttelepítés során a dokumentumok létrehozásához különböző adatbázisokhoz kell csatlakozniuk. Ez a bonyolult összekapcsolási művelet jelentős, egyszeri számítási teljesítményt igényel. A fejlesztőknek ezt is gyorsan meg kell építeniük az adatok migrálásához.

Az AWS Glue ezekben az esetekben hasznos a felosztó-kirovó modellel, valamint azzal a képességével, hogy hatalmas adatkészleteken keresztül képes bonyolult átalakításokat futtatni. A fejlesztők az AWS Glue Studio segítségével hatékonyan hozhatnak létre ilyen adatfolyamokat.

A következő diagram bemutatja az adatkinyerési munkafolyamatot a MongoDB Atlasból egy S3 tárolóba az AWS Glue Studio használatával.

Adatok kinyerése a MongoDB Atlasból az Amazon S3-ba

Ennek az architektúrának a megvalósításához szüksége lesz egy MongoDB Atlas-fürtre, egy S3 tárolóra és egy AWS Identity and Access Management (IAM) szerepe az AWS Glue számára. Az erőforrások konfigurálásához kövesse az alábbi előfeltétel lépéseket GitHub repo.

A következő ábra az adatbetöltési munkafolyamatot mutatja be egy S3 tárolóból a MongoDB Atlasba az AWS ragasztó használatával.

Adatok betöltése az Amazon S3-ból a MongoDB Atlasba

Ugyanazok az előfeltételek szükségesek itt is: S3 vödör, IAM szerepkör és MongoDB Atlas-fürt.

Töltse be az adatokat az Amazon S3-ból a MongoDB Atlasba az AWS ragasztó segítségével

A következő lépések leírják, hogyan tölthet be adatokat az S3 tárolóból a MongoDB Atlasba egy AWS ragasztófeladat segítségével. A MongoDB Atlas és az Amazon S3 kinyerési folyamata nagyon hasonló, a használt szkript kivételével. Felhívjuk a figyelmet a két folyamat közötti különbségekre.

  1. Hozzon létre egy ingyenes klasztert a MongoDB Atlasban.
  2. Töltse fel a minta JSON fájl az S3 vödörbe.
  3. Hozzon létre egy új AWS Glue Studio feladatot a Spark script szerkesztő opciót.

Glue Studio Job Creation UI

  1. Attól függően, hogy adatokat szeretne-e betölteni vagy kivonatolni a MongoDB Atlas-fürtből, adja meg a script betöltése or szkript kibontása az AWS Glue Studio szkriptszerkesztőben.

A következő képernyőkép egy kódrészletet mutat be az adatok MongoDB Atlas-fürtbe való betöltéséhez.

Kódrészlet az adatok MongoDB Atlasba való betöltéséhez

A kód használ AWS Secrets Manager a MongoDB Atlas fürt nevének, felhasználónevének és jelszavának lekéréséhez. Ezután létrehozza a DynamicFrame a parancsfájlnak paraméterként átadott S3 tárolóhoz és fájlnévhez. A kód lekéri az adatbázis- és gyűjteményneveket a jobparaméter-konfigurációból. Végül a kód kiírja a DynamicFrame a MongoDB Atlas-fürthöz a letöltött paraméterek használatával.

  1. Hozzon létre egy IAM-szerepet a következő képernyőképen látható engedélyekkel.

További részletek: Konfiguráljon IAM-szerepet az ETL-feladathoz.

IAM-szerepkör-engedélyek

  1. Adjon nevet a munkának, és adja meg az előző lépésben létrehozott IAM-szerepet Munka részletei Tab.
  2. A többi paramétert alapértelmezettként hagyhatja, amint az a következő képernyőképeken látható.
    munka részleteiA munka részletei folytatódtak
  3. Ezután határozza meg a parancsfájl által használt feladatparamétereket, és adja meg az alapértelmezett értékeket.
    Munka beviteli paraméterei
  4. Mentse el a munkát, és futtassa.
  5. A sikeres futtatás megerősítéséhez figyelje meg a MongoDB Atlas adatbázis-gyűjtemény tartalmát az adatok betöltésekor, vagy az S3 tárolót, ha kivonatolást hajt végre.

A következő képernyőkép az Amazon S3 tárolóból a MongoDB Atlas-fürtbe történő sikeres adatbetöltés eredményeit mutatja. Az adatok mostantól elérhetők a MongoDB Atlas felhasználói felületén végzett lekérdezésekhez.
Az adatok betöltve a MongoDB Atlas Clusterbe

  1. A futások hibaelhárításához tekintse át a amazonfelhőóra naplókat a munkán található hivatkozás segítségével futás Tab.

A következő képernyőkép azt mutatja, hogy a feladat sikeresen lefutott, további részletekkel, például a CloudWatch naplóira mutató hivatkozásokkal.

A sikeres munkavégzés részletei

Következtetés

Ebben a bejegyzésben leírtuk, hogyan lehet adatokat kivonni és feldolgozni a MongoDB Atlasba az AWS ragasztó segítségével.

Az AWS Glue ETL feladatokkal mostantól átvihetjük az adatokat a MongoDB Atlasból AWS Glue-kompatibilis forrásokba, és fordítva. A megoldást az AWS AI- és ML-szolgáltatások segítségével történő elemzésekre is kiterjesztheti.

További információért tekintse meg a GitHub tárház lépésenkénti utasításokért és mintakódért. Beszerezhetsz MongoDB Atlasz az AWS Marketplace-en.


A szerzőkről

Igor Alekszejev Senior Partner Solution Architect az AWS-nél a Data and Analytics domainben. Munkájában Igor stratégiai partnerekkel dolgozik, segítve őket komplex, AWS-optimalizált architektúrák felépítésében. Mielőtt csatlakozott volna az AWS-hez, Data/Solution Architect-ként számos projektet valósított meg a Big Data tartományban, beleértve a Hadoop ökoszisztéma több adattóját is. Adatmérnökként részt vett az AI/ML csalásfelderítésben és irodaautomatizálásban való alkalmazásában.


Babu Srinivasan
Senior Partner Solutions Architect a MongoDB-nél. Jelenlegi beosztásában az AWS-szel dolgozik az AWS és MongoDB megoldások műszaki integrációinak és referenciaarchitektúrájának kiépítésén. Több mint két évtizedes tapasztalattal rendelkezik az adatbázis - és felhőtechnológiák terén . Szenvedélyes célja, hogy műszaki megoldásokat nyújtson több globális rendszerintegrátorral (GSI) dolgozó ügyfeleknek több földrajzi területen.

Időbélyeg:

Még több AWS Big Data