Tietojenhallinnan skaalaus Apache Gobblinin kautta

Tietojenhallinnan skaalaus Apache Gobblinin kautta

Lähdesolmu: 1911501

Nykymaailmassa useimmat yritykset luottavat big datan ja analytiikan tehoon kasvun, strategisten investointien ja asiakkaiden sitoutumisen edistämisessä. Big data on perusvakio kohdistetussa mainoksessa, personoidussa markkinoinnissa, tuotesuosituksissa, oivallusten luomisessa, hintaoptimoinnissa, mielipideanalyysissä, ennakoivassa analytiikan sisällössä ja monessa muussa. 

Tiedot kerätään usein useista lähteistä, muunnetaan, tallennetaan ja käsitellään datajärvissä on-prem- tai pilvipalveluissa. Vaikka tietojen alkuunotto on suhteellisen triviaalia ja se voidaan saavuttaa talon sisällä kehitetyillä mukautetuilla komentosarjoilla tai perinteisillä ETL-työkaluilla (Extract Transform Load), ongelmasta tulee nopeasti kohtuuttoman monimutkainen ja kallis ratkaista, koska yritysten on:

  1. Hallitse tietojen koko elinkaarta – taloudenhoito- ja vaatimustenmukaisuustarkoituksiin 
  2. Optimoi tallennustila – vähentää siihen liittyviä kustannuksia 
  3. Yksinkertaista arkkitehtuuria – käyttämällä laskentainfrastruktuuria uudelleen 
  4. Käsittele tietoja asteittain – tehokkaan tilanhallinnan avulla 
  5. Käytä samoja käytäntöjä erä- ja suoratoistotiedoissa – ilman päällekkäistä työtä
  6. Siirrä On-premin ja Cloudin välillä – vähimmällä vaivalla  

Se on missä Apache Gobblin, avoimen lähdekoodin tiedonhallinta- ja integrointijärjestelmä tulee sisään. Apache Gobblin tarjoaa vertaansa vailla olevia ominaisuuksia, joita voidaan käyttää joko kokonaan tai osittain yrityksen tarpeiden mukaan. 

Tässä osiossa perehdymme Apache Gobblinin erilaisiin ominaisuuksiin, jotka auttavat vastaamaan aiemmin hahmoteltuihin haasteisiin.

Tietojen koko elinkaaren hallinta

Apache Gobblin tarjoaa joukon ominaisuuksia dataputkien rakentamiseen, jotka tukevat kaikkia datajoukkojen tietojen elinkaaritoimintoja. 

  1. Kerää dataa – useista lähteistä nieluihin tietokannoista, Rest API:ista, FTP/SFTP-palvelimista, tiedostoista, CRM:istä, kuten Salesforce ja Dynamics, ja paljon muuta. 
  2. Replikoi tiedot – useiden datajärvien välillä erikoisominaisuuksilla Hadoop Distributed File System -tiedostojärjestelmää varten Distcp-NG:n kautta. 
  3. Tyhjennä tiedot – käyttämällä säilytyskäytäntöjä, kuten Aikaperusteinen, Uusin K, Versioitu tai käytäntöjen yhdistelmä. 

Gobblinin looginen putkisto koostuu 'Lähteestä', joka määrittää työn jakautumisen ja luo 'työskentelyä'. Nämä 'työt' noudetaan sitten suoritettaviksi 'tehtävinä', jotka sisältävät tietojen poimimisen, muuntamisen, laaduntarkistuksen ja tietojen kirjoittamisen määränpäähän. Viimeinen vaihe, 'Data Publish', vahvistaa liukuhihnan onnistuneen suorituksen ja sitoo tulostiedot atomisesti, jos kohde tukee sitä.
 

Tietojenhallinnan skaalaus Apache Gobblinin kautta
Kuva tekijältä

Optimoi tallennustila

Apache Gobblin voi auttaa vähentämään datalle tarvittavan tallennustilan määrää käsittelemällä tietoja sen jälkeen, kun ne on syötetty tai replikoitu pakkaamisen tai muotomuunnoksen avulla. 

  1. Tiivistys – tietojen jälkikäsittely, joka poistetaan tietueiden kaikkien kenttien tai avainkenttien perusteella, leikataan tiedot siten, että säilytetään vain yksi tietue, jossa on viimeisin aikaleima samalla avaimella.
  2. Avro ORC:ksi – erikoistunut muotojen muunnosmekanismi, jolla muunnetaan suosittu rivipohjainen Avro-muoto hyperoptimoituun sarakepohjaiseen ORC-muotoon. 

 

Tietojenhallinnan skaalaus Apache Gobblinin kautta
Kuva tekijältä

Yksinkertaista arkkitehtuuria 

Riippuen yrityksen vaiheesta (käynnistä yritykseen), mittakaavavaatimuksista ja niiden arkkitehtuurista, yritykset haluavat perustaa tai kehittää tietoinfrastruktuuriaan. Apache Gobblin on erittäin joustava ja tukee useita suoritusmalleja.

  1. Itsenäinen tila – toimii erillisenä prosessina paljaalla metallilaatikolla, eli yhdellä isännällä yksinkertaisiin käyttötapauksiin ja vähän vaativiin tilanteisiin. 
  2. MapReduce-tila – Suoritetaan MapReduce-työnä Hadoop-infrastruktuurissa suuria datatapauksia varten, jotta voidaan käsitellä petatavun mittakaavassa olevia tietojoukkoja. 
  3. Klusteritila: Itsenäinen – toimii Apache Helixin ja Apache Zookeeperin tukemana klusterina paljasmetallikoneilla tai isännillä suuren mittakaavan käsittelyä varten Hadoop MR -kehyksestä riippumatta.
  4. Klusteritila: Lanka – ajaa klusterina natiivilangalla ilman Hadoop MR -kehystä. 
  5. Cluster Mode: AWS – toimii klusterina Amazonin julkisessa pilvipalvelussa, esim. AWS AWS:ssä isännöidyille infrastruktuureille. 

 

Tietojenhallinnan skaalaus Apache Gobblinin kautta
Kuva tekijältä

Käsittele tietoja asteittain 

Merkittävässä mittakaavassa, jossa on useita dataputkia ja suuri määrä, tiedot on käsiteltävä erissä ja ajan mittaan. Siksi se vaatii tarkistuspisteen, jotta dataputket voivat jatkaa siitä, mihin ne viime kerralla jäivät, ja jatkaa siitä eteenpäin. Apache Gobblin tukee alhaisia ​​ja korkeita vesileimoja ja tukee vankkaa tilanhallinnan semantiikkaa State Storen kautta HDFS:ssä, AWS S3:ssa, MySQL:ssä ja avoimemmin. 

 

Tietojenhallinnan skaalaus Apache Gobblinin kautta
Kuva tekijältä

Samat käytännöt erä- ja suoratoistotiedoissa

Useimmat dataliukuhihnat on nykyään kirjoitettava kahdesti, kerran erädataa varten ja uudelleen lähes riviä tai suoratoistodataa varten. Se kaksinkertaistaa vaivan ja aiheuttaa epäjohdonmukaisuuksia erityyppisiin putkiin sovellettuihin käytäntöihin ja algoritmeihin. Apache Gobblin ratkaisee tämän antamalla käyttäjien luoda liukuhihnan kerran ja suorittaa sen sekä erä- että suoratoistotiedoissa, jos sitä käytetään Gobblin Cluster -tilassa, Gobblin AWS -tilassa tai Gobblin on lankatilassa.  

Siirrä On-premin ja Cloudin välillä 

Monipuolisten tilojensa ansiosta, jotka voivat toimia on-prem-tilassa yhdessä laatikossa, solmuklusterissa tai pilvessä – Apache Gobblin voidaan ottaa käyttöön ja käyttää sekä paikan päällä että pilvessä. Tämän vuoksi käyttäjät voivat kirjoittaa dataputkistonsa kerran ja siirtää ne yhdessä Gobblin-asennusten kanssa helposti on-prem- ja pilvipalveluiden välillä erityistarpeiden perusteella. 

Erittäin joustavan arkkitehtuurinsa, tehokkaiden ominaisuuksiensa ja äärimmäisen laajamittaisten tietomäärien ansiosta, joita se voi tukea ja käsitellä, Apache Gobblinia käytetään tuotantoinfrastruktuurissa. suuria teknologiayrityksiä ja se on välttämätön nykypäivän big data-infrastruktuurin käyttöönotossa.

Lisätietoja Apache Gobblinista ja sen käytöstä löytyy osoitteesta https://gobblin.apache.org
 
 
Abhishek Tiwari on Senior Manager LinkedInissä ja johtaa yrityksen Big Data Pipelines -organisaatiota. Hän on myös Apache Software Foundationin Apache Gobblinin varapuheenjohtaja ja British Computer Societyn jäsen.
 

Aikaleima:

Lisää aiheesta KDnuggets