Scaling Data Management Through Apache Gobblin

Julkaissut Platon

seuraajia: 0

Nykymaailmassa useimmat yritykset luottavat big datan ja analytiikan tehoon kasvun, strategisten investointien ja asiakkaiden sitoutumisen edistämisessä. Big data on perusvakio kohdistetussa mainoksessa, personoidussa markkinoinnissa, tuotesuosituksissa, oivallusten luomisessa, hintaoptimoinnissa, mielipideanalyysissä, ennakoivassa analytiikan sisällössä ja monessa muussa.

Tiedot kerätään usein useista lähteistä, muunnetaan, tallennetaan ja käsitellään datajärvissä on-prem- tai pilvipalveluissa. Vaikka tietojen alkuunotto on suhteellisen triviaalia ja se voidaan saavuttaa talon sisällä kehitetyillä mukautetuilla komentosarjoilla tai perinteisillä ETL-työkaluilla (Extract Transform Load), ongelmasta tulee nopeasti kohtuuttoman monimutkainen ja kallis ratkaista, koska yritysten on:

Hallitse tietojen koko elinkaarta – taloudenhoito- ja vaatimustenmukaisuustarkoituksiin
Optimoi tallennustila – vähentää siihen liittyviä kustannuksia
Yksinkertaista arkkitehtuuria – käyttämällä laskentainfrastruktuuria uudelleen
Käsittele tietoja asteittain – tehokkaan tilanhallinnan avulla
Käytä samoja käytäntöjä erä- ja suoratoistotiedoissa – ilman päällekkäistä työtä
Siirrä On-premin ja Cloudin välillä – vähimmällä vaivalla

Se on missä Apache Gobblin, avoimen lähdekoodin tiedonhallinta- ja integrointijärjestelmä tulee sisään. Apache Gobblin tarjoaa vertaansa vailla olevia ominaisuuksia, joita voidaan käyttää joko kokonaan tai osittain yrityksen tarpeiden mukaan.

Tässä osiossa perehdymme Apache Gobblinin erilaisiin ominaisuuksiin, jotka auttavat vastaamaan aiemmin hahmoteltuihin haasteisiin.

Tietojen koko elinkaaren hallinta

Apache Gobblin tarjoaa joukon ominaisuuksia dataputkien rakentamiseen, jotka tukevat kaikkia datajoukkojen tietojen elinkaaritoimintoja.

Kerää dataa – useista lähteistä nieluihin tietokannoista, Rest API:ista, FTP/SFTP-palvelimista, tiedostoista, CRM:istä, kuten Salesforce ja Dynamics, ja paljon muuta.
Replikoi tiedot – useiden datajärvien välillä erikoisominaisuuksilla Hadoop Distributed File System -tiedostojärjestelmää varten Distcp-NG:n kautta.
Tyhjennä tiedot – käyttämällä säilytyskäytäntöjä, kuten Aikaperusteinen, Uusin K, Versioitu tai käytäntöjen yhdistelmä.

Gobblinin looginen putkisto koostuu 'Lähteestä', joka määrittää työn jakautumisen ja luo 'työskentelyä'. Nämä 'työt' noudetaan sitten suoritettaviksi 'tehtävinä', jotka sisältävät tietojen poimimisen, muuntamisen, laaduntarkistuksen ja tietojen kirjoittamisen määränpäähän. Viimeinen vaihe, 'Data Publish', vahvistaa liukuhihnan onnistuneen suorituksen ja sitoo tulostiedot atomisesti, jos kohde tukee sitä.

Tietojenhallinnan skaalaus Apache Gobblinin kautta
Kuva tekijältä

Optimoi tallennustila

Apache Gobblin voi auttaa vähentämään datalle tarvittavan tallennustilan määrää käsittelemällä tietoja sen jälkeen, kun ne on syötetty tai replikoitu pakkaamisen tai muotomuunnoksen avulla.

Tiivistys – tietojen jälkikäsittely, joka poistetaan tietueiden kaikkien kenttien tai avainkenttien perusteella, leikataan tiedot siten, että säilytetään vain yksi tietue, jossa on viimeisin aikaleima samalla avaimella.
Avro ORC:ksi – erikoistunut muotojen muunnosmekanismi, jolla muunnetaan suosittu rivipohjainen Avro-muoto hyperoptimoituun sarakepohjaiseen ORC-muotoon.

Tietojenhallinnan skaalaus Apache Gobblinin kautta
Kuva tekijältä

Yksinkertaista arkkitehtuuria

Riippuen yrityksen vaiheesta (käynnistä yritykseen), mittakaavavaatimuksista ja niiden arkkitehtuurista, yritykset haluavat perustaa tai kehittää tietoinfrastruktuuriaan. Apache Gobblin on erittäin joustava ja tukee useita suoritusmalleja.

Itsenäinen tila – toimii erillisenä prosessina paljaalla metallilaatikolla, eli yhdellä isännällä yksinkertaisiin käyttötapauksiin ja vähän vaativiin tilanteisiin.
MapReduce-tila – Suoritetaan MapReduce-työnä Hadoop-infrastruktuurissa suuria datatapauksia varten, jotta voidaan käsitellä petatavun mittakaavassa olevia tietojoukkoja.
Klusteritila: Itsenäinen – toimii Apache Helixin ja Apache Zookeeperin tukemana klusterina paljasmetallikoneilla tai isännillä suuren mittakaavan käsittelyä varten Hadoop MR -kehyksestä riippumatta.
Klusteritila: Lanka – ajaa klusterina natiivilangalla ilman Hadoop MR -kehystä.
Cluster Mode: AWS – toimii klusterina Amazonin julkisessa pilvipalvelussa, esim. AWS AWS:ssä isännöidyille infrastruktuureille.

Tietojenhallinnan skaalaus Apache Gobblinin kautta
Kuva tekijältä

Käsittele tietoja asteittain

Merkittävässä mittakaavassa, jossa on useita dataputkia ja suuri määrä, tiedot on käsiteltävä erissä ja ajan mittaan. Siksi se vaatii tarkistuspisteen, jotta dataputket voivat jatkaa siitä, mihin ne viime kerralla jäivät, ja jatkaa siitä eteenpäin. Apache Gobblin tukee alhaisia ja korkeita vesileimoja ja tukee vankkaa tilanhallinnan semantiikkaa State Storen kautta HDFS:ssä, AWS S3:ssa, MySQL:ssä ja avoimemmin.

Tietojenhallinnan skaalaus Apache Gobblinin kautta
Kuva tekijältä

Samat käytännöt erä- ja suoratoistotiedoissa

Useimmat dataliukuhihnat on nykyään kirjoitettava kahdesti, kerran erädataa varten ja uudelleen lähes riviä tai suoratoistodataa varten. Se kaksinkertaistaa vaivan ja aiheuttaa epäjohdonmukaisuuksia erityyppisiin putkiin sovellettuihin käytäntöihin ja algoritmeihin. Apache Gobblin ratkaisee tämän antamalla käyttäjien luoda liukuhihnan kerran ja suorittaa sen sekä erä- että suoratoistotiedoissa, jos sitä käytetään Gobblin Cluster -tilassa, Gobblin AWS -tilassa tai Gobblin on lankatilassa.

Siirrä On-premin ja Cloudin välillä

Monipuolisten tilojensa ansiosta, jotka voivat toimia on-prem-tilassa yhdessä laatikossa, solmuklusterissa tai pilvessä – Apache Gobblin voidaan ottaa käyttöön ja käyttää sekä paikan päällä että pilvessä. Tämän vuoksi käyttäjät voivat kirjoittaa dataputkistonsa kerran ja siirtää ne yhdessä Gobblin-asennusten kanssa helposti on-prem- ja pilvipalveluiden välillä erityistarpeiden perusteella.

Erittäin joustavan arkkitehtuurinsa, tehokkaiden ominaisuuksiensa ja äärimmäisen laajamittaisten tietomäärien ansiosta, joita se voi tukea ja käsitellä, Apache Gobblinia käytetään tuotantoinfrastruktuurissa. suuria teknologiayrityksiä ja se on välttämätön nykypäivän big data-infrastruktuurin käyttöönotossa.

Lisätietoja Apache Gobblinista ja sen käytöstä löytyy osoitteesta https://gobblin.apache.org

Abhishek Tiwari on Senior Manager LinkedInissä ja johtaa yrityksen Big Data Pipelines -organisaatiota. Hän on myös Apache Software Foundationin Apache Gobblinin varapuheenjohtaja ja British Computer Societyn jäsen.

Lisää tästä aiheesta

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. Pääsy tästä.
Lähde: https://www.kdnuggets.com/2023/01/scaling-data-management-apache-gobblin.html?utm_source=rss&utm_medium=rss&utm_campaign=scaling-data-management-through-apache-gobblin

Aikaleima: Tammikuu 20, 2023

Aikaleima: Mar 8, 2023

Triljoonan parametrin ja GPT-3: n ylittäminen kytkinmuuntajilla-polku AGI: hen?

Lähde klusteri:

KDnuggets

Lähdesolmu: 1106142

Aikaleima: Lokakuu 1, 2021

Multimodaalisten mallien rakentaminen: Wideeep Pytorch -paketin käyttö

Lähde klusteri:

KDnuggets

Lähdesolmu: 1181295

Aikaleima: Lokakuu 13, 2021

Tietojenhallinnan skaalaus Apache Gobblinin kautta

Julkaissut Platon

Tietojen koko elinkaaren hallinta

Optimoi tallennustila

Yksinkertaista arkkitehtuuria

Käsittele tietoja asteittain

Samat käytännöt erä- ja suoratoistotiedoissa

Siirrä On-premin ja Cloudin välillä

Lisää tästä aiheesta

Lisää aiheesta KDnuggets

Phi-2: Pienet LM:t, jotka tekevät suuria asioita – KDnuggets

Edistä uraasi kolmanneksi parhaalla datatieteen maisteriohjelmalla – KDnuggets

Kuinka pilvilaskenta parantaa tietotieteen työnkulkuja – KDnuggets

Hallitse Data Analyticsin teho: neljä lähestymistapaa tietojen analysointiin

Triljoonan parametrin ja GPT-3: n ylittäminen kytkinmuuntajilla-polku AGI: hen?

Multimodaalisten mallien rakentaminen: Wideeep Pytorch -paketin käyttö

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili