Rakendage Terraformiga moodne andmevirn 5 minutiga
Mis on kaasaegne andmevirn ja kuidas seda juurutada? See juhend motiveerib teid seda teekonda alustama Airbyte'i, BigQuery, dbt, Metabase ja kõige muu Terraformi kasutamiseks vajaliku seadistusjuhistega.
By Tuan Nguyen, Joon Solutionsi tehnoloogiadirektor ja juhatuse liige.
Kaasaegne andmevirna arhitektuur (pilt autorilt).
Mis on kaasaegne andmevirn
Modern Data Stack (MDS) on tehnoloogiate virn, mis muudab kaasaegse andmelao 10–10,000 XNUMX korda parema töövõime kui pärandandmelao. Lõppkokkuvõttes säästab MDS aega, raha ja vaeva. MDS-i neli sammast on a andmesideühenduson pilvandmete laduon andmetrafoJa BI ja andmete uurimine vahend.
lihtne integratsioon on võimalik tänu hallatavatele ja avatud lähtekoodiga tööriistadele, mis on eelnevalt koostanud sadu kasutusvalmis pistikuid. Selle, mille korrapäraseks loomiseks ja hooldamiseks kulus andmeinseneride meeskonnal, saab nüüd asendada lihtsate kasutusjuhtude jaoks mõeldud tööriistaga. Hallatud lahendused nagu õmblema ja Fivetran, koos avatud lähtekoodiga lahendustega nagu Airbyte ja Meltano, teevad selle teoks.
Kasutades pilvepõhine veergude andmeladu on oma suure jõudluse ja kulutõhususe tõttu viimasel ajal olnud trend. Selle asemel, et maksta 100 100 dollarit aastas kohapealse MPP (massiivselt paralleeltöötluse) andmebaasi eest, võite hakata maksma alates 10 dollarist (või vähem) kuus. Pilvepõhised andmelaod on väidetavalt 10,000–XNUMX XNUMX korda kiiremad kui traditsiooniline OLTP. Selle kategooria populaarsed valikud on suur päring, Lumehelvesja Redshift.
Vanasti oli tehnoloogia piirangute tõttu kitsaskohaks andmete töötlemine andmelaos. Sellest tulenevalt pidid ettevõtted andmelao koormuse vähendamiseks eelistama ELT-i asemel ETL-i. Pilvepõhiste andmeladude edenedes on aga paljud andmelaosisesed teisendustööriistad muutuvad populaarseks. Selles kategoorias on kõige tähelepanuväärsemad dbt (andmete koostamise tööriist) ja Dataform.
BI tööriistad kasutatakse mõningate teisenduste eest, et vähendada töökoormust ka pärandandmeladudele. Kuid tänapäevase andmevirnaga on BI-tööriistade fookus (minu arvates) nihkunud andmetele juurdepääsu, iseteeninduse ja andmete avastamise demokratiseerimisele. Mõned tööriistad, mis minu arvates liiguvad õiges suunas, on Pealtvaataja, Metabaasja Superset.
Meie arhitektuur
Kaasaegse andmevirnaga alustamine võib olla hirmuäratav, kuna kaasatud on palju erinevaid tööriistu ja protsesse. Selle artikli eesmärk on aidata teil seda teekonda võimalikult sujuvalt alustada. Ettevalmistusetappe on palju, kuid see võtab ainult viis minutit et kõik ressursid, kui olete lõpetanud.
Me kasutame Terraform, infrastruktuurina koodina avatud avatud lähtekoodiga tööriist, mis pakub kõike Google Cloudis. Kui järgite allolevaid juhiseid, siis siin on ressursid, mis luuakse.
- Google'i pilveprojekt, kus on lubatud vajalik API
- Allaneelamine: GCE eksemplar, milles töötab Airbyte
- Ladustamine: BigQuery andmestikud
- Orkestreerimine (valikuline): GCE eksemplar, milles töötab Airflow
- BI ja andmete avastamine: metabaasi käitav GCE eksemplar
- Teenuskontod erinevatele teenustele ja nende IAM-i lubade sidumised
Alustamine
Looge Google Cloudi konto ja lubage arveldamine
Selle projekti Terraformi kood suhtleb Google'i pilveplatvormiga. Seetõttu on meie esimene samm Google'i konto loomine ja lubada arveldamine. Pange tähele arvelduse ID järgmises vormingus arvelduslehel: ######-######-######. Seda väärtust vajate järgmises etapis.
Installige Google Cloud CLI
Installige Google Cloud SDK, järgides juhiseid siin teie vastava OS-i jaoks. Pärast seda, kui teil on gpilv Installitud CLI, käivitage terminaliaknas järgmine käsk ja järgige juhiseid. See võimaldab Terraformil kasutada autentimiseks vaikimisi mandaati.
gcloud auth rakenduse vaikimisi sisselogimine
Paigaldage terraform
Järgi juhiseid siin Terraformi CLI kohalikuks installimiseks. Installimise kontrollimiseks käivitage hiljem järgmine käsk:
terraform -v
Peaksite nägema midagi sellist:
Terraform v1.0.0 saidil darwin_amd64 + pakkuja registry.terraform.io/hashicorp/google v3.71.0
Kahveldage või kloonige see repo kohapeal
Võite kahvel see repo oma kontole või kloonige see oma kohalikku masinasse. Repo kloonimiseks käivitage järgmine:
git kloon https://github.com/tuanchris/modern-data-stack cd modern-data-stack
Loo terraform.tfvars fail
Loo terraform.tfvars järgmise sisuga fail:
# Esimese sammu arvelduse ID billing_id = ######-######-###### # Kausta ID, kuhu soovite oma projekti paigutada # Jätke see tühjaks, kui kasutate isiklik konto folder_id = "" # Organisatsiooni ID, kuhu soovite oma projekti paigutada # Jätke see tühjaks, kui kasutate isiklikku kontot. org_id = "" # Projekt projekti_id = "" loomiseks
Hoiatus: neid peetakse tundlikeks väärtusteks. Ärge siduge seda faili ja *.tfstate failid avalikku reposse.
Kohandage väärtusi muutujad.tf
Muutujad sees muutujad.tf kasutatakse ressursside konfigureerimiseks.
Pilt autorilt.
Muutujaid muutes saate kohandada masina tüüpi erinevate teenuste jaoks. Kui te ei soovi ühtegi teenust kasutada, kommenteerige seda jaotises gce.tf faili.
Samuti saate oma lähtesüsteemide jaoks luua erinevaid andmekogumeid, lisades need allikate andmekogumite sõnastikku.
Looge kaasaegne andmevirn
Lõpuks, et varustada kõiki neid ressursse Google Cloudis, käivitage järgmine käsk:
rakendada terravormi
Pilt autorilt.
Uurige terminali väljundit ja veenduge, et kõik ressursiseaded on sellised, nagu soovite. Tüüp jah ja tabas sisestama.
Terraform loob meie kaasaegse andmevirnaga Google Cloudi projekti. Kogu protsess võtab aega umbes 2–3 minutit. Teenuste installimine VM-i eksemplaridele võtab veel 2–3 minutit. Kogu protsess võtab vaid 5 minutit või vähem.
Kaasaegse andmevirna kasutamine
Hankige erinevate teenuste teenusekontod
Pilt autorilt.
Google soovitab erinevate teenuste jaoks kasutada erinevat teenusekontot. Projekti terraformi kood on loonud erinevad kontod erinevatele juba kasutatud tehnoloogiatele. Konkreetse teenuse teenusekonto hankimiseks käivitage järgmine käsk:
terraformi väljund [teenuse_nimi]_sa_võti
Kõigi nende kontode vaikeluba on roles/bigquery.admin. Saate seda kohandada jaotises iam.tf faili.
Tagastatud väärtus on base64 kodeeritud. Selle väärtuse taastamiseks JSON-vormingusse käivitage järgmine käsk:
kaja "[väärtus eelmisest käsust]" | alus64 -d
Saate kasutada JSON-i teenusekontot, et autentida teenusele juurdepääs oma projekti ressurssidele.
Hoiatus: igaüks, kellel on see teenusekonto, pääseb teie projektile juurde.
Sisestage andmed Airbyte'iga
Airbyte on suurepärane avatud lähtekoodiga andmete integreerimise tööriist. Airbyte'i kasutajaliidesele pääsemiseks hankige esmalt käsk gcloud SSH.
Pilt autorilt.
Saate sarnase käsu:
gcloud beeta compute ssh --tsoon "asia-southeast1-a" "tf-airbyte-demo-airbyte" --projekt "tf-airbyte-demo"
Järgmisena lisage Airbyte'i kasutajaliidese kohalikuks edasisaatmiseks käsule järgmine:
-- -L 8000:localhost:8000 -L 8001:localhost:8001 -N -f
Teie viimane käsk näeb välja selline:
gcloud beeta compute ssh --tsoon "asia-southeast1-a" "tf-airbyte-demo-airbyte" --projekt "tf-airbyte-demo" -- -L 8000:localhost:8000 -L 8001:localhost:8001 - N-f
Märge: Pärast GCP kasutajaliidesest kopeerimist kustutage kindlasti reavahetus.
Kui Airbyte'i eksemplar on käivitamise lõpetanud, pääsete sellele juurde, minnes oma brauserisse ja külastades localhost: 8000. Kui ei, siis oodake viis minutit, kuni eksemplar installimise lõpetab.
Pilt autorilt.
Nüüd saate integreerida oma allikad ja lisada BigQuery sihtkoha kasutades airbyte_sa_keyja saate oma andmed BigQuerys kiiresti kätte.
Airbyte'i installile pääsete juurde aadressil /airbyte/ VM-i sees.
Mudeliandmed koos dbt-ga
dbt (andmete koostamise tööriist) on võimas avatud lähtekoodiga andmete teisendamise tööriist, mis kasutab SQL-i. See võimaldab andmeanalüütikutel teha varem andmeinseneridele reserveeritud tööd. Samuti aitab see luua täiesti uue ametikoha nimega Analytics Engineer, mis on andmeanalüütiku ja andmeinseneri hübriid. Lähemalt saab positsiooni kohta lugeda minu blogist siin.
Pilt autorilt.
Erinevalt Airbyte'ist, Airflow'st ja Metabase'ist ei vaja te dbt käitamiseks serverit. Saate registreerida tasuta (igaveseks) 1-kohalise konto, külastades nende veebisaiti veebisait.
Orkestreerige töövoogu Airflow abil
Õhuvool on Airbnb loodud töövoo juhtimise tööriist, mis on lahingutes tõestatud. Loodetavasti ei pea te kaasaegse andmevirnaga Airflow palju kasutama. Kuid mõnel juhul, kui on vaja kohandamist, võib Airflow olla teie tööriist.
Kasutajaliidesele juurdepääsemiseks hankige Airbyte'iga ülaltoodud jaotisega sarnane SSH-käsk. Kasutage pordi edastamiseks järgmist käsku:
gcloud beeta compute ssh --tsoon "asia-southeast1-a" "tf-airbyte-demo-airflow" --projekt "tf-airbyte-demo" -- -L 8080:localhost:8080 -N -f
Nüüd pääsete juurde Airflow installile aadressil localhost: 8080. Vaikimisi kasutajanimi ja parool on admin ja admin.
Pilt autorilt.
Õhuvoolu paigaldusele pääsete juurde aadressil /õhuvool/ VM-i sees.
Visualiseerige andmeid metabaasi abil
Metabaas on avatud lähtekoodiga andmete visualiseerimise ja avastamise tööriist. See on ülimalt kasutajasõbralik ja sellega alustamine on lihtne.
Metabaasi kasutajaliidesele juurdepääsemiseks hankige Airbyte'iga ülaltoodud jaotisega sarnane SSH-käsk. Seejärel kasutage pordi edastamiseks järgmist käsku:
gcloud beeta compute ssh --tsoon "asia-southeast1-a" "tf-airbyte-demo-metabase" --projekt "tf-airbyte-demo" -- -L 3000:localhost:3000 -N -f
Pilt autorilt.
Koristage
Soovimatute kulude vältimiseks puhastage kindlasti selle projekti käigus loodud ressursid käivitamise teel.
terraform hävitada
Hoiatus: See kustutab projektis kõik säilinud andmed ja ressursid. Teise võimalusena saate kulude kokkuhoiuks välja lülitada kasutamata GCE.
Originaal. Loaga uuesti postitatud.
Bio: Tuan Nguyen on andmete kui teenuse osutaja ettevõtte Joon Solutions CTO. Tema töökogemused on seotud andmeteaduse meeskondade loomise ja haldamisega, analüütika infrastruktuuriga ja analüütika kasutusjuhtumitega. Talle meeldib ühendada oma kirg andmeanalüütika ja pilvandmetöötluse vastu, et aidata ettevõtetel praegusel digiajastul konkurentsis püsida. Tal on lai valik huvisid, sealhulgas astronoomia, lugemine, muusika ja asjade internet.
Seotud:
Viimase 30 päeva populaarseimad lood | |||||
---|---|---|---|---|---|
|
|
Allikas: https://www.kdnuggets.com/2021/08/bootstrap-modern-data-stack-terraform.html
- "
- &
- juurdepääs
- konto
- Täiendavad lisad
- Airbnb
- Materjal: BPA ja flataatide vaba plastik
- analüütik
- analytics
- Apache
- API
- arhitektuur
- ümber
- artikkel
- astronoomia
- Autentimine
- auto
- beeta
- suur päring
- arvete
- Blogi
- juhatus
- juhatuse liige
- piir
- brauseri
- ehitama
- Ehitus
- ettevõtted
- mis
- juhtudel
- Cloud
- cloud computing
- Pilveplatvorm
- kood
- Ettevõtted
- ettevõte
- Arvutama
- arvutustehnika
- sisu
- kulud
- loomine
- CTO
- andmed
- juurdepääs andmetele
- Andmete analüüs
- andmete integreerimine
- andmeteadus
- andmete visualiseerimine
- andmekogus
- andmelaod
- andmebaas
- päev
- sügav õpe
- hävitama
- digitaalne
- Juhataja
- avastus
- insener
- Inseneride
- Kogemused
- esimene
- Keskenduma
- järgima
- formaat
- tasuta
- Kuldne
- Google Cloud
- GPU
- suunata
- siin
- Suur
- Kuidas
- HTTPS
- sajad
- hübriid
- IAM
- pilt
- Kaasa arvatud
- Infrastruktuur
- integratsioon
- seotud
- asjade Interneti
- IT
- Õppida
- õppimine
- kohalik
- kohapeal
- masinõpe
- Tegemine
- keskmine
- ML
- raha
- muusika
- Internetis
- avatud
- avatud lähtekoodiga
- Arvamus
- Valikud
- Parool
- jõudlus
- inimesele
- populaarne
- projekt
- avalik
- valik
- Lugemine
- vähendama
- ressurss
- Vahendid
- jooks
- jooksmine
- teadus
- teadlased
- SDK
- Iseteenindus
- Teenused
- lihtne
- Lahendused
- Spin
- SQL
- algus
- alustatud
- jääma
- Lood
- süsteemid
- Tehnoloogiad
- aeg
- ülemine
- Transformation
- transformeerivate
- ui
- väärtus
- visualiseerimine
- ootama
- Ladu
- Mis on
- Töö
- töövoog
- X
- aasta