Käynnistä moderni datapino 5 minuutissa Terraformilla
Mikä on moderni datapino ja miten otat sen käyttöön? Tämä opas motivoi sinua aloittamaan tämän matkan asennusohjeilla Airbyte, BigQuery, dbt, Metabase ja kaikki muu mitä tarvitset Terraformin avulla.
By Tuan Nguyen, Johtaja, Joon Solutions.
Moderni datapinoarkkitehtuuri (tekijän kuva).
Mikä on moderni datapino
Modern Data Stack (MDS) on pino tekniikoita, jotka tekevät modernista tietovarastosta 10–10,000 XNUMX kertaa paremman kuin vanha tietovarasto. Viime kädessä MDS säästää aikaa, rahaa ja vaivaa. MDS: n neljä pilaria ovat a dataliitin, The pilvitietovarasto, The datamuuntaja, Ja BI & tietojen etsintä työkalu.
Helppo integraatio on mahdollista hallituilla ja avoimen lähdekoodin työkaluilla, jotka rakentavat valmiiksi satoja käyttövalmiita liittimiä. Se, mitä aiemmin tarvittiin tietotekniikan tiimin rakentamiseen ja ylläpitoon säännöllisesti, voidaan nyt korvata työkalulla yksinkertaisia käyttötapauksia varten. Hallitut ratkaisut, kuten ommel ja Fivetran, yhdessä avoimen lähdekoodin ratkaisujen kanssa Airbyte ja Meltano, saavat tämän tapahtumaan.
Käyttäen pilvipohjainen pylväsdatavarasto on ollut trendi viime aikoina korkean suorituskyvyn ja kustannustehokkuuden vuoksi. Sen sijaan, että maksat 100 100 dollaria vuodessa paikallisesta MPP-tietokannasta (massiivisesti rinnakkaiskäsittely), voit alkaa maksaa 10 dollarista (tai vähemmän) kuukaudessa. Pilviperäisten tietovarastojen sanotaan olevan 10,000–XNUMX XNUMX kertaa nopeampi kuin perinteinen OLTP. Suosittuja vaihtoehtoja tässä kategoriassa ovat BigQueryn, Lumihiutaleja Redshift.
Ennen vanhaan tietojen käsittely tietovaraston sisällä oli pullonkaula tekniikan rajoitusten vuoksi. Tämän seurauksena yritysten täytyi suosia ETL: ää ELT: n sijaan tietovaraston työmäärän vähentämiseksi. Pilviperäisten tietovarastojen kehittymisen myötä monet kuitenkin tietovaraston muunnostyökalut ovat tulossa suosittuja. Merkittävimpiä tässä luokassa ovat dbt (tiedonmuodostustyökalu) ja Dataform.
BI-työkalut käytetään huolehtimaan joistakin muunnoksista, jotka vähentävät myös vanhojen tietovarastojen työtaakkaa. Nykyaikaisen datapinon myötä BI-työkalujen painopiste on kuitenkin (mielestäni) siirtynyt tietojen käytön, itsepalvelun ja tiedon löytämisen demokratisoimiseksi. Jotkut työkalut ovat mielestäni menossa oikeaan suuntaan looker, -metakannassaja pääjoukko.
Meidän arkkitehtuurimme
Modern Data Stackin käytön aloittaminen voi olla pelottavaa, koska siihen liittyy monia erilaisia työkaluja ja prosesseja. Tämän artikkelin tarkoituksena on auttaa sinua aloittamaan tämä matka mahdollisimman saumattomasti. Valmisteluvaiheita on monia, mutta se kestää vain viisi minuuttia kerätä kaikki resurssit, kun olet valmis.
Me käytämme terraform, infrastruktuurin koodina toimiva avoimen lähdekoodin työkalu kaiken Google Cloudin tarjoamiseen. Jos noudatat alla olevia ohjeita, tässä luodut resurssit.
- Google Cloud -projekti, jossa tarvittava sovellusliittymä on käytössä
- Nieleminen: GCE -ilmentymä, jossa on Airbyte
- Varastointi: BigQuery -tietojoukot
- Orkestrointi (valinnainen): GCE -ilmentymä, jossa on Airflow
- BI & tietojen etsintä: Metabasea käyttävä GCE -ilmentymä
- Palvelutilit eri palveluille ja niiden IAM -käyttöoikeussidokset
Aloita
Luo Google Cloud -tili ja ota laskutus käyttöön
Tämän projektin Terraform -koodi on vuorovaikutuksessa Google Cloud Platformin kanssa. Siksi ensimmäinen askel on luoda Google -tili ja ota laskutus käyttöön. Huomaa laskutustunnus seuraavassa muodossa Laskutus -sivulla: ######-######-######. Tarvitset tämän arvon seuraavassa vaiheessa.
Asenna Google Cloud CLI
Asenna Google Cloud SDK noudattamalla ohjeita tätä omaa käyttöjärjestelmääsi varten. Kun sinulla on gpilvi CLI asennettu, suorita seuraava komento pääteikkunassa ja noudata ohjeita. Tämä antaa Terraformille oletustunnuksen todennukseen.
gcloud auth-sovelluksen oletus kirjautuminen
Asenna terraform
Noudattaa ohjeita tätä asentaaksesi Terraform CLI: n paikallisesti. Tarkista asennus myöhemmin suorittamalla seuraava komento:
terraform -v
Sinun pitäisi nähdä jotain tällaista:
Terraform v1.0.0 darwin_amd64 + -palveluntarjoajan rekisterissä.terraform.io/hashicorp/google v3.71.0
Haaraudu tai kloonaa tämä repo paikallisesti
Sinä pystyt haarukkaa tämä repo tilillesi tai kloonata se paikalliselle koneellesi. Voit kloonata repon suorittamalla seuraavan:
git-klooni https://github.com/tuanchris/modern-data-stack cd modern-data-stack
Luo terraform.tfvars tiedosto
Luo terraform.tfvars tiedosto, jolla on seuraava sisältö:
#Laskutustunnus ensimmäisestä vaiheesta billing_id = ######-######-#######Projektisi kansion tunnus kohdassa#Jätä tämä tyhjäksi, jos käytät a personal account folder_id = "" # Organisaation tunnus, jossa haluat projektisi olevan alle # Jätä tämä tyhjäksi, jos käytät henkilökohtaista tiliä org_id = "" # Projekti projektin_id = "" luomiseksi
varoitus: Näitä arvoja pidetään arkaluontoisina. Älä tee tätä tiedostoa ja *.valtio tiedostot julkiselle repolle.
Muokkaa arvoja muuttujat. tf
Muuttujat sisään muuttujat. tf käytetään resurssien kokoonpanoissa.
Kuva tekijältä.
Voit muokata konetyyppiä eri palveluille muuttamalla muuttujia. Jos et halua käyttää mitään palvelua, kommentoi sitä gce.tf tiedosto.
Voit myös luoda erilaisia tietojoukkoja lähdejärjestelmiisi lisäämällä ne lähteiden tietojoukkojen sanakirjaan.
Luo moderni datapino
Lopuksi voit järjestää kaikki nämä resurssit Google Cloudiin suorittamalla seuraavan komennon:
terraformia sovelletaan
Kuva tekijältä.
Tutki päätelaitteen lähtöä varmistaaksesi, että kaikki resurssiasetukset ovat haluamasi. Tyyppi Joo ja osuma astua.
Terraform luo Google Cloud -projektin nykyaikaisella datapinollamme. Koko prosessi kestää noin 2-3 minuuttia. Palvelujen asentaminen VM -instansseihin kestää vielä 2–3 minuuttia. Koko prosessi kestää vain 5 minuuttia tai vähemmän.
Nykyaikaisen datapinon käyttäminen
Hae palvelutilit eri palveluille
Kuva tekijältä.
Google suosittelee eri palvelutilin käyttämistä eri palveluissa. Projektin terraform -koodi on luonut eri tilit jo käytetyille eri tekniikoille. Voit hakea tietyn palvelun palvelutilin suorittamalla seuraavan komennon:
terraform -lähtö [palvelun_nimi] _sa_avain
Kaikkien näiden tilien oletusoikeus on roolit/bigquery.admin. Voit muokata tätä kohdassa iam.tf tiedosto.
Palauttamasi arvo on base64 -koodattu. Jos haluat muuttaa tämän arvon takaisin JSON -muotoon, suorita seuraava komento:
echo "[edellisen komennon arvo]" | base64 -d
Voit käyttää JSON -palvelutiliä todentamaan palvelun käyttöoikeuden projektisi resursseihin.
varoitus: Kaikki, joilla on tämä palvelutili, voivat käyttää projektiasi.
Syötä tietoja Airbytellä
Airbyte on erinomainen avoimen lähdekoodin tietojen integrointityökalu. Päästäksesi Airbyte -käyttöliittymään, hanki ensin gcloud SSH -komento.
Kuva tekijältä.
Saat samanlaisen komennon:
gcloud beta compute ssh-vyöhyke "asia-southheast1-a" "tf-airbyte-demo-airbyte" --project "tf-airbyte-demo"
Lisää seuraavaksi komentoon Airbyte-käyttöliittymän siirtäminen paikallisesti:
--L 8000: paikallinen isäntä: 8000 -L 8001: paikallinen isäntä: 8001 -N -f
Viimeinen komento näyttää tältä:
gcloud beta compute ssh-vyöhyke "asia-southheast1-a" "tf-airbyte-demo-airbyte" --projekti "tf-airbyte-demo"--L 8000: localhost: 8000 -L 8001: localhost: 8001- N -f
Huomautus: Muista poistaa uuden rivin merkki sen jälkeen, kun olet kopioinut GCP -käyttöliittymästä.
Jos Airbyte -ilmentymä on käynnistynyt, voit käyttää sitä siirtymällä selaimeesi ja siirtymällä osoitteeseen localhost: 8000. Jos ei, odota viisi minuuttia, kunnes ilmentymä suorittaa asennuksen loppuun.
Kuva tekijältä.
Nyt voit integroida lähteesi ja lisätä BigQuery -kohteen käyttämällä airbyte_sa_keyja saat tietosi BigQueryyn nopeasti.
Voit käyttää Airbyte -asennusta osoitteessa /airbyte/ VM: n sisällä.
Mallitiedot dbt: llä
DBT (tietojen koontityökalu) on tehokas avoimen lähdekoodin tietojen muuntamistyökalu, joka käyttää SQL: ää. Sen avulla data -analyytikot voivat tehdä aikaisemmin tietoinsinööreille varattuja töitä. Se auttaa myös luomaan täysin uuden tehtävän nimeltä Analytics Engineer, joka on data -analyytikon ja data -insinöörin yhdistelmä. Voit lukea lisää positiosta blogistani tätä.
Kuva tekijältä.
Toisin kuin Airbyte, Airflow ja Metabase, et tarvitse palvelinta dbt: n suorittamiseen. Voit rekisteröityä ilmaiseen (ikuisesti) 1-paikkaiselle tilille käymällä heidän tilillään verkkosivusto.
Järjestä työnkulku Airflow -toiminnolla
Ilmavirta on Airbnb: n luoma taistelutestattu työnkulun hallintatyökalu. Nykyaikaisella datapinolla toivottavasti sinun ei tarvitse käyttää Airflowa paljon. Joissakin tapauksissa, joissa tarvitaan mukauttamista, Airflow voi kuitenkin olla apuvälineesi.
Jos haluat käyttää käyttöliittymää, hanki SSH -komento, joka on samanlainen kuin yllä oleva osa Airbyten kanssa. Käytä seuraavaa komentoa portin eteenpäin välittämiseen:
gcloud beta compute ssh-vyöhyke "asia-southheast1-a" "tf-airbyte-demo-airflow" --projekti "tf-airbyte-demo"--L 8080: localhost: 8080 -N -f
Nyt voit käyttää Airflow -asennusta osoitteessa localhost: 8080. Oletuskäyttäjätunnus ja salasana ovat admin ja admin.
Kuva tekijältä.
Voit käyttää ilmavirran asennusta osoitteessa /ilmavirta/ VM: n sisällä.
Visualisoi tiedot Metabasen avulla
-metakannassa on avoimen lähdekoodin tietojen visualisointi- ja etsintätyökalu. Se on erittäin käyttäjäystävällinen ja helppo aloittaa.
Pääset Metabase -käyttöliittymään hankkimalla SSH -komennon, joka on samanlainen kuin yllä oleva osa Airbyten kanssa. Käytä sitten seuraavaa komentoa portin eteenpäin välittämiseen:
gcloud beta compute ssh-vyöhyke "asia-southheast1-a" "tf-airbyte-demo-metabase" --project "tf-airbyte-demo"--L 3000: localhost: 3000 -N -f
Kuva tekijältä.
Puhdistaa
Välttääksesi ei -toivotut kustannukset, muista puhdistaa projektissa luodut resurssit suorittamalla.
terraform tuhoa
Varoitus: Tämä poistaa kaikki projektissa olevat tiedot ja resurssit. Vaihtoehtoisesti voit sammuttaa käyttämättömän GCE: n, mikä säästää myös kustannuksia.
Alkuperäinen. Postitettu luvalla.
Bio: Tuan Nguyen on Joona, Data as a Service -yrityksen johtaja. Hänen ammattikokemuksensa perustuvat tietojenkäsittelytiimien rakentamiseen ja hallintaan, analytiikan infrastruktuuriin ja analytiikan käyttötapauksiin. Hän rakastaa yhdistää intohimonsa data-analytiikkaan ja pilvipalveluihin auttaakseen yrityksiä pysymään kilpailukykyisinä digitaaliaikana. Hänellä on laaja valikoima kiinnostuksen kohteita, kuten tähtitiede, lukeminen, musiikki ja esineiden internet.
Related:
Suosituimmat tarinat viimeisen 30 päivän aikana | |||||
---|---|---|---|---|---|
|
|
Lähde: https://www.kdnuggets.com/2021/08/bootstrap-modern-data-stack-terraform.html
- "
- &
- pääsy
- Tili
- lisä-
- Airbnb
- Kaikki
- analyytikko
- Analytics
- Apache
- api
- arkkitehtuuri
- noin
- artikkeli
- tähtitiede
- Authentication
- auto
- beeta
- BigQueryn
- laskutus
- Uutiset ja media
- hallitus
- hallituksen jäsen
- reunus
- selain
- rakentaa
- Rakentaminen
- yritykset
- joka
- tapauksissa
- pilvi
- cloud computing
- Pilvialusta
- koodi
- Yritykset
- yritys
- Laskea
- tietojenkäsittely
- pitoisuus
- kustannukset
- Luominen
- CTO
- tiedot
- tietojen käyttö
- Data Analytics
- datan integraatio
- tietojenkäsittely
- datan visualisointi
- tietovarasto
- tietovarastot
- tietokanta
- päivä
- syvä oppiminen
- tuhota
- digitaalinen
- Johtaja
- löytö
- insinööri
- Engineers
- Elämykset
- Etunimi
- Keskittää
- seurata
- muoto
- Ilmainen
- Kulta
- Google Cloud
- GPU
- ohjaavat
- tätä
- Korkea
- Miten
- HTTPS
- Sadat
- Hybridi
- IAM
- kuva
- Mukaan lukien
- Infrastruktuuri
- integraatio
- osallistuva
- Esineiden internet
- IT
- OPPIA
- oppiminen
- paikallinen
- paikallisesti
- koneoppiminen
- Tekeminen
- keskikokoinen
- ML
- raha
- Musiikki
- verkossa
- avata
- avoimen lähdekoodin
- Lausunto
- Vaihtoehdot
- Salasana
- suorituskyky
- foorumi
- Suosittu
- projekti
- julkinen
- alue
- Lukeminen
- vähentää
- resurssi
- Esittelymateriaalit
- ajaa
- juoksu
- tiede
- tutkijat
- sdk
- Itsepalvelu
- Palvelut
- Yksinkertainen
- Ratkaisumme
- Kierre
- SQL
- Alkaa
- alkoi
- pysyä
- tarinat
- järjestelmät
- Technologies
- aika
- ylin
- Muutos
- muuttamassa
- ui
- arvo
- visualisointi
- odottaa
- Varasto
- Mikä on
- Referenssit
- työnkulku
- X
- vuosi