Bootstrap egy Modern Data Stack 5 perc alatt Terraform
Mi az a Modern Data Stack, és hogyan telepítheti? Ez az útmutató az Airbyte, a BigQuery, a dbt, a Metabase és minden egyéb beállítási utasításaival motiválja, hogy elinduljon ezen az úton.
By Tuan Nguyen, műszaki igazgató és igazgatósági tag a Joon Solutions-nál.
Modern Data Stack architektúra (a szerző képe).
Mi az a modern adathalom
A Modern Data Stack (MDS) olyan technológiai halom, amellyel egy modern adattárház 10–10,000 XNUMX-szer jobban teljesít, mint egy régi adattárház. Végső soron az MDS időt, pénzt és erőfeszítést takarít meg. Az MDS négy pillére a adatcsatlakozóEgy felhő adattárházEgy adattranszformátor, És egy BI és adatfeltárás eszköz.
könnyű integráció olyan felügyelt és nyílt forráskódú eszközök teszik lehetővé, amelyek több száz, használatra kész csatlakozót építenek előre. Amit korábban egy adatmérnökökből álló csapat kellett a rendszeres felépítéshez és karbantartáshoz, most lecserélhető egy egyszerű használati esetekre alkalmas eszközzel. Menedzselt megoldások, mint pl Öltés és a Fivetran, valamint nyílt forráskódú megoldásokkal, mint pl Airbyte és a Meltano, teszik ezt meg.
Egy felhő alapú oszlopos adattárház nagy teljesítménye és költséghatékonysága miatt az utóbbi időben a trend. Ahelyett, hogy évi 100 100 dollárt fizetne egy helyszíni MPP (masszívan párhuzamos feldolgozás) adatbázisért, elkezdhet fizetni havi 10 dollártól (vagy kevesebbtől). A felhőalapú adattárházak állítólag 10,000-XNUMX XNUMX-szer gyorsabbak, mint a hagyományos OLTP. Ebben a kategóriában a legnépszerűbb opciók BigQuery, Hópehelyés vöröseltolódás.
Régen az adattárházon belüli adatok feldolgozása jelentette a szűk keresztmetszetet a technológia korlátai miatt. Ennek eredményeként a vállalatoknak az ELT helyett az ETL-t kellett előnyben részesíteniük, hogy csökkentsék az adattárház leterheltségét. A felhőalapú adattárházak fejlődésével azonban sok adattárházon belüli transzformációs eszközök népszerűvé válnak. Ebben a kategóriában a legjelentősebbek a dbt (adatépítő eszköz) és a Dataform.
BI eszközök bizonyos átalakítások elvégzésére használt, hogy csökkentsék a régebbi adattárházak terhelését is. A modern adatkészlettel azonban a BI-eszközök fókusza (véleményem szerint) az adathozzáférés, az önkiszolgálás és az adatfeltárás demokratizálására helyeződött át. Vannak olyan eszközök, amelyek szerintem jó irányba haladnak Igen jóképű személy, Metabázisés felülbírálja.
A mi építészetünk
A Modern Data Stack használatának megkezdése ijesztő lehet, mivel sok különböző eszköz és folyamat van benne. Ennek a cikknek az a célja, hogy a lehető legzökkenőmentesebben induljon el ezen az úton. Sok előkészületi lépés van, de ez csak tart öt perc hogy az összes erőforrást felpörgesse, ha végzett.
Mi fogjuk használni Terraform, egy infrastruktúra-kódként nyílt forráskódú eszköz, amely mindent biztosít a Google Cloudban. Ha követi az alábbi utasításokat, a következő források jönnek létre.
- Google Cloud projekt a szükséges API-val
- Betöltés: Airbyte-ot futtató GCE-példány
- Raktározás: BigQuery-adatkészletek
- Hangszerelés (opcionális): Airflow-t futtató GCE-példány
- BI és adatfelderítés: Metabase-t futtató GCE-példány
- Szolgáltatásfiókok különböző szolgáltatásokhoz és IAM-engedély-kötéseikhez
Első lépések
Hozzon létre egy Google Cloud-fiókot, és engedélyezze a számlázást
A projektben szereplő Terraform kód kölcsönhatásba lép a Google Cloud Platformmal. Ezért első lépésünk egy Google fiók létrehozása és számlázás engedélyezése. Vegye figyelembe a számlázási azonosító a következő formátumban a Számlázási oldalon: ######-######-######. Erre az értékre a következő lépésben lesz szüksége.
Telepítse a Google Cloud CLI-t
Telepítse a Google Cloud SDK-t az utasításokat követve itt az adott operációs rendszerhez. Miután megvan a gcloud CLI telepítve, futtassa a következő parancsot egy terminálablakban, és kövesse az utasításokat. Ez lehetővé teszi, hogy a Terraform az alapértelmezett hitelesítő adatokat használja a hitelesítéshez.
gcloud auth alkalmazás-alapértelmezett bejelentkezés
Telepítse a terraformot
Kövesse az utasításokat itt a Terraform CLI helyi telepítéséhez. Ezután futtassa a következő parancsot a telepítés ellenőrzéséhez:
terraform -v
Látnia kellene valami ilyesmit:
Terraform v1.0.0 a darwin_amd64-en + szolgáltató registry.terraform.io/hashicorp/google v3.71.0
Forgassa vagy klónozza ezt a repót helyileg
Tudod fork this repo fiókjába, vagy klónozzuk a helyi gépre. A repo klónozásához futtassa a következőt:
git klón https://github.com/tuanchris/modern-data-stack cd modern-data-stack
Hozzon létre egy terraform.tfvars filé
Hozzon létre egy terraform.tfvars fájl a következő tartalommal:
# Az első lépés számlázási azonosítója billing_id = ######-######-###### # A mappa azonosítója, ahol a projektet szeretné helyezni # Hagyja üresen, ha használja a személyes fiók folder_id = "" # Annak a szervezetnek az azonosítója, ahol a projektet el szeretné helyezni # Hagyja üresen, ha személyes fiókot használ: org_id = "" # A project_id = "" létrehozására szolgáló projekt
figyelmeztetés: Ezek érzékeny értékeknek minősülnek. Ne véglegesítse ezt a fájlt és a *.tfstate fájlokat nyilvános repóba.
Szabja testre az értékeket változók.tf
A változók benne változók.tf az erőforrások konfigurációjához lesz használva.
Kép szerzőtől.
A változók módosításával testreszabhatja a gép típusát a különböző szolgáltatásokhoz. Ha nem szeretnél semmilyen szolgáltatást igénybe venni, jelezd kommentben a gce.tf fájlt.
Különféle adatkészleteket is létrehozhat a forrásrendszerekhez, ha hozzáadja azokat a forrásadatkészletek szótárához.
Hozzon létre egy modern adathalmot
Végül a Google Cloud összes erőforrásának biztosításához futtassa a következő parancsot:
terraform alkalmazni
Kép szerzőtől.
Tanulmányozza a terminál kimenetét, hogy megbizonyosodjon arról, hogy az összes erőforrás-beállítás megfelel a kívántnak. típus Igen és megüt lépj be.
A Terraform egy Google Cloud projektet hoz létre a modern adatkészletünkkel. Az egész folyamat körülbelül 2-3 percet vesz igénybe. További 2–3 percet vesz igénybe a szolgáltatások telepítése a VM-példányokon. Az egész folyamat legfeljebb 5 percet vesz igénybe.
A modern adatverem használata
Szolgáltatásfiókok lekérése a különböző szolgáltatásokhoz
Kép szerzőtől.
A Google más szolgáltatásfiók használatát javasolja a különböző szolgáltatásokhoz. A projektben szereplő terraform kód különböző fiókokat hozott létre a már használt különböző technológiákhoz. Egy adott szolgáltatáshoz tartozó szolgáltatásfiók lekéréséhez futtassa a következő parancsot:
terraform kimenet [szolgáltatás_neve]_sa_key
Az összes ilyen fiók alapértelmezett engedélye a roles/bigquery.admin. Ezt személyre szabhatja a iam.tf fájlt.
A visszakapott érték base64 kódolású. Ennek az értéknek a JSON formátumra való visszaállításához futtassa a következő parancsot:
echo "[érték az előző parancsból]" | base64 -d
A JSON-szolgáltatásfiók használatával hitelesítheti a projekt erőforrásaihoz való szolgáltatás-hozzáférést.
figyelmeztetés: Bárki, aki rendelkezik ezzel a szolgáltatási fiókkal, hozzáférhet a projektjéhez.
Nyújtsa be az adatokat az Airbyte segítségével
Airbyte egy kiváló nyílt forráskódú adatintegrációs eszköz. Az Airbyte felhasználói felület eléréséhez először szerezze be a gcloud SSH parancsot.
Kép szerzőtől.
Ehhez hasonló parancsot fog kapni:
gcloud béta compute ssh --zóna "asia-southeast1-a" "tf-airbyte-demo-airbyte" --projekt "tf-airbyte-demo"
Ezután adja hozzá a következőt a parancshoz az Airbyte UI helyi porttovábbításához:
-- -L 8000:localhost:8000 -L 8001:localhost:8001 -N -f
Az utolsó parancs így fog kinézni:
gcloud béta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airbyte" --projekt "tf-airbyte-demo" -- -L 8000:localhost:8000 -L 8001:localhost:8001 - N-f
Jegyzet: A GCP UI-ról való másolás után feltétlenül törölje az újsor karaktert.
Ha az Airbyte példány indítása befejeződött, elérheti, ha megnyitja böngészőjét, és felkeresi localhost: 8000. Ha nem, várjon öt percet, amíg a példány befejezi a telepítést.
Kép szerzőtől.
Mostantól integrálhatja forrásait, és hozzáadhat egy BigQuery-célhelyet a segítségével airbyte_sa_key, és pillanatok alatt elérheti adatait a BigQuery szolgáltatásban.
Az Airbyte telepítését itt érheti el /airbyte/ a VM-en belül.
Modelladatok dbt-vel
ctef (data build tool) egy hatékony nyílt forráskódú adatátalakítási eszköz SQL használatával. Lehetővé teszi az adatelemzők számára a korábban az adatmérnökök számára fenntartott munka elvégzését. Ezenkívül segít létrehozni egy teljesen új pozíciót, az Analytics mérnököt, amely egy Data Analyst és egy Data Engineer hibridje. A pozícióról bővebben a blogomban olvashat itt.
Kép szerzőtől.
Az Airbyte-tal, az Airflow-val és a Metabase-szal ellentétben nincs szükség szerverre a dbt futtatásához. Ingyenes (örökre) 1 személyes fiókot regisztrálhat, ha felkeresi őket .
Hangszerelje a munkafolyamatot az Airflow segítségével
Légáram egy csatában bevált munkafolyamat-hangszerelő eszköz, amelyet az Airbnb hozott létre. A modern adatverem segítségével remélhetőleg nem kell sokat használnia az Airflow-t. Bizonyos esetekben azonban, amikor testreszabásra van szükség, az Airflow az Ön számára megfelelő eszköz lehet.
A felhasználói felület eléréséhez szerezze be a fenti szakaszhoz hasonló SSH-parancsot az Airbyte segítségével. Használja a következő parancsot a port-továbbításhoz:
gcloud béta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airflow" --projekt "tf-airbyte-demo" -- -L 8080:localhost:8080 -N -f
Most elérheti az Airflow telepítését a címen localhost: 8080. Az alapértelmezett felhasználónév és jelszó admin és a admin.
Kép szerzőtől.
A légáramlás telepítését a címen érheti el /légáramlat/ a VM-en belül.
Vizualizálja az adatokat a Metabase segítségével
Metabázis egy nyílt forráskódú adatvizualizációs és -felderítő eszköz. Szuper felhasználóbarát és könnyen elkezdhető.
A Metabase UI eléréséhez szerezze be az SSH-parancsot, amely hasonló a fenti szakaszhoz az Airbyte segítségével. Ezután használja a következő parancsot a port-továbbításhoz:
gcloud béta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-metabase" --projekt "tf-airbyte-demo" -- -L 3000:localhost:3000 -N -f
Kép szerzőtől.
Tisztítsuk meg
A nemkívánatos költségek elkerülése érdekében futással tisztítsa meg a projektben létrehozott erőforrásokat.
terraform elpusztítani
Figyelmeztetés: Ezzel törli a projektben lévő összes megmaradt adatot és erőforrást. Alternatív megoldásként kikapcsolhatja a nem használt GCE-t, hogy költséget takarítson meg.
eredeti. Engedéllyel újra közzétéve.
Bio: Tuan Nguyen a Joon Solutions, a Data as a Service vállalat műszaki igazgatója. Szakmai tapasztalatai az adattudományi csapatok felépítése és kezelése, az elemzési infrastruktúra és az analitikai felhasználási esetek körül forognak. Szereti egyesíteni az adatelemzés és a felhőalapú számítástechnika iránti szenvedélyét, hogy segítse a vállalkozásokat abban, hogy versenyképesek maradjanak ebben a digitális korban. Sokféle érdeklődési köre van, beleértve a csillagászatot, az olvasást, a zenét és az IoT-t.
Kapcsolódó:
Legnépszerűbb történetek az elmúlt 30 napból | |||
---|---|---|---|
|
Forrás: https://www.kdnuggets.com/2021/08/bootstrap-modern-data-stack-terraform.html
- "
- &
- hozzáférés
- Fiók
- További
- Airbnb
- Minden termék
- elemző
- analitika
- Apache
- api
- építészet
- körül
- cikkben
- csillagászat
- Hitelesítés
- auto
- beta
- bigquery
- számlázás
- Blog
- bizottság
- igazgatósági tag
- határ
- böngésző
- épít
- Épület
- vállalkozások
- ami
- esetek
- felhő
- cloud computing
- Felhő platform
- kód
- Companies
- vállalat
- Kiszámít
- számítástechnika
- tartalom
- kiadások
- létrehozása
- CTO
- dátum
- adat hozzáférés
- Adatelemzés
- adatintegráció
- adat-tudomány
- adatmegjelenítés
- adattárház
- adattárházak
- adatbázis
- nap
- mély tanulás
- elpusztítani
- digitális
- Igazgató
- felfedezés
- mérnök
- Mérnökök
- Tapasztalatok
- vezetéknév
- Összpontosít
- következik
- formátum
- Ingyenes
- Arany
- A Google Cloud
- GPU
- útmutató
- itt
- Magas
- Hogyan
- HTTPS
- Több száz
- hibrid
- IAM
- kép
- Beleértve
- Infrastruktúra
- integráció
- részt
- tárgyak internete
- IT
- TANUL
- tanulás
- helyi
- helyileg
- gépi tanulás
- Gyártás
- közepes
- ML
- pénz
- zene
- online
- nyitva
- nyílt forráskódú
- Vélemény
- Opciók
- Jelszó
- teljesítmény
- emelvény
- Népszerű
- program
- nyilvános
- hatótávolság
- Olvasás
- csökkenteni
- forrás
- Tudástár
- futás
- futás
- Tudomány
- tudósok
- sdk
- Önkiszolgáló
- Szolgáltatások
- Egyszerű
- Megoldások
- Centrifugálás
- SQL
- kezdet
- kezdődött
- tartózkodás
- TÖRTÉNETEK
- Systems
- Technologies
- idő
- felső
- Átalakítás
- transzformáló
- ui
- érték
- megjelenítés
- várjon
- Raktár
- Mi
- Munka
- munkafolyamat
- X
- év