Terraform ile 5 dakikada Modern Veri Yığınını Önyükleme
Modern Veri Yığını nedir ve nasıl dağıtırsınız? Bu kılavuz, Airbyte, BigQuery, dbt, Metabase ve Terraform'u kullanarak ihtiyacınız olan diğer her şey için kurulum talimatlarıyla sizi bu yolculuğa başlamanız için motive edecektir.
By Tuan NguyenJoon Solutions'da CTO & Yönetim Kurulu Üyesi.
Modern Bir Veri Yığın Mimarisi (yazarın resmi).
Modern Veri Yığını Nedir?
Modern Veri Yığını (MDS), modern bir veri ambarının eski bir veri ambarından 10-10,000 kat daha iyi performans göstermesini sağlayan bir teknoloji yığınıdır. Sonuç olarak, bir MDS zamandan, paradan ve emekten tasarruf sağlar. Bir MDS'nin dört ayağı, veri bağlayıcı, bulut veri ambarı, veri dönüştürücüVe BI ve veri keşfi aracı.
Kolay bütünleşme yüzlerce kullanıma hazır bağlayıcıyı önceden oluşturan yönetilen ve açık kaynaklı araçlarla mümkün kılınmıştır. Eskiden veri mühendislerinden oluşan bir ekibin düzenli olarak oluşturması ve bakımını yapması gereken şeyler, artık basit kullanım durumları için bir araçla değiştirilebilir. gibi yönetilen çözümler Dikiş ve beştrangibi açık kaynaklı çözümlerle birlikte hava baytı ve meltano, bunu gerçekleştiriyorlar.
Bir kullanma bulut tabanlı sütunlu veri ambarı yüksek performansı ve uygun maliyetli olması nedeniyle son zamanlarda trend olmuştur. Şirket içi bir MPP (büyük ölçüde paralel işleme) veritabanı için yılda 100 ABD Doları ödemek yerine, ayda 100 ABD Doları (veya daha az) ödemeye başlayabilirsiniz. Bulut tabanlı veri ambarlarının, geleneksel bir OLTP'den 10-10,000 kat daha hızlı olduğu söyleniyor. Bu kategorideki popüler seçenekler şunlardır: BigQuery, Kar taneciği, ve Redshift.
Eskiden veri ambarı içinde veri işlemek, teknolojinin sınırlamaları nedeniyle darboğazdı. Sonuç olarak, şirketler veri ambarının iş yükünü azaltmak için ELT yerine ETL'yi tercih etmek zorunda kaldı. Bulut tabanlı veri ambarlarının gelişmesiyle birlikte, birçok veri ambarı içi dönüştürme araçları popüler hale geliyor. Bu kategoride en dikkate değer olanlar dbt (veri oluşturma aracı) ve Dataform'dur.
BI araçları eski veri ambarlarındaki iş yükünü de azaltmak için bazı dönüşümlerle ilgilenmek için kullanılır. Bununla birlikte, modern veri yığınıyla birlikte, BI araçlarının odak noktası (bence) veri erişimini, self servisi ve veri keşfini demokratikleştirmeye kaydırıldı. Doğru yönde ilerlediğini düşündüğüm bazı araçlar: Güzel ve çekici kız, Metatabanı, ve süperset.
mimarimiz
Birçok farklı araç ve süreç söz konusu olduğundan, Modern Veri Yığınını kullanmaya başlamak göz korkutucu olabilir. Bu makale, bu yolculuğa olabildiğince sorunsuz bir şekilde başlamanıza yardımcı olmayı amaçlamaktadır. Pek çok hazırlık adımı vardır, ancak yalnızca Beş dakika işiniz bittiğinde tüm kaynakları döndürmek için.
Kullanacağız Terraform, Google Cloud'daki her şeyi sağlamak için kod olarak altyapı açık kaynaklı bir araç. Aşağıdaki talimatları izlerseniz, oluşturulacak kaynaklar burada.
- Gerekli API'nin etkinleştirildiği bir Google Cloud projesi
- Alım: Airbyte çalıştıran bir GCE örneği
- Depolama: BigQuery veri kümeleri
- Düzenleme (isteğe bağlı): Airflow çalıştıran bir GCE örneği
- BI ve veri keşfi: Metatabanını çalıştıran bir GCE örneği
- Farklı hizmetler için hizmet hesapları ve bunların IAM izin bağlamaları
Şimdi Başlayın
Bir Google Cloud hesabı oluşturun ve faturalandırmayı etkinleştirin
Bu projedeki Terraform kodu, Google Cloud Platform ile etkileşime girecek. Bu nedenle, ilk adımımız bir Google hesabı oluşturmak ve faturalandırmayı etkinleştir. Not edin fatura kimliği Faturalandırma Sayfasında aşağıdaki biçimde: ######-######-######. Bir sonraki adımda bu değere ihtiyacınız olacak.
Google Cloud CLI'yı yükleyin
Talimatları izleyerek Google Cloud SDK'yı kurun okuyun ilgili işletim sisteminiz için. sahip olduktan sonra bulut CLI kuruluysa, bir terminal penceresinde aşağıdaki komutu çalıştırın ve talimatları izleyin. Bu, Terraform'un kimlik doğrulama için varsayılan kimlik bilgilerini kullanmasına izin verecektir.
gcloud auth uygulaması-varsayılan giriş
terraform'u kurun
Talimatları takip et okuyun Terraform CLI'yi yerel olarak yüklemek için. Kurulumunuzu kontrol etmek için daha sonra aşağıdaki komutu çalıştırın:
dünya biçimi -v
Böyle bir şey görmelisin:
darwin_amd1.0.0'te Terraform v64 + sağlayıcı register.terraform.io/hashicorp/google v3.71.0
Bu depoyu yerel olarak çatallayın veya klonlayın
Yapabilirsin bu depoyu çatalla hesabınıza veya yerel makinenize klonlayın. Depoyu klonlamak için aşağıdakileri çalıştırın:
git klonu https://github.com/tuanchris/modern-data-stack cd modern-data-stack
Hat için bir terraform.tfvars dosya
Hat için bir terraform.tfvars Aşağıdaki içerikle dosya:
# İlk adımdaki Fatura Kimliği billing_id = ######-######-###### # Projenizin altında olmasını istediğiniz klasör kimliği # Kullanıyorsanız bunu boş bırakın a private account folder_id = "" # Projenizin altında olmasını istediğiniz organizasyon ID'si # Kişisel hesap kullanıyorsanız burayı boş bırakın org_id = "" # Project_id = "" oluşturulacak proje
uyarı: Bunlar hassas değerler olarak kabul edilir. Bu dosyayı taahhüt etmeyin ve *.tfstate dosyaları bir genel depoya aktarın.
İçindeki değerleri özelleştirin değişkenler.tf
içindeki değişkenler değişkenler.tf kaynakların konfigürasyonları için kullanılacaktır.
Yazara göre resim.
Değişkenleri değiştirerek makine tipini farklı hizmetler için özelleştirebilirsiniz. Herhangi bir hizmeti kullanmak istemiyorsanız, bunu yorumda belirtin. gce.tf dosyası.
Kaynak sistemleriniz için kaynak veri kümeleri sözlüğüne ekleyerek farklı veri kümeleri de oluşturabilirsiniz.
Modern bir veri yığını oluşturun
Son olarak, tüm bu kaynakları Google Cloud'da sağlamak için aşağıdaki komutu çalıştırın:
uygulama
Yazara göre resim.
Tüm kaynak ayarlarının olmasını istediğiniz gibi olduğundan emin olmak için terminaldeki çıktıyı inceleyin. Tip Evet ve vur girmek.
Terraform, modern veri yığınımızla bir Google Cloud projesi oluşturacak. Tüm süreç yaklaşık 2-3 dakika sürecektir. Hizmetlerin sanal makine örneklerine yüklenmesi ek olarak 2-3 dakika sürer. Tüm süreç sadece 5 dakika veya daha az sürecektir.
Modern veri yığınını kullanma
Farklı hizmetler için hizmet hesaplarını alın
Yazara göre resim.
Google, farklı hizmetler için farklı bir hizmet hesabı kullanmanızı önerir. Projedeki terraform kodu, halihazırda kullanılan farklı teknolojiler için farklı hesaplar oluşturmuştur. Belirli bir hizmet için bir hizmet hesabı almak için aşağıdaki komutu çalıştırın:
terraform çıkışı [hizmet_adı]_sa_key
Tüm bu hesaplar için varsayılan izin roller/bigquery.admin. Bunu şu şekilde özelleştirebilirsiniz: iam.tf dosyası.
Geri aldığınız değer base64 kodludur. Bu değeri JSON formatına geri döndürmek için aşağıdaki komutu çalıştırın:
echo "[önceki komutun değeri]" | taban64 -d
Projenizin kaynaklarına hizmet erişiminin kimliğini doğrulamak için JSON hizmet hesabını kullanabilirsiniz.
uyarı: Bu hizmet hesabına sahip olan herkes projenize erişebilir.
Airbyte ile veri alın
hava baytı mükemmel bir açık kaynak veri entegrasyon aracıdır. Airbyte kullanıcı arayüzüne erişmek için önce gcloud SSH komutunu edinin.
Yazara göre resim.
Buna benzer bir komut alacaksınız:
gcloud beta hesaplama ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airbyte" --project "tf-airbyte-demo"
Ardından, Airbyte kullanıcı arabirimini yerel olarak yönlendirmek için komuta aşağıdakini ekleyin:
-- -L 8000:yerelanasistem:8000 -L 8001:yerelanasistem:8001 -N -f
Son komutunuz şöyle görünecek:
gcloud beta hesaplama ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airbyte" --project "tf-airbyte-demo" -- -L 8000:localhost:8000 -L 8001:localhost:8001 - N-f
Not: GCP kullanıcı arayüzünden kopyaladıktan sonra yeni satır karakterini sildiğinizden emin olun.
Airbyte örneğinin başlatılması tamamlandıysa, tarayıcınıza giderek ve adresini ziyaret ederek erişebilirsiniz. localhost: 8000. Değilse, örneğin kurulumu tamamlaması için beş dakika bekleyin.
Yazara göre resim.
Artık kaynaklarınızı entegre edebilir, kullanarak bir BigQuery hedefi ekleyebilirsiniz. airbyte_sa_keyve verilerinizi anında BigQuery'de bulundurun.
Airbyte kurulumuna şu adresten erişebilirsiniz: /hava bayt/ VM'nin içinde.
Verileri dbt ile modelleyin
dbt (veri oluşturma aracı), SQL kullanan güçlü bir açık kaynaklı veri dönüştürme aracıdır. Veri Analistlerinin daha önce Veri Mühendisleri için ayrılan işi yapmalarını sağlar. Ayrıca, Veri Analisti ve Veri Mühendisinin karışımı olan Analitik Mühendisi adında tamamen yeni bir pozisyon yaratılmasına da yardımcı olur. Blogumdaki konum hakkında daha fazla bilgi edinebilirsiniz. okuyun.
Yazara göre resim.
Airbyte, Airflow ve Metabase'den farklı olarak, dbt'yi çalıştırmak için bir sunucuya ihtiyacınız yoktur. Ziyaret ederek ücretsiz (sonsuza kadar) 1 kişilik bir hesap için kayıt olabilirsiniz. Web sitesi.
Airflow ile iş akışını düzenleyin
Hava akışı Airbnb tarafından oluşturulan, savaşta kanıtlanmış bir iş akışı düzenleme aracıdır. Modern bir veri yığınıyla, umarım Airflow'u çok fazla kullanmak zorunda kalmazsınız. Ancak bazı özelleştirmelerin gerekli olduğu bazı durumlarda, Airflow başvuracağınız araç olabilir.
Kullanıcı arayüzüne erişmek için Airbyte ile yukarıdaki bölüme benzer SSH komutunu alın. Bağlantı noktası yönlendirme için aşağıdaki komutu kullanın:
gcloud beta hesaplama ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airflow" --project "tf-airbyte-demo" -- -L 8080:localhost:8080 -N -f
Artık Airflow kurulumuna şu adresten erişebilirsiniz: localhost: 8080. Varsayılan kullanıcı adı ve şifre Gizem ve Gizem.
Yazara göre resim.
Hava akımı kurulumuna şu adresten erişebilirsiniz: /hava akışı/ VM'nin içinde.
Metatabanı ile verileri görselleştirin
Metatabanı açık kaynaklı bir veri görselleştirme ve keşif aracıdır. Süper kullanıcı dostudur ve kullanmaya başlaması kolaydır.
Metabase UI'ye erişmek için Airbyte ile yukarıdaki bölüme benzer SSH komutunu alın. Ardından, port yönlendirme için aşağıdaki komutu kullanın:
gcloud beta hesaplama ssh --zone "asia-southeast1-a" "tf-airbyte-demo-metabase" --project "tf-airbyte-demo" -- -L 3000:localhost:3000 -N -f
Yazara göre resim.
Temizlemek
İstenmeyen maliyetlerden kaçınmak için, bu projede oluşturulan kaynakları çalıştırarak temizlediğinizden emin olun.
terraform yok etmek
Uyarı: Bu, projedeki tüm kalıcı verileri ve kaynakları siler. Alternatif olarak, maliyetlerden de tasarruf etmek için kullanılmayan GCE'yi kapatabilirsiniz.
orijinal. İzinle yeniden yayınlandı.
Bio: Tuan Nguyen Bir Hizmet olarak Veri şirketi olan Joon Solutions'ın CTO'su. Profesyonel deneyimleri, veri bilimi ekipleri, analitik altyapısı ve analitik kullanım senaryoları oluşturma ve yönetme etrafında dönmektedir. İşletmelerin bu dijital gün ve çağda rekabetçi kalmasına yardımcı olmak için veri analitiği ve bulut bilişim tutkusunu birleştirmeyi seviyor. Astronomi, okuma, müzik ve IoT dahil olmak üzere çok çeşitli ilgi alanlarına sahiptir.
İlgili:
30 Gün İçindeki En Çok Okunan Haberler | |||||
---|---|---|---|---|---|
|
|
Kaynak: https://www.kdnuggets.com/2021/08/bootstrap-modern-data-stack-terraform.html
- "
- &
- erişim
- Hesap
- Ek
- Airbnb
- Türkiye
- analist
- analytics
- Apache
- api
- mimari
- etrafında
- göre
- astronomi
- Doğrulama
- Oto
- beta
- BigQuery
- fatura
- Blog
- yazı tahtası
- yönetim kurulu üyesi
- sınır
- tarayıcı
- inşa etmek
- bina
- işletmeler
- hangi
- durumlarda
- bulut
- cloud computing
- Bulut Platformu
- kod
- Şirketler
- şirket
- hesaplamak
- bilgisayar
- içerik
- maliyetler
- Oluşturma
- CTO
- veri
- veri erişim
- Veri Analizi
- veri entegrasyonu
- veri bilimi
- veri goruntuleme
- veri ambarı
- veri depoları
- veritabanı
- gün
- derin öğrenme
- yıkmak
- dijital
- yönetmen
- keşif
- mühendis
- Mühendisler
- Deneyimler
- Ad
- odak
- takip et
- biçim
- Ücretsiz
- Altın
- Google Bulut
- GPU'lar
- rehberlik
- okuyun
- Yüksek
- Ne kadar
- HTTPS
- Yüzlerce
- melez
- IAM
- görüntü
- Dahil olmak üzere
- Altyapı
- bütünleşme
- ilgili
- IOT
- IT
- ÖĞRENİN
- öğrenme
- yerel
- lokal olarak
- makine öğrenme
- Yapımı
- orta
- ML
- para
- Music
- Online
- açık
- açık kaynak
- Görüş
- Opsiyonlar
- Şifre
- performans
- platform
- Popüler
- proje
- halka açık
- menzil
- Okuma
- azaltmak
- kaynak
- Kaynaklar
- koşmak
- koşu
- Bilim
- bilim adamları
- sdk
- Self servis
- Hizmetler
- Basit
- Çözümler
- Dönme
- SQL
- başlama
- başladı
- kalmak
- hikayeler
- Sistemler
- Teknolojileri
- zaman
- üst
- Dönüşüm
- dönüşüm
- ui
- değer
- görüntüleme
- beklemek
- depo
- Nedir
- İş
- iş akışı
- X
- yıl