टेराफॉर्म के साथ 5 मिनट में एक आधुनिक डेटा स्टैक बूटस्ट्रैप करें
आधुनिक डेटा स्टैक क्या है और आप इसे कैसे परिनियोजित करते हैं? यह मार्गदर्शिका आपको Airbyte, BigQuery, dbt, Metabase, और टेराफ़ॉर्म का उपयोग करने वाली अन्य सभी चीज़ों के लिए सेटअप निर्देशों के साथ इस यात्रा को शुरू करने के लिए प्रेरित करेगी।
By तुआन गुयेन, जून सॉल्यूशंस में सीटीओ और बोर्ड के सदस्य.
एक आधुनिक डेटा स्टैक आर्किटेक्चर (लेखक द्वारा छवि)।
मॉडर्न डेटा स्टैक क्या है
मॉडर्न डेटा स्टैक (एमडीएस) प्रौद्योगिकियों का एक ढेर है जो एक आधुनिक डेटा वेयरहाउस को पुराने डेटा वेयरहाउस की तुलना में 10-10,000 गुना बेहतर प्रदर्शन करता है। अंततः, एमडीएस समय, धन और प्रयास बचाता है। एमडीएस के चार स्तंभ हैं: डेटा कनेक्टरतक क्लाउड डेटा वेयरहाउसतक डेटा ट्रांसफार्मर, और एक बीआई और डेटा अन्वेषण उपकरण.
आसान एकीकरण इसे प्रबंधित और ओपन-सोर्स टूल से संभव बनाया गया है जो सैकड़ों उपयोग के लिए तैयार कनेक्टरों का पूर्व-निर्माण करता है। जिसे नियमित रूप से बनाने और रखरखाव के लिए डेटा इंजीनियरों की एक टीम की आवश्यकता होती थी, उसे अब सरल उपयोग के मामलों के लिए एक उपकरण से बदला जा सकता है। जैसे प्रबंधित समाधान टांका और पंचतरण, जैसे ओपन-सोर्स समाधानों के साथ एयरबाइट और Meltano, ऐसा करा रहे हैं।
एक का प्रयोग क्लाउड-आधारित स्तंभ डेटा वेयरहाउस अपने उच्च प्रदर्शन और लागत-प्रभावशीलता के कारण हाल ही में यह चलन में है। ऑन-प्रिमाइस एमपीपी (बड़े पैमाने पर समानांतर प्रसंस्करण) डेटाबेस के लिए प्रति वर्ष $100K का भुगतान करने के बजाय, आप प्रति माह $100 (या उससे कम) से भुगतान करना शुरू कर सकते हैं। कहा जाता है कि क्लाउड-नेटिव डेटा वेयरहाउस पारंपरिक ओएलटीपी की तुलना में 10-10,000 गुना तेज़ हैं। इस श्रेणी में लोकप्रिय विकल्प हैं BigQuery, हिमपात का एक खंड, तथा लाल विचलन.
पुराने दिनों में, प्रौद्योगिकी की सीमाओं के कारण डेटा वेयरहाउस के अंदर डेटा संसाधित करना एक बाधा थी। परिणामस्वरूप, डेटा वेयरहाउस के कार्यभार को कम करने के लिए कंपनियों को ईएलटी के बजाय ईटीएल का पक्ष लेना पड़ा। हालाँकि, क्लाउड-नेटिव डेटा वेयरहाउस की प्रगति के साथ, कई इन-डेटा-वेयरहाउस परिवर्तन उपकरण लोकप्रिय हो रहे हैं. इस श्रेणी में सबसे उल्लेखनीय हैं डीबीटी (डेटा बिल्ड टूल) और डेटाफॉर्म।
बीआई उपकरण पुराने डेटा वेयरहाउसों पर कार्यभार को कम करने के लिए कुछ परिवर्तनों का भी ध्यान रखा जाता था। हालाँकि, आधुनिक डेटा स्टैक के साथ, बीआई टूल्स का ध्यान (मेरी राय में) डेटा एक्सेस, स्व-सेवा और डेटा खोज को लोकतांत्रिक बनाने के लिए स्थानांतरित कर दिया गया है। मुझे लगता है कि कुछ उपकरण सही दिशा में जा रहे हैं देखनेवाला, मेटाबेस, तथा superset.
हमारी वास्तुकला
मॉडर्न डेटा स्टैक के साथ शुरुआत करना कठिन हो सकता है क्योंकि इसमें कई अलग-अलग उपकरण और प्रक्रियाएं शामिल हैं। इस लेख का उद्देश्य आपको इस यात्रा को यथासंभव सहजता से शुरू करने में मदद करना है। तैयारी के कई चरण हैं, लेकिन केवल इसकी आवश्यकता होती है पांच मिनट एक बार काम पूरा हो जाने पर सभी संसाधनों को खर्च करना।
हम उपयोग करेंगे terraform, Google क्लाउड में सब कुछ व्यवस्थित करने के लिए एक इंफ्रास्ट्रक्चर-ए-कोड ओपन-सोर्स टूल। यदि आप नीचे दिए गए निर्देशों का पालन करते हैं, तो यहां वे संसाधन हैं जो बनाए जाएंगे।
- आवश्यक एपीआई सक्षम के साथ एक Google क्लाउड प्रोजेक्ट
- अंतर्ग्रहण: एयरबाइट चलाने वाला एक जीसीई उदाहरण
- भण्डारण: BigQuery डेटासेट
- ऑर्केस्ट्रेशन (वैकल्पिक): एयरफ़्लो चलाने वाला एक जीसीई उदाहरण
- बीआई और डेटा खोज: मेटाबेस चलाने वाला एक जीसीई उदाहरण
- विभिन्न सेवाओं और उनकी IAM अनुमति बाइंडिंग के लिए सेवा खाते
शुरू करे
एक Google क्लाउड खाता बनाएं और बिलिंग सक्षम करें
इस प्रोजेक्ट में टेराफ़ॉर्म कोड Google क्लाउड प्लेटफ़ॉर्म के साथ इंटरैक्ट करेगा। इसलिए, हमारा पहला कदम Google खाता बनाना है और बिलिंग सक्षम करें। ध्यान दें बिलिंग आईडी बिलिंग पृष्ठ में निम्नलिखित प्रारूप के साथ: ######-######-######. अगले चरण में आपको इस मान की आवश्यकता होगी.
Google क्लाउड सीएलआई स्थापित करें
निर्देशों का पालन करते हुए Google क्लाउड SDK इंस्टॉल करें यहाँ उत्पन्न करें आपके संबंधित ओएस के लिए। आपके पास होने के बाद gcloud सीएलआई स्थापित, टर्मिनल विंडो में निम्न कमांड चलाएँ और निर्देशों का पालन करें। यह टेराफॉर्म को प्रमाणीकरण के लिए डिफ़ॉल्ट क्रेडेंशियल का उपयोग करने देगा।
gcloud auth एप्लिकेशन-डिफ़ॉल्ट लॉगिन
टेराफॉर्म स्थापित करें
निर्देशों का पालन करें यहाँ उत्पन्न करें टेराफॉर्म सीएलआई को स्थानीय रूप से स्थापित करने के लिए। अपनी स्थापना की जाँच करने के लिए बाद में निम्नलिखित कमांड चलाएँ:
टेराफॉर्म -v
आपको ऐसा कुछ देखना चाहिए:
darwin_amd1.0.0 पर टेराफॉर्म v64 + प्रदाता रजिस्ट्री.terraform.io/hashicorp/google v3.71.0
इस रेपो को स्थानीय रूप से फोर्क या क्लोन करें
आप ऐसा कर सकते हैं इस रेपो को फोर्क करें अपने खाते में या इसे अपनी स्थानीय मशीन पर क्लोन करें। रेपो को क्लोन करने के लिए, निम्नलिखित चलाएँ:
गिट क्लोन https://github.com/tuanchris/modern-data-stack cd आधुनिक-डेटा-स्टैक
बनाओ terraform.tfvars पट्टिका
बनाओ terraform.tfvars निम्नलिखित सामग्री के साथ फ़ाइल करें:
# पहले चरण से बिलिंग आईडी billing_id = ######-######-###### # जहां आप अपना प्रोजेक्ट रखना चाहते हैं उसकी फ़ोल्डर आईडी # यदि आप उपयोग करते हैं तो इसे खाली छोड़ दें एक व्यक्तिगत खाता फ़ोल्डर_आईडी = "" # वह संगठन आईडी जहां आप अपना प्रोजेक्ट रखना चाहते हैं # यदि आप व्यक्तिगत खाता org_id = "" का उपयोग करते हैं तो इसे खाली छोड़ दें # प्रोजेक्ट बनाने के लिए प्रोजेक्ट_आईडी = ""
चेतावनी: इन्हें संवेदनशील मूल्य माना जाता है। इस फ़ाइल को प्रतिबद्ध न करें और *.tfstate सार्वजनिक रेपो में फ़ाइलें।
में मानों को अनुकूलित करें वेरिएबल.tf
में चर वेरिएबल.tf संसाधनों के विन्यास के लिए उपयोग किया जाएगा।
लेखक द्वारा छवि।
आप वेरिएबल्स को बदलकर विभिन्न सेवाओं के लिए मशीन प्रकार को अनुकूलित कर सकते हैं। यदि आप किसी सेवा का उपयोग नहीं करना चाहते हैं, तो इसमें टिप्पणी करें gce.tf फ़ाइल.
आप अपने स्रोत सिस्टम को स्रोत डेटासेट शब्दकोश में जोड़कर उनके लिए अलग-अलग डेटासेट भी बना सकते हैं।
एक आधुनिक डेटा स्टैक बनाएं
अंत में, इन सभी संसाधनों को Google क्लाउड पर व्यवस्थित करने के लिए, निम्नलिखित कमांड चलाएँ:
टेराफॉर्म लागू
लेखक द्वारा छवि।
यह सुनिश्चित करने के लिए टर्मिनल में आउटपुट का अध्ययन करें कि सभी संसाधन सेटिंग्स वही हैं जो आप चाहते हैं। प्रकार हाँ और हिट में प्रवेश.
टेराफ़ॉर्म हमारे आधुनिक डेटा स्टैक के साथ एक Google क्लाउड प्रोजेक्ट बनाएगा। पूरी प्रक्रिया में लगभग 2-3 मिनट लगेंगे। VM इंस्टेंसेस पर सेवाओं को स्थापित होने में अतिरिक्त 2-3 मिनट लगते हैं। पूरी प्रक्रिया में केवल 5 मिनट या उससे कम समय लगेगा।
आधुनिक डेटा स्टैक का उपयोग करना
विभिन्न सेवाओं के लिए सेवा खाते पुनः प्राप्त करें
लेखक द्वारा छवि।
Google विभिन्न सेवाओं के लिए भिन्न सेवा खाते का उपयोग करने की अनुशंसा करता है। प्रोजेक्ट में टेराफ़ॉर्म कोड ने पहले से उपयोग की गई विभिन्न तकनीकों के लिए अलग-अलग खाते बनाए हैं। किसी विशेष सेवा के लिए सेवा खाता पुनः प्राप्त करने के लिए, निम्न आदेश चलाएँ:
टेराफॉर्म आउटपुट [service_name]_sa_key
इन सभी खातों के लिए डिफ़ॉल्ट अनुमति है भूमिकाएँ/bigquery.admin. आप इसे इसमें कस्टमाइज़ कर सकते हैं iam.tf फ़ाइल.
आपको जो मूल्य वापस मिला वह बेस64 एन्कोडेड है। इस मान को वापस JSON प्रारूप में बदलने के लिए, निम्न आदेश चलाएँ:
इको "[पिछले कमांड से मान]" | बेस64-डी
आप अपने प्रोजेक्ट के संसाधनों तक सेवा पहुंच को प्रमाणित करने के लिए JSON सेवा खाते का उपयोग कर सकते हैं।
चेतावनी: इस सेवा खाते वाला कोई भी व्यक्ति आपके प्रोजेक्ट तक पहुंच सकता है।
एयरबाइट के साथ डेटा ग्रहण करें
एयरबाइट एक उत्कृष्ट ओपन-सोर्स डेटा एकीकरण उपकरण है। एयरबाइट यूआई तक पहुंचने के लिए, सबसे पहले, gcloud SSH कमांड प्राप्त करें।
लेखक द्वारा छवि।
आपको इसके जैसा एक कमांड मिलेगा:
जीक्लाउड बीटा कंप्यूट एसएसएच --ज़ोन "एशिया-साउथईस्ट1-ए" "टीएफ-एयरबाइट-डेमो-एयरबाइट" --प्रोजेक्ट "टीएफ-एयरबाइट-डेमो"
इसके बाद, एयरबाइट यूआई को स्थानीय रूप से पोर्ट-फ़ॉरवर्ड करने के लिए कमांड में निम्नलिखित जोड़ें:
-- -एल 8000:लोकलहोस्ट:8000 -एल 8001:लोकलहोस्ट:8001 -एन -एफ
आपका अंतिम आदेश इस तरह दिखेगा:
जीक्लाउड बीटा कंप्यूट एसएसएच --ज़ोन "एशिया-साउथईस्ट1-ए" "टीएफ-एयरबाइट-डेमो-एयरबाइट" --प्रोजेक्ट "टीएफ-एयरबाइट-डेमो" -- -एल 8000:लोकलहोस्ट:8000 -एल 8001:लोकलहोस्ट:8001 - एन -एफ
नोट: GCP UI से कॉपी करने के बाद न्यूलाइन कैरेक्टर को हटाना सुनिश्चित करें।
यदि एयरबाइट इंस्टेंस शुरू हो गया है, तो आप अपने ब्राउज़र पर जाकर उस तक पहुंच सकते हैं स्थानीय होस्ट: 8000. यदि नहीं, तो इंस्टालेशन पूरा होने तक पाँच मिनट प्रतीक्षा करें।
लेखक द्वारा छवि।
अब आप अपने स्रोतों को एकीकृत कर सकते हैं, इसका उपयोग करके एक BigQuery गंतव्य जोड़ सकते हैं एयरबाइट_एसए_की, और कुछ ही समय में आपका डेटा BigQuery में आ जाएगा।
आप एयरबाइट इंस्टॉलेशन तक पहुंच सकते हैं /एयरबाइट/ वीएम के अंदर.
डीबीटी के साथ मॉडल डेटा
डीबीटी (डेटा बिल्ड टूल) SQL का उपयोग करके एक शक्तिशाली ओपन-सोर्स डेटा ट्रांसफ़ॉर्मेशन टूल है। यह डेटा विश्लेषकों को डेटा इंजीनियरों के लिए पहले से आरक्षित कार्य करने में सक्षम बनाता है। यह एनालिटिक्स इंजीनियर नामक एक पूरी तरह से नई स्थिति बनाने में भी मदद करता है, जो डेटा विश्लेषक और डेटा इंजीनियर का एक मिश्रण है। आप मेरे ब्लॉग में स्थिति के बारे में अधिक पढ़ सकते हैं यहाँ उत्पन्न करें.
लेखक द्वारा छवि।
एयरबाइट, एयरफ़्लो और मेटाबेस के विपरीत, आपको dbt चलाने के लिए सर्वर की आवश्यकता नहीं है। आप उनके यहां जाकर निःशुल्क (हमेशा के लिए) 1-सीट खाते के लिए पंजीकरण कर सकते हैं वेबसाइट .
एयरफ्लो के साथ ऑर्केस्ट्रा वर्कफ़्लो
Airflow Airbnb द्वारा बनाया गया एक युद्ध-सिद्ध वर्कफ़्लो ऑर्केस्ट्रेशन टूल है। आशा है कि आधुनिक डेटा स्टैक के साथ, आपको एयरफ्लो का बहुत अधिक उपयोग नहीं करना पड़ेगा। हालाँकि, कुछ मामलों में जहां कुछ अनुकूलन की आवश्यकता होती है, एयरफ़्लो आपका पसंदीदा उपकरण हो सकता है।
यूआई तक पहुंचने के लिए, एयरबाइट के साथ उपरोक्त अनुभाग के समान एसएसएच कमांड प्राप्त करें। पोर्ट-फ़ॉरवर्ड के लिए निम्नलिखित कमांड का उपयोग करें:
जीक्लाउड बीटा कंप्यूट एसएसएच --जोन "एशिया-साउथईस्ट1-ए" "टीएफ-एयरबाइट-डेमो-एयरफ्लो" --प्रोजेक्ट "टीएफ-एयरबाइट-डेमो" -- -एल 8080:लोकलहोस्ट:8080 -एन -एफ
अब आप एयरफ्लो इंस्टॉलेशन तक पहुंच सकते हैं स्थानीय होस्ट: 8080. डिफ़ॉल्ट उपयोगकर्ता नाम और पासवर्ड हैं व्यवस्थापक और व्यवस्थापक.
लेखक द्वारा छवि।
आप एयरफ्लो इंस्टालेशन तक पहुंच सकते हैं /वायु प्रवाह/ वीएम के अंदर.
मेटाबेस के साथ डेटा विज़ुअलाइज़ करें
मेटाबेस एक ओपन-सोर्स डेटा विज़ुअलाइज़ेशन और डिस्कवरी टूल है। यह अत्यंत उपयोगकर्ता-अनुकूल है और इसे आरंभ करना आसान है।
मेटाबेस यूआई तक पहुंचने के लिए, एयरबाइट के साथ उपरोक्त अनुभाग के समान एसएसएच कमांड प्राप्त करें। फिर, पोर्ट-फ़ॉरवर्ड के लिए निम्न कमांड का उपयोग करें:
जीक्लाउड बीटा कंप्यूट एसएसएच --ज़ोन "एशिया-साउथईस्ट1-ए" "टीएफ-एयरबाइट-डेमो-मेटाबेस" --प्रोजेक्ट "टीएफ-एयरबाइट-डेमो" -- -एल 3000:लोकलहोस्ट:3000 -एन -एफ
लेखक द्वारा छवि।
क्लीन अप
किसी भी अवांछित लागत से बचने के लिए, इस परियोजना में बनाए गए संसाधनों को चलाकर साफ़ करना सुनिश्चित करें।
टेराफॉर्म नष्ट
चेतावनी: यह प्रोजेक्ट में मौजूद किसी भी डेटा और संसाधनों को हटा देगा। वैकल्पिक रूप से, आप लागत बचाने के लिए अप्रयुक्त जीसीई को भी बंद कर सकते हैं।
मूल। अनुमति के साथ पुनर्प्रकाशित।
जैव: तुआन गुयेन जून सॉल्यूशंस के सीटीओ हैं, एक सेवा कंपनी के रूप में एक डेटा। उनके पेशेवर अनुभव डेटा साइंस टीमों के निर्माण और प्रबंधन, एनालिटिक्स इंफ्रास्ट्रक्चर और एनालिटिक्स उपयोग के मामलों के इर्द-गिर्द घूमते हैं। वह इस डिजिटल दिन और उम्र में व्यवसायों को प्रतिस्पर्धी बने रहने में मदद करने के लिए डेटा एनालिटिक्स और क्लाउड कंप्यूटिंग के लिए अपने जुनून को जोड़ना पसंद करते हैं। उनके पास खगोल विज्ञान, पढ़ने, संगीत और IoT सहित कई तरह की रुचियां हैं।
संबंधित:
स्रोत: https://www.kdnuggets.com/2021/08/bootstrap-modern-data-stack-terraform.html
- "
- &
- पहुँच
- लेखा
- अतिरिक्त
- Airbnb
- सब
- विश्लेषक
- विश्लेषिकी
- अपाचे
- एपीआई
- स्थापत्य
- चारों ओर
- लेख
- खगोल
- प्रमाणीकरण
- स्वत:
- बीटा
- bigquery
- बिलिंग
- ब्लॉग
- मंडल
- बोर्ड के सदस्य
- सीमा
- ब्राउज़र
- निर्माण
- इमारत
- व्यवसायों
- कौन
- मामलों
- बादल
- बादल कंप्यूटिंग
- क्लाउड प्लेटफॉर्म
- कोड
- कंपनियों
- कंपनी
- गणना करना
- कंप्यूटिंग
- सामग्री
- लागत
- बनाना
- सीटीओ
- तिथि
- डेटा प्राप्त करना
- डेटा विश्लेषण
- डेटा एकीकरण
- डेटा विज्ञान
- डेटा विज़ुअलाइज़ेशन
- डाटा गोदाम
- डेटा वेयरहाउस
- डाटाबेस
- दिन
- ध्यान लगा के पढ़ना या सीखना
- को नष्ट
- डिजिटल
- निदेशक
- खोज
- इंजीनियर
- इंजीनियर्स
- अनुभव
- प्रथम
- फोकस
- का पालन करें
- प्रारूप
- मुक्त
- सोना
- गूगल
- Google मेघ
- GPUs
- गाइड
- यहाँ उत्पन्न करें
- हाई
- कैसे
- HTTPS
- सैकड़ों
- संकर
- आई ए एम
- की छवि
- सहित
- इंफ्रास्ट्रक्चर
- एकीकरण
- शामिल
- IOT
- IT
- जानें
- सीख रहा हूँ
- लिंक्डइन
- स्थानीय
- स्थानीय स्तर पर
- यंत्र अधिगम
- निर्माण
- मध्यम
- ML
- धन
- संगीत
- ऑनलाइन
- खुला
- खुला स्रोत
- राय
- ऑप्शंस
- पासवर्ड
- प्रदर्शन
- मंच
- लोकप्रिय
- परियोजना
- सार्वजनिक
- रेंज
- पढ़ना
- को कम करने
- संसाधन
- उपयुक्त संसाधन चुनें
- रन
- दौड़ना
- विज्ञान
- वैज्ञानिकों
- एसडीके
- स्वयं सेवा
- सेवाएँ
- सरल
- समाधान ढूंढे
- स्पिन
- एसक्यूएल
- प्रारंभ
- शुरू
- रहना
- कहानियों
- सिस्टम
- टेक्नोलॉजीज
- पहर
- ऊपर का
- परिवर्तन
- बदलने
- ui
- मूल्य
- दृश्य
- प्रतीक्षा
- गोदाम
- एचएमबी क्या है?
- काम
- वर्कफ़्लो
- X
- वर्ष