টেরাফর্মের সাহায্যে 5 মিনিটের মধ্যে একটি আধুনিক ডেটা স্ট্যাক বুটস্ট্র্যাপ করুন
একটি আধুনিক ডেটা স্ট্যাক কী এবং আপনি কীভাবে একটি স্থাপন করবেন? এই গাইড আপনাকে Airbyte, BigQuery, dbt, Metabase, এবং Terraform ব্যবহার করে আপনার প্রয়োজনীয় সমস্ত কিছুর সেটআপ নির্দেশাবলী দিয়ে এই যাত্রা শুরু করতে অনুপ্রাণিত করবে।
By টুয়ান এনগুইন, জুন সলিউশনে সিটিও এবং বোর্ড সদস্য.
একটি আধুনিক ডেটা স্ট্যাক আর্কিটেকচার (লেখকের ছবি)।
একটি আধুনিক ডেটা স্ট্যাক কি
আধুনিক ডেটা স্ট্যাক (MDS) হল প্রযুক্তির একটি স্ট্যাক যা একটি আধুনিক ডেটা গুদামকে একটি লিগ্যাসি ডেটা গুদামের চেয়ে 10-10,000 গুণ ভাল কার্য সম্পাদন করে। শেষ পর্যন্ত, একটি MDS সময়, অর্থ এবং প্রচেষ্টা বাঁচায়। একটি MDS এর চারটি স্তম্ভ হল a তথ্য সংযোজক, একটি ক্লাউড ডেটা গুদাম, একটি ডেটা ট্রান্সফরমার, এবং একটি BI এবং ডেটা অনুসন্ধান টুল.
সহজ ইন্টিগ্রেশন ম্যানেজড এবং ওপেন সোর্স টুলের সাহায্যে সম্ভব হয়েছে যা শত শত রেডি-টু-ব্যবহারের সংযোগকারীকে আগে থেকে তৈরি করে। নিয়মিতভাবে তৈরি এবং রক্ষণাবেক্ষণের জন্য ডেটা ইঞ্জিনিয়ারদের একটি দল যা ব্যবহার করত তা এখন সাধারণ ব্যবহারের ক্ষেত্রে একটি সরঞ্জাম দিয়ে প্রতিস্থাপন করা যেতে পারে। যেমন পরিচালিত সমাধান সেলাই এবং ফাইভট্রান, একসাথে ওপেন সোর্স সমাধানের মতো এয়ারবাইট এবং মেল্টানো, এই ঘটছে.
ব্যবহার করে একটি ক্লাউড-ভিত্তিক কলামার ডেটা গুদাম উচ্চ কর্মক্ষমতা এবং খরচ-কার্যকারিতার কারণে সম্প্রতি প্রবণতা হয়েছে। একটি অন-প্রিমিস MPP (ব্যাপকভাবে সমান্তরাল প্রক্রিয়াকরণ) ডাটাবেসের জন্য প্রতি বছর $100K প্রদানের পরিবর্তে, আপনি প্রতি মাসে $100 (বা কম) থেকে অর্থপ্রদান শুরু করতে পারেন। ক্লাউড-নেটিভ ডেটা গুদামগুলিকে প্রচলিত OLTP-এর তুলনায় 10-10,000 গুণ বেশি দ্রুত বলে বলা হয়৷ এই বিভাগে জনপ্রিয় বিকল্প আছে BigQuery- তে, তুষারকণা, এবং লোহিত সরণ.
পুরানো দিনে, প্রযুক্তির সীমাবদ্ধতার কারণে ডেটা গুদামের ভিতরে ডেটা প্রক্রিয়াকরণ বাধা ছিল। ফলস্বরূপ, ডেটা গুদামের কাজের চাপ কমাতে কোম্পানিগুলিকে ELT-এর পরিবর্তে ETL-এর পক্ষ নিতে হয়েছিল। ক্লাউড-নেটিভ ডেটা গুদামগুলির অগ্রগতির সাথে, তবে, অনেকগুলি ইন-ডেটা-গুদাম রূপান্তর সরঞ্জাম জনপ্রিয় হয়ে উঠছে। এই বিভাগে সবচেয়ে উল্লেখযোগ্য হল ডিবিটি (ডেটা বিল্ড টুল) এবং ডেটাফর্ম।
BI সরঞ্জাম লিগ্যাসি ডেটা গুদামগুলিতেও কাজের চাপ কমাতে কিছু রূপান্তরের যত্ন নিতে ব্যবহৃত হয়। যাইহোক, আধুনিক ডেটা স্ট্যাকের সাথে, BI সরঞ্জামগুলির ফোকাস স্থানান্তরিত হয়েছে (আমার মতে) ডেটা অ্যাক্সেস, স্ব-পরিষেবা এবং ডেটা আবিষ্কারকে গণতান্ত্রিক করার জন্য। কিছু সরঞ্জাম যা আমি মনে করি সঠিক দিকে যাচ্ছে লুকার, মেটাবেস, এবং সুপারসেট.
আমাদের স্থাপত্য
আধুনিক ডেটা স্ট্যাকের সাথে শুরু করা কঠিন হতে পারে কারণ অনেকগুলি বিভিন্ন সরঞ্জাম এবং প্রক্রিয়া জড়িত। এই নিবন্ধটির লক্ষ্য আপনাকে যতটা সম্ভব নির্বিঘ্নে এই যাত্রা শুরু করতে সাহায্য করা। অনেক প্রস্তুতি পদক্ষেপ আছে, কিন্তু এটি শুধুমাত্র লাগে পাঁচ মিনিট একবার আপনি সম্পন্ন করার জন্য সমস্ত সম্পদ ঘূর্ণন.
আমরা ব্যবহার করব Terraform, Google ক্লাউডে সবকিছুর ব্যবস্থা করার জন্য একটি অবকাঠামো-কোড ওপেন-সোর্স টুল। আপনি নীচের নির্দেশাবলী অনুসরণ করলে, এখানে যে সংস্থানগুলি তৈরি করা হবে তা রয়েছে৷
- প্রয়োজনীয় API সক্ষম সহ একটি Google ক্লাউড প্রকল্প
- ইনজেশন: এয়ারবাইট চালানোর একটি GCE উদাহরণ
- গুদামজাতকরণ: BigQuery ডেটাসেট
- অর্কেস্ট্রেশন (ঐচ্ছিক): এয়ারফ্লো চলমান একটি GCE উদাহরণ
- BI এবং ডেটা আবিষ্কার: মেটাবেস চালানোর একটি GCE উদাহরণ
- বিভিন্ন পরিষেবার জন্য পরিষেবা অ্যাকাউন্ট এবং তাদের IAM অনুমতি বাইন্ডিং
এবার শুরু করা যাক
একটি Google ক্লাউড অ্যাকাউন্ট তৈরি করুন এবং বিলিং সক্ষম করুন৷
এই প্রকল্পের Terraform কোড Google ক্লাউড প্ল্যাটফর্মের সাথে ইন্টারঅ্যাক্ট করবে। অতএব, আমাদের প্রথম পদক্ষেপ একটি Google অ্যাকাউন্ট তৈরি করা এবং বিলিং সক্ষম করুন। নোট করুন বিলিং আইডি বিলিং পৃষ্ঠায় নিম্নলিখিত বিন্যাস সহ: ######-#####-#####. পরবর্তী ধাপে আপনার এই মানটির প্রয়োজন হবে।
Google Cloud CLI ইনস্টল করুন
নির্দেশাবলী অনুসরণ করে Google Cloud SDK ইনস্টল করুন এখানে আপনার নিজ নিজ OS এর জন্য। আপনি আছে পরে জিক্লাউড CLI ইনস্টল করুন, একটি টার্মিনাল উইন্ডোতে নিম্নলিখিত কমান্ডটি চালান এবং নির্দেশাবলী অনুসরণ করুন। এটি Terraform কে প্রমাণীকরণের জন্য ডিফল্ট শংসাপত্র ব্যবহার করতে দেবে।
gcloud auth অ্যাপ্লিকেশন-ডিফল্ট লগইন
টেরাফর্ম ইনস্টল করুন
নির্দেশাবলী অনুসরণ করুন এখানে স্থানীয়ভাবে Terraform CLI ইনস্টল করতে। আপনার ইনস্টলেশন চেক করতে পরে নিম্নলিখিত কমান্ডটি চালান:
terraform -v
আপনি এই মত কিছু দেখতে হবে:
টেরাফর্ম v1.0.0 darwin_amd64 এ + প্রদানকারী registry.terraform.io/hashicorp/google v3.71.0
স্থানীয়ভাবে এই রেপোকে কাঁটা বা ক্লোন করুন
আপনি এই রেপো কাঁটা আপনার অ্যাকাউন্টে বা আপনার স্থানীয় মেশিনে ক্লোন করুন। রেপো ক্লোন করতে, নিম্নলিখিতটি চালান:
git ক্লোন https://github.com/tuanchris/modern-data-stack cd আধুনিক-ডেটা-স্ট্যাক
একটা তৈরি কর terraform.tfvars ফাইল
একটা তৈরি কর terraform.tfvars নিম্নলিখিত কন্টেন্ট সঙ্গে ফাইল:
# প্রথম ধাপ থেকে বিলিং আইডি billing_id = ######-######-###### # ফোল্ডার আইডি যেখানে আপনি আপনার প্রকল্পের অধীনে থাকতে চান # আপনি যদি ব্যক্তিগত অ্যাকাউন্ট ব্যবহার করেন তবে এটি খালি রাখুন ফোল্ডার_আইডি = "" # আপনি যেখানে আপনার প্রকল্পের অধীনে থাকতে চান তার সংস্থার আইডি # আপনি যদি ব্যক্তিগত অ্যাকাউন্ট ব্যবহার করেন তবে এটি খালি রাখুন org_id = "" # প্রজেক্ট তৈরি করতে হবে প্রকল্প_আইডি = ""
সতর্কতা: এগুলি সংবেদনশীল মান হিসাবে বিবেচিত হয়। এই ফাইলটি কমিট করবেন না এবং *.tfstate একটি পাবলিক রেপো ফাইল.
মধ্যে মান কাস্টমাইজ করুন variables.tf
মধ্যে ভেরিয়েবল variables.tf সম্পদের কনফিগারেশনের জন্য ব্যবহার করা হবে।
লেখকের ছবি।
আপনি ভেরিয়েবল পরিবর্তন করে বিভিন্ন পরিষেবার জন্য মেশিনের ধরন কাস্টমাইজ করতে পারেন। আপনি যদি কোনও পরিষেবা ব্যবহার করতে না চান তবে এটিতে মন্তব্য করুন gce.tf ফাইল.
সোর্স ডেটাসেট অভিধানে যোগ করে আপনি আপনার সোর্স সিস্টেমের জন্য বিভিন্ন ডেটাসেট তৈরি করতে পারেন।
একটি আধুনিক ডেটা স্ট্যাক তৈরি করুন
অবশেষে, Google ক্লাউডে এই সমস্ত সংস্থানগুলি সরবরাহ করতে, নিম্নলিখিত কমান্ডটি চালান:
Terraform প্রযোজ্য
লেখকের ছবি।
টার্মিনালে আউটপুট অধ্যয়ন করে নিশ্চিত করুন যে সমস্ত রিসোর্স সেটিংস আপনি সেগুলি হতে চান। টাইপ হাঁ এবং আঘাত প্রবেশ করান.
Terraform আমাদের আধুনিক ডেটা স্ট্যাকের সাথে একটি Google ক্লাউড প্রকল্প তৈরি করবে। পুরো প্রক্রিয়াটি প্রায় 2-3 মিনিট সময় নেবে। VM দৃষ্টান্তগুলিতে পরিষেবাগুলি ইনস্টল হতে অতিরিক্ত 2-3 মিনিট সময় লাগে৷ পুরো প্রক্রিয়াটি মাত্র 5 মিনিট বা তার কম সময় লাগবে।
আধুনিক ডেটা স্ট্যাক ব্যবহার করে
বিভিন্ন পরিষেবার জন্য পরিষেবা অ্যাকাউন্ট পুনরুদ্ধার করুন
লেখকের ছবি।
Google বিভিন্ন পরিষেবার জন্য একটি ভিন্ন পরিষেবা অ্যাকাউন্ট ব্যবহার করার পরামর্শ দেয়৷ প্রকল্পের টেরাফর্ম কোড ইতিমধ্যে ব্যবহৃত বিভিন্ন প্রযুক্তির জন্য বিভিন্ন অ্যাকাউন্ট তৈরি করেছে। একটি নির্দিষ্ট পরিষেবার জন্য একটি পরিষেবা অ্যাকাউন্ট পুনরুদ্ধার করতে, নিম্নলিখিত কমান্ডটি চালান:
টেরাফর্ম আউটপুট [সার্ভিস_নাম]_সা_কী
এই সব অ্যাকাউন্টের জন্য ডিফল্ট অনুমতি ভূমিকা/bigquery.admin. আপনি এটি কাস্টমাইজ করতে পারেন iam.tf ফাইল.
আপনি যে মানটি ফিরে পেয়েছেন তা হল base64 এনকোড করা। এই মানটিকে JSON ফর্ম্যাটে ফিরিয়ে আনতে, নিম্নলিখিত কমান্ডটি চালান:
echo "[পূর্ববর্তী কমান্ড থেকে মান]" | base64 -d
আপনি আপনার প্রকল্পের সংস্থানগুলিতে পরিষেবা অ্যাক্সেস প্রমাণীকরণ করতে JSON পরিষেবা অ্যাকাউন্ট ব্যবহার করতে পারেন।
সতর্কতা: এই পরিষেবা অ্যাকাউন্টের সাথে যে কেউ আপনার প্রকল্প অ্যাক্সেস করতে পারেন৷
Airbyte দিয়ে ডেটা ইনজেস্ট করুন
এয়ারবাইট একটি চমৎকার ওপেন সোর্স ডেটা ইন্টিগ্রেশন টুল। Airbyte UI অ্যাক্সেস করতে, প্রথমে, gcloud SSH কমান্ডটি পান।
লেখকের ছবি।
আপনি এই অনুরূপ একটি কমান্ড পাবেন:
gcloud বিটা কম্পিউট ssh --zone "এশিয়া-সাউথইস্ট1-এ" "tf-এয়ারবাইট-ডেমো-এয়ারবাইট" --প্রকল্প "tf-এয়ারবাইট-ডেমো"
এরপরে, স্থানীয়ভাবে Airbyte UI পোর্ট-ফরোয়ার্ড করতে কমান্ডে নিম্নলিখিত যোগ করুন:
-- -L 8000:localhost:8000 -L 8001:localhost:8001 -N -f
আপনার চূড়ান্ত কমান্ড এই মত দেখাবে:
gcloud beta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airbyte" --project "tf-airbyte-demo" -- -L 8000:localhost:8000 -L 8001:localhost:8001 - N -f
বিঃদ্রঃ: GCP UI থেকে অনুলিপি করার পরে নতুন লাইনের অক্ষরটি মুছে ফেলতে ভুলবেন না।
যদি Airbyte ইন্সট্যান্স শুরু করা শেষ হয়ে থাকে, তাহলে আপনি আপনার ব্রাউজারে গিয়ে এটি অ্যাক্সেস করতে পারেন স্থানীয় হোস্ট: 8000. যদি তা না হয়, ইন্সটলেশন সম্পূর্ণ করার জন্য পাঁচ মিনিট অপেক্ষা করুন।
লেখকের ছবি।
এখন আপনি আপনার উত্সগুলিকে সংহত করতে পারেন, ব্যবহার করে একটি BigQuery গন্তব্য যোগ করতে পারেন৷ airbyte_sa_key, এবং অল্প সময়ের মধ্যে BigQuery-এ আপনার ডেটা রাখুন।
আপনি এয়ারবাইট ইনস্টলেশন অ্যাক্সেস করতে পারেন /এয়ারবাইট/ ভিএম এর ভিতরে।
dbt সহ মডেল ডেটা
dbt (ডেটা বিল্ড টুল) SQL ব্যবহার করে একটি শক্তিশালী ওপেন সোর্স ডেটা ট্রান্সফরমেশন টুল। এটি ডেটা বিশ্লেষকদের পূর্বে ডেটা ইঞ্জিনিয়ারদের জন্য সংরক্ষিত কাজ করতে সক্ষম করে। এটি অ্যানালিটিক্স ইঞ্জিনিয়ার নামে একটি সম্পূর্ণ নতুন অবস্থান তৈরি করতে সহায়তা করে, এটি একটি ডেটা বিশ্লেষক এবং একটি ডেটা ইঞ্জিনিয়ারের একটি সংকর৷ আপনি আমার ব্লগে অবস্থান সম্পর্কে আরও পড়তে পারেন এখানে.
লেখকের ছবি।
এয়ারবাইট, এয়ারফ্লো এবং মেটাবেসের বিপরীতে, ডিবিটি চালানোর জন্য আপনার সার্ভারের প্রয়োজন নেই। আপনি তাদের পরিদর্শন করে একটি বিনামূল্যে (চিরকালের জন্য) 1-সিটের অ্যাকাউন্টের জন্য নিবন্ধন করতে পারেন ওয়েবসাইট.
এয়ারফ্লো সহ অর্কেস্ট্রেট ওয়ার্কফ্লো
বাতাসের প্রবাহ Airbnb দ্বারা তৈরি একটি যুদ্ধ-প্রমাণিত ওয়ার্কফ্লো অর্কেস্ট্রেশন টুল। একটি আধুনিক ডেটা স্ট্যাকের সাথে, আশা করি, আপনাকে এয়ারফ্লো খুব বেশি ব্যবহার করতে হবে না। যাইহোক, কিছু ক্ষেত্রে যেখানে কিছু কাস্টমাইজেশন প্রয়োজন, এয়ারফ্লো হতে পারে আপনার যাওয়ার টুল।
UI অ্যাক্সেস করতে, Airbyte-এর সাথে উপরের বিভাগের অনুরূপ SSH কমান্ডটি পান। পোর্ট-ফরোয়ার্ডের জন্য নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
gcloud beta compute ssh --zone "asia-souteast1-a" "tf-airbyte-demo-airflow" --project "tf-airbyte-demo" -- -L 8080:localhost:8080 -N -f
এখন আপনি এয়ারফ্লো ইনস্টলেশন অ্যাক্সেস করতে পারেন স্থানীয় হোস্ট: 8080. ডিফল্ট ব্যবহারকারীর নাম এবং পাসওয়ার্ড হয় অ্যাডমিন এবং অ্যাডমিন.
লেখকের ছবি।
আপনি এয়ারফ্লো ইনস্টলেশন অ্যাক্সেস করতে পারেন /বাতাসের প্রবাহ/ ভিএম এর ভিতরে।
মেটাবেস দিয়ে ডেটা ভিজ্যুয়ালাইজ করুন
মেটাবেস একটি ওপেন সোর্স ডেটা ভিজ্যুয়ালাইজেশন এবং আবিষ্কারের টুল। এটি সুপার ব্যবহারকারী-বান্ধব এবং শুরু করা সহজ।
মেটাবেস UI অ্যাক্সেস করতে, Airbyte-এর সাথে উপরের বিভাগের অনুরূপ SSH কমান্ড পান। তারপর, পোর্ট-ফরোয়ার্ডের জন্য নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
gcloud beta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-metabase" --project "tf-airbyte-demo" -- -L 3000:localhost:3000 -N -f
লেখকের ছবি।
পরিষ্কার কর
যেকোন অনাকাঙ্খিত খরচ এড়াতে, এই প্রকল্পে সৃষ্ট সংস্থানগুলি চালানোর মাধ্যমে পরিষ্কার করতে ভুলবেন না।
terraform ধ্বংস
সতর্কতা: এটি প্রকল্পে থাকা যেকোনো ডেটা এবং সংস্থান মুছে ফেলবে। বিকল্পভাবে, খরচ বাঁচাতে আপনি অব্যবহৃত GCE বন্ধ করতে পারেন।
মূল। অনুমতি নিয়ে পোস্ট করা।
বায়ো: টুয়ান এনগুইন জুন সলিউশনের CTO, একটি পরিষেবা সংস্থা হিসাবে একটি ডেটা৷ তার পেশাদার অভিজ্ঞতাগুলি ডেটা সায়েন্স টিম, বিশ্লেষণ পরিকাঠামো এবং বিশ্লেষণ ব্যবহারের ক্ষেত্রে তৈরি এবং পরিচালনা করে। তিনি এই ডিজিটাল দিন এবং যুগে ব্যবসাগুলিকে প্রতিযোগিতামূলক থাকতে সাহায্য করার জন্য ডেটা বিশ্লেষণ এবং ক্লাউড কম্পিউটিং এর প্রতি তার আবেগকে একত্রিত করতে পছন্দ করেন। জ্যোতির্বিদ্যা, পড়া, সঙ্গীত এবং আইওটি সহ তার বিস্তৃত আগ্রহ রয়েছে।
সম্পর্কিত:
সূত্র: https://www.kdnuggets.com/2021/08/bootstrap-modern-data-stack-terraform.html
- "
- &
- প্রবেশ
- হিসাব
- অতিরিক্ত
- Airbnb এর
- সব
- বিশ্লেষক
- বৈশ্লেষিক ন্যায়
- এ্যাপাচি
- API
- স্থাপত্য
- কাছাকাছি
- প্রবন্ধ
- জ্যোতির্বিদ্যা
- প্রমাণীকরণ
- গাড়ী
- বিটা
- বিগকোয়ারি
- বিলিং
- ব্লগ
- তক্তা
- বোর্ড সদস্য
- সীমান্ত
- ব্রাউজার
- নির্মাণ করা
- ভবন
- ব্যবসা
- যত্ন
- মামলা
- মেঘ
- ক্লাউড কম্পিউটিং
- ক্লাউড প্ল্যাটফর্ম
- কোড
- কোম্পানি
- কোম্পানি
- গনা
- কম্পিউটিং
- বিষয়বস্তু
- খরচ
- তৈরি করা হচ্ছে
- CTO
- উপাত্ত
- তথ্য এক্সেস
- ডেটা বিশ্লেষণ
- বিভিন্ন উপাদানের মিশ্রনের তথ্য
- তথ্য বিজ্ঞান
- ডেটা ভিজ্যুয়ালাইজেশন
- তথ্য গুদাম
- তথ্য গুদাম
- ডেটাবেস
- দিন
- গভীর জ্ঞানার্জন
- ধ্বংস
- ডিজিটাল
- Director
- আবিষ্কার
- প্রকৌশলী
- প্রকৌশলী
- অভিজ্ঞতা
- প্রথম
- কেন্দ্রবিন্দু
- অনুসরণ করা
- বিন্যাস
- বিনামূল্যে
- স্বর্ণ
- গুগল
- গুগল ক্লাউড
- জিপিইউ
- কৌশল
- এখানে
- উচ্চ
- কিভাবে
- HTTPS দ্বারা
- শত শত
- অকুলীন
- আমি
- ভাবমূর্তি
- সুদ্ধ
- পরিকাঠামো
- ইন্টিগ্রেশন
- জড়িত
- IOT
- IT
- শিখতে
- শিক্ষা
- লিঙ্কডইন
- স্থানীয়
- স্থানীয়ভাবে
- মেশিন লার্নিং
- মেকিং
- মধ্যম
- ML
- টাকা
- সঙ্গীত
- অনলাইন
- খোলা
- ওপেন সোর্স
- অভিমত
- অপশন সমূহ
- পাসওয়ার্ড
- কর্মক্ষমতা
- মাচা
- জনপ্রিয়
- প্রকল্প
- প্রকাশ্য
- পরিসর
- পড়া
- হ্রাস করা
- সংস্থান
- Resources
- চালান
- দৌড়
- বিজ্ঞান
- বিজ্ঞানীরা
- SDK
- স্ব সেবা
- সেবা
- সহজ
- সলিউশন
- ঘূর্ণন
- এসকিউএল
- শুরু
- শুরু
- থাকা
- খবর
- সিস্টেম
- প্রযুক্তি
- সময়
- শীর্ষ
- রুপান্তর
- রূপান্তর
- ui
- মূল্য
- কল্পনা
- অপেক্ষা করুন
- গুদাম
- হয়া যাই ?
- কর্মপ্রবাহ
- X
- বছর