অ্যাপাচি হুদি একটি ওপেন টেবিল ফরম্যাট যা ডেটা লেকে ডাটাবেস এবং ডেটা গুদামের ক্ষমতা নিয়ে আসে। Apache Hudi ডেটা ইঞ্জিনিয়ারদের জটিল চ্যালেঞ্জগুলি পরিচালনা করতে সাহায্য করে, যেমন লেনদেনের সাথে ক্রমাগত বিকশিত ডেটাসেটগুলি পরিচালনা করার সময় কোয়েরি কার্যক্ষমতা বজায় রাখা। ডেটা ইঞ্জিনিয়াররা কাজের চাপ স্ট্রিম করার পাশাপাশি দক্ষ বর্ধিত ডেটা পাইপলাইন তৈরি করার জন্য Apache Hudi ব্যবহার করে। হুদি প্রদান করে টেবিল, লেনদেন, দক্ষ আপসার্ট এবং মুছে ফেলা, উন্নত সূচক, স্ট্রিমিং ইনজেশন পরিষেবা, ডেটা থলোথলো এবং সন্নিবিষ্ট অপ্টিমাইজেশান, এবং সম্পাতবিন্দু নিয়ন্ত্রণ, ওপেন সোর্স ফাইল ফরম্যাটে আপনার ডেটা রাখার সময়। Apache Spark, Presto, Trino, Hive, ইত্যাদি সহ যেকোন জনপ্রিয় কোয়েরি ইঞ্জিনের সাথে হুডির উন্নত কর্মক্ষমতা অপ্টিমাইজেশন বিশ্লেষণাত্মক কাজের চাপকে দ্রুততর করে।
অনেক AWS গ্রাহকরা অ্যামাজন S3 ব্যবহার করে তাদের ডেটা লেকগুলিতে Apache Hudi গ্রহণ করেছেন এডাব্লুএস আঠালো, একটি সার্ভারহীন ডেটা ইন্টিগ্রেশন পরিষেবা যা বিশ্লেষণ, মেশিন লার্নিং (ML) এবং অ্যাপ্লিকেশন ডেভেলপমেন্টের জন্য একাধিক উত্স থেকে ডেটা আবিষ্কার, প্রস্তুত, সরানো এবং সংহত করা সহজ করে তোলে৷ AWS আঠালো ক্রলার এটি AWS Glue-এর একটি উপাদান, যা আপনাকে মেটাডেটার ম্যানুয়াল সংজ্ঞার প্রয়োজন ছাড়াই স্বয়ংক্রিয়ভাবে ডেটা সামগ্রী থেকে টেবিল মেটাডেটা তৈরি করতে দেয়।
AWS Glue ক্রলার এখন Apache Hudi টেবিল সমর্থন করে, গ্রহণ সহজীকরণ এডাব্লুএস আঠালো ডেটা ক্যাটালগ হুদি টেবিলের ক্যাটালগ হিসাবে। একটি সাধারণ ব্যবহারের ক্ষেত্রে হুডি টেবিল নিবন্ধন করা, যার ক্যাটালগ টেবিল সংজ্ঞা নেই। আরেকটি সাধারণ ব্যবহারের ক্ষেত্রে হল অন্যান্য হুডি ক্যাটালগ থেকে স্থানান্তর, যেমন হাইভ মেটাস্টোর। অন্যান্য Hudi ক্যাটালগ থেকে স্থানান্তরিত করার সময়, আপনি একটি AWS Glue ক্রলার তৈরি এবং সময়সূচী করতে পারেন এবং Hudi টেবিল ফাইলগুলি যেখানে অবস্থিত সেখানে এক বা একাধিক Amazon S3 পাথ প্রদান করতে পারেন৷ আপনার কাছে Amazon S3 পাথের সর্বোচ্চ গভীরতা প্রদান করার বিকল্প রয়েছে যা AWS Glue ক্রলার অতিক্রম করতে পারে। প্রতিটি রানের সাথে, AWS Glue ক্রলাররা স্কিমা এবং পার্টিশন তথ্য বের করবে এবং স্কিমা এবং পার্টিশন পরিবর্তনের সাথে AWS Glue ডেটা ক্যাটালগ আপডেট করবে। AWS Glue ক্রলারগুলি AWS Glue ডেটা ক্যাটালগে সর্বশেষ মেটাডেটা ফাইলের অবস্থান আপডেট করে যা AWS বিশ্লেষণাত্মক ইঞ্জিন সরাসরি ব্যবহার করতে পারে।
এই লঞ্চের মাধ্যমে, আপনি AWS Glue ডেটা ক্যাটালগে Hudi টেবিল নিবন্ধন করতে একটি AWS Glue ক্রলার তৈরি এবং সময়সূচী করতে পারেন। তারপর আপনি এক বা একাধিক Amazon S3 পাথ প্রদান করতে পারেন যেখানে হুডি টেবিলগুলি অবস্থিত। আপনার কাছে Amazon S3 পাথের সর্বাধিক গভীরতা প্রদান করার বিকল্প রয়েছে যা ক্রলাররা অতিক্রম করতে পারে। প্রতিটি ক্রলার চালানোর সাথে, ক্রলার প্রতিটি S3 পাথ পরিদর্শন করে এবং স্কিমা তথ্য ক্যাটালগ করে, যেমন AWS গ্লু ডেটা ক্যাটালগে নতুন টেবিল, মুছে ফেলা এবং স্কিমাগুলির আপডেট। ক্রলাররা পার্টিশনের তথ্য পরিদর্শন করে এবং AWS গ্লু ডেটা ক্যাটালগে নতুন যোগ করা পার্টিশন যোগ করে। ক্রলাররাও AWS গ্লু ডেটা ক্যাটালগে সর্বশেষ মেটাডেটা ফাইলের অবস্থান আপডেট করে যা AWS বিশ্লেষণাত্মক ইঞ্জিন সরাসরি ব্যবহার করতে পারে।
এই পোস্টটি প্রদর্শন করে কিভাবে হুডি টেবিল ক্রল করার এই নতুন ক্ষমতা কাজ করে।
কিভাবে AWS Glue ক্রলার হুডি টেবিলের সাথে কাজ করে
হুদি টেবিলের দুটি বিভাগ রয়েছে, যার প্রতিটির জন্য নির্দিষ্ট প্রভাব রয়েছে:
- লেখার উপর অনুলিপি (CoW) - ডেটা একটি কলামার ফরম্যাটে (পারকুয়েট) সংরক্ষণ করা হয় এবং প্রতিটি আপডেট একটি লেখার সময় ফাইলগুলির একটি নতুন সংস্করণ তৈরি করে৷
- রিড অন মার্জ (MoR) - কলামার (পারকুয়েট) এবং সারি-ভিত্তিক (অভ্র) ফর্ম্যাটের সমন্বয় ব্যবহার করে ডেটা সংরক্ষণ করা হয়। আপডেটগুলি সারি-ভিত্তিক লগ ইন করা হয়
delta
ফাইলগুলি এবং কলামার ফাইলগুলির নতুন সংস্করণ তৈরি করার জন্য প্রয়োজন অনুসারে কম্প্যাক্ট করা হয়।
CoW ডেটাসেটের সাথে, যখনই একটি রেকর্ডের আপডেট হয়, রেকর্ডটি ধারণ করা ফাইলটি আপডেট করা মানগুলির সাথে পুনরায় লেখা হয়। একটি MoR ডেটাসেটের সাথে, প্রতিবার একটি আপডেট হওয়ার সময়, Hudi পরিবর্তিত রেকর্ডের জন্য শুধুমাত্র সারি লেখে। কম পড়া সহ লেখা- বা পরিবর্তন-ভারী কাজের চাপের জন্য MoR আরও উপযুক্ত। কম ঘন ঘন পরিবর্তিত ডেটাতে পড়া-ভারী কাজের চাপের জন্য CoW আরও উপযুক্ত।
হুডি ডেটা অ্যাক্সেস করার জন্য তিনটি ক্যোয়ারী প্রকার সরবরাহ করে:
- স্ন্যাপশট প্রশ্ন - যে প্রশ্নগুলি একটি প্রদত্ত প্রতিশ্রুতি বা কমপ্যাকশন অ্যাকশন হিসাবে টেবিলের সর্বশেষ স্ন্যাপশট দেখতে পায়। MoR টেবিলের জন্য, স্ন্যাপশট ক্যোয়ারী কোয়েরির সময়ে সর্বশেষ ফাইল স্লাইসের বেস এবং ডেল্টা ফাইলগুলিকে মার্জ করে টেবিলের সবচেয়ে সাম্প্রতিক অবস্থা প্রকাশ করে।
- ক্রমবর্ধমান প্রশ্ন - প্রদত্ত প্রতিশ্রুতি বা কম্প্যাকশন থেকে প্রশ্নগুলি কেবলমাত্র টেবিলে লেখা নতুন ডেটা দেখতে পায়। এটি কার্যকরভাবে ক্রমবর্ধমান ডেটা পাইপলাইন সক্ষম করতে পরিবর্তন স্ট্রীম প্রদান করে।
- অপ্টিমাইজ করা প্রশ্ন পড়ুন – এমওআর টেবিলের জন্য, ক্যোয়ারীগুলি লেটেস্ট ডেটা কম্প্যাক্ট করা দেখুন। CoW টেবিলের জন্য, ক্যোয়ারী সাম্প্রতিক ডেটা প্রতিশ্রুতি দেখুন.
কপি-অন-রাইট টেবিলের জন্য, ক্রলাররা ReadOptimized Serde এর সাথে AWS Glue ডেটা ক্যাটালগে একটি একক টেবিল তৈরি করে org.apache.hudi.hadoop.HoodieParquetInputFormat
.
মার্জ-অন-রিড টেবিলের জন্য, ক্রলাররা একই টেবিল অবস্থানের জন্য AWS গ্লু ডেটা ক্যাটালগে দুটি টেবিল তৈরি করে:
- প্রত্যয় সহ একটি টেবিল
_ro
, যা ReadOptimized Serde ব্যবহার করেorg.apache.hudi.hadoop.HoodieParquetInputFormat
- প্রত্যয় সহ একটি টেবিল
_rt
, যা স্ন্যাপশট প্রশ্নের জন্য রিয়েলটাইম সার্ডে ব্যবহার করে:org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat
প্রতিটি ক্রল করার সময়, প্রদত্ত প্রতিটি হুদি পথের জন্য, ক্রলাররা একটি Amazon S3 তালিকা API কল করে, ফিল্টার .hoodie
ফোল্ডার, এবং সেই Hudi টেবিল মেটাডেটা ফোল্ডারের অধীনে সবচেয়ে সাম্প্রতিক মেটাডেটা ফাইল খুঁজুন।
AWS Glue ক্রলার ব্যবহার করে একটি Hudi CoW টেবিল ক্রল করুন
এই বিভাগে, আসুন AWS Glue ক্রলার ব্যবহার করে একটি Hudi CoW কিভাবে ক্রল করা যায় তা দেখুন।
পূর্বশর্ত
এখানে এই টিউটোরিয়ালের পূর্বশর্ত রয়েছে:
- ইনস্টল করুন এবং কনফিগার করুন AWS কমান্ড লাইন ইন্টারফেস (AWS CLI).
- আপনার যদি এটি না থাকে তবে আপনার S3 বালতি তৈরি করুন।
- AWS আঠালো জন্য আপনার IAM ভূমিকা তৈরি করুন যদি আপনার কাছে না থাকে। তোমার দরকার
s3:GetObject
উন্নতs3://your_s3_bucket/data/sample_hudi_cow_table/
. - আপনার S3 বালতিতে নমুনা হুডি টেবিলটি অনুলিপি করতে নিম্নলিখিত কমান্ডটি চালান। (প্রতিস্থাপন
your_s3_bucket
আপনার S3 বালতি নামের সাথে।)
এই নির্দেশনা আপনাকে নমুনা ডেটা অনুলিপি করতে গাইড করে, তবে আপনি AWS আঠালো ব্যবহার করে সহজেই যেকোনো হুডি টেবিল তৈরি করতে পারেন। আরও জানুন অ্যাপাচি স্পার্কের জন্য AWS Glue-এ Apache Hudi, Delta Lake, এবং Apache Iceberg-এর জন্য নেটিভ সাপোর্ট চালু করা হচ্ছে, পার্ট 2: AWS Glue Studio Visual Editor.
একটি হুডি ক্রলার তৈরি করুন
এই নির্দেশনায়, কনসোলের মাধ্যমে ক্রলার তৈরি করুন। একটি Hudi ক্রলার তৈরি করতে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- এডাব্লুএস আঠালো কনসোলে, নির্বাচন করুন ক্রোলের্স.
- বেছে নিন ক্রলার তৈরি করুন.
- জন্য নামপ্রবেশ করান
hudi_cow_crawler
। চয়ন করুন পরবর্তী. - অধীনে ডেটা সোর্স কনফিগারেশন, পছন্দ করা ডেটা উত্স যুক্ত করুন.
- জন্য তথ্য সূত্রনির্বাচন হুদি.
- জন্য হুদি টেবিল পাথ অন্তর্ভুক্ত করুনপ্রবেশ করান
s3://your_s3_bucket/data/sample_hudi_cow_table/
. (প্রতিস্থাপনyour_s3_bucket
আপনার S3 বালতি নামের সাথে।) - বেছে নিন হুডি ডেটা সোর্স যোগ করুন.
- বেছে নিন পরবর্তী.
- জন্য বিদ্যমান IAM ভূমিকা, আপনার IAM ভূমিকা চয়ন করুন, তারপর চয়ন করুন৷ পরবর্তী.
- জন্য টার্গেট ডাটাবেসনির্বাচন ডাটাবেস যোগ করুন, এরপর ডাটাবেস যোগ করুন ডায়ালগ প্রদর্শিত হয়। জন্য ডাটাবেস নামপ্রবেশ করান
hudi_crawler_blog
, তাহলে বেছে নাও সৃষ্টি। চয়ন করুন পরবর্তী. - বেছে নিন ক্রলার তৈরি করুন.
এখন একটি নতুন হুদি ক্রলার সফলভাবে তৈরি করা হয়েছে। ক্রলারটিকে কনসোলের মাধ্যমে বা SDK বা AWS CLI এর মাধ্যমে চালানোর জন্য ট্রিগার করা যেতে পারে StartCrawl
API এটি নির্দিষ্ট সময়ে ক্রলারগুলিকে ট্রিগার করার জন্য কনসোলের মাধ্যমেও নির্ধারিত হতে পারে। এই নির্দেশে, কনসোলের মাধ্যমে ক্রলার চালান।
- বেছে নিন ক্রলার চালান.
- ক্রলার সম্পূর্ণ হওয়ার জন্য অপেক্ষা করুন।
ক্রলার চালানোর পরে, আপনি AWS Glue কনসোলে Hudi টেবিল সংজ্ঞা দেখতে পাবেন:
আপনি সফলভাবে Amazon S3-এ ডেটা সহ Hudi CoR টেবিল ক্রল করেছেন এবং স্কিমা জনবহুল সহ একটি AWS Glue Data Catalog টেবিল তৈরি করেছেন৷ আপনি AWS Glue Data Catalog-এ টেবিলের সংজ্ঞা তৈরি করার পরে, AWS অ্যানালিটিক্স পরিষেবা যেমন Amazon Athena হুডি টেবিলকে জিজ্ঞাসা করতে সক্ষম হয়৷
এথেনা সম্পর্কে প্রশ্ন শুরু করতে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- Amazon Athena কনসোল খুলুন।
- নিম্নলিখিত ক্যোয়ারী চালান.
নিম্নলিখিত স্ক্রিনশট আমাদের আউটপুট দেখায়:
AWS লেক গঠন ডেটা অনুমতি সহ AWS Glue ক্রলার ব্যবহার করে একটি Hudi MoR টেবিল ক্রল করুন
এই বিভাগে, আসুন AWS Glue ব্যবহার করে একটি Hudi MoR টেবিল কীভাবে ক্রল করা যায় তা দেখুন। এই সময়, আপনি IAM এবং Amazon S3 অনুমতির পরিবর্তে Amazon S3 ডেটা উত্স ক্রল করার জন্য AWS লেক ফর্মেশন ডেটা অনুমতি ব্যবহার করুন৷ এটি ঐচ্ছিক, কিন্তু এটি অনুমতি কনফিগারেশন সহজ করে যখন আপনার ডেটা লেক AWS লেক গঠন অনুমতি দ্বারা পরিচালিত হয়।
পূর্বশর্ত
এখানে এই টিউটোরিয়ালের পূর্বশর্ত রয়েছে:
- ইনস্টল করুন এবং কনফিগার করুন AWS কমান্ড লাইন ইন্টারফেস (AWS CLI).
- আপনার যদি এটি না থাকে তবে আপনার S3 বালতি তৈরি করুন।
- AWS আঠালো জন্য আপনার IAM ভূমিকা তৈরি করুন যদি আপনার কাছে না থাকে। তোমার দরকার
lakeformation:GetDataAccess
. কিন্তু আপনার দরকার নেইs3:GetObject
উন্নতs3://your_s3_bucket/data/sample_hudi_mor_table/
কারণ আমরা ফাইলগুলি অ্যাক্সেস করতে লেক ফর্মেশন ডেটা অনুমতি ব্যবহার করি। - আপনার S3 বালতিতে নমুনা হুডি টেবিলটি অনুলিপি করতে নিম্নলিখিত কমান্ডটি চালান। (প্রতিস্থাপন
your_s3_bucket
আপনার S3 বালতি নামের সাথে।)
প্রক্রিয়াকরণের পদক্ষেপগুলি ছাড়াও, IAM-ভিত্তিক অ্যাক্সেস নিয়ন্ত্রণের পরিবর্তে ক্যাটালগ সংস্থানগুলি নিয়ন্ত্রণ করতে লেক গঠনের অনুমতিগুলি ব্যবহার করতে AWS Glue ডেটা ক্যাটালগ সেটিংস আপডেট করতে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- একটি ডেটা লেক প্রশাসক হিসাবে লেক ফর্মেশন কনসোলে সাইন ইন করুন৷
- যদি এই প্রথমবার লেক ফর্মেশন কনসোল অ্যাক্সেস করা হয়, ডেটা লেক প্রশাসক হিসাবে নিজেকে যোগ করুন।
- অধীনে প্রশাসননির্বাচন ডেটা ক্যাটালগ সেটিংস.
- জন্য নতুন তৈরি ডাটাবেস এবং টেবিলের জন্য ডিফল্ট অনুমতি, অনির্বাচন করুন নতুন ডাটাবেসের জন্য শুধুমাত্র IAM অ্যাক্সেস নিয়ন্ত্রণ ব্যবহার করুন এবং নতুন ডাটাবেসে নতুন টেবিলের জন্য শুধুমাত্র IAM অ্যাক্সেস নিয়ন্ত্রণ ব্যবহার করুন.
- জন্য ক্রস অ্যাকাউন্ট সংস্করণ সেটিংনির্বাচন সংস্করণ 3.
- বেছে নিন সংরক্ষণ করুন.
পরবর্তী পদক্ষেপটি হ'ল লেক ফর্মেশন ডেটা লেকের অবস্থানগুলিতে আপনার S3 বালতি নিবন্ধন করা:
- লেক ফর্মেশন কনসোলে, নির্বাচন করুন ডাটা লেকের অবস্থান, এবং চয়ন করুন অবস্থান নিবন্ধন করুন.
- জন্য Amazon S3 পথপ্রবেশ করান
s3://your_s3_bucket/
. (প্রতিস্থাপনyour_s3_bucket
আপনার S3 বালতি নামের সাথে।) - বেছে নিন অবস্থান নিবন্ধন করুন.
তারপরে, আঠালো ক্রলারের ভূমিকা ডেটা অবস্থানে অ্যাক্সেস মঞ্জুর করুন যাতে ক্রলার ডেটা অ্যাক্সেস করতে এবং অবস্থানে টেবিল তৈরি করতে লেক ফর্মেশন অনুমতি ব্যবহার করতে পারে:
- লেক ফর্মেশন কনসোলে, নির্বাচন করুন ডেটা অবস্থান এবং নির্বাচন করুন প্রদান.
- জন্য IAM ব্যবহারকারী এবং ভূমিকা, ক্রলারের জন্য আপনি যে IAM ভূমিকা ব্যবহার করেছেন তা নির্বাচন করুন।
- জন্য সংগ্রহস্থলের অবস্থানপ্রবেশ করান
s3://your_s3_bucket/data
/। (প্রতিস্থাপনyour_s3_bucket
আপনার S3 বালতি নামের সাথে।) - বেছে নিন প্রদান.
তারপর, ডাটাবেসের অধীনে টেবিল তৈরি করতে ক্রলারের ভূমিকা প্রদান করুন hudi_crawler_blog
:
- লেক ফর্মেশন কনসোলে, নির্বাচন করুন ডেটা লেকের অনুমতি.
- বেছে নিন প্রদান.
- জন্য প্রিন্সিপালনির্বাচন IAM ব্যবহারকারী এবং ভূমিকা, এবং ক্রলার ভূমিকা নির্বাচন করুন.
- জন্য LF ট্যাগ বা ক্যাটালগ সম্পদনির্বাচন নামকৃত ডেটা ক্যাটালগ সম্পদ.
- জন্য ডেটাবেস, ডাটাবেস নির্বাচন করুন
hudi_crawler_blog
. - অধীনে ডাটাবেস অনুমতি, নির্বাচন করুন ছক তৈরি কর.
- বেছে নিন প্রদান.
লেক ফর্মেশন ডেটা অনুমতি সহ একটি হুডি ক্রলার তৈরি করুন
একটি Hudi ক্রলার তৈরি করতে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- এডাব্লুএস আঠালো কনসোলে, নির্বাচন করুন ক্রোলের্স.
- বেছে নিন ক্রলার তৈরি করুন.
- জন্য নামপ্রবেশ করান
hudi_mor_crawler
। চয়ন করুন পরবর্তী. - অধীনে ডেটা সোর্স কনফিগারেশন, পছন্দ করা ডেটা উত্স যুক্ত করুন.
- জন্য তথ্য সূত্রনির্বাচন হুদি.
- জন্য হুদি টেবিল পাথ অন্তর্ভুক্ত করুনপ্রবেশ করান
s3://your_s3_bucket/data/sample_hudi_mor_table
/। (প্রতিস্থাপনyour_s3_bucket
আপনার S3 বালতি নামের সাথে।) - বেছে নিন হুডি ডেটা সোর্স যোগ করুন.
- বেছে নিন পরবর্তী.
- জন্য বিদ্যমান IAM ভূমিকা, আপনার আইএএম ভূমিকা চয়ন করুন।
- অধীনে লেক গঠন কনফিগারেশন – ঐচ্ছিক, নির্বাচন করুন S3 ডেটা উৎস ক্রল করার জন্য লেক গঠনের শংসাপত্র ব্যবহার করুন.
- বেছে নিন পরবর্তী.
- জন্য টার্গেট ডাটাবেসনির্বাচন
hudi_crawler_blog
। চয়ন করুন পরবর্তী. - বেছে নিন ক্রলার তৈরি করুন.
এখন একটি নতুন হুদি ক্রলার সফলভাবে তৈরি করা হয়েছে। ক্রলার Amazon S3 ফাইল ক্রল করার জন্য লেক ফর্মেশন শংসাপত্র ব্যবহার করে। আসুন নতুন ক্রলার চালাই:
- বেছে নিন ক্রলার চালান.
- ক্রলার সম্পূর্ণ হওয়ার জন্য অপেক্ষা করুন।
ক্রলার চালানোর পরে, আপনি AWS Glue কনসোলে Hudi টেবিল সংজ্ঞার দুটি টেবিল দেখতে পাবেন:
sample_hudi_mor_table_ro
(অপ্টিমাইজ করা টেবিল পড়ুন)sample_hudi_mor_table_rt
(রিয়েল টাইম টেবিল)
আপনি লেক ফর্মেশনের সাথে ডেটা লেক বাকেট নিবন্ধন করেছেন এবং লেক ফর্মেশন অনুমতিগুলি ব্যবহার করে ডেটা লেকে ক্রলিং অ্যাক্সেস সক্ষম করেছেন৷ আপনি সফলভাবে Amazon S3-এ ডেটা সহ Hudi MoR টেবিল ক্রল করেছেন এবং স্কিমা জনবহুল সহ একটি AWS Glue ডেটা ক্যাটালগ টেবিল তৈরি করেছেন৷ আপনি AWS Glue Data Catalog-এ টেবিলের সংজ্ঞা তৈরি করার পর, AWS অ্যানালিটিক্স পরিষেবা যেমন Amazon Athena হুডি টেবিলকে জিজ্ঞাসা করতে সক্ষম হয়।
এথেনা সম্পর্কে প্রশ্ন শুরু করতে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- Amazon Athena কনসোল খুলুন।
- নিম্নলিখিত ক্যোয়ারী চালান.
নিম্নলিখিত স্ক্রিনশট আমাদের আউটপুট দেখায়:
- নিম্নলিখিত ক্যোয়ারী চালান.
নিম্নলিখিত স্ক্রিনশট আমাদের আউটপুট দেখায়:
AWS লেক গঠন অনুমতি ব্যবহার করে সূক্ষ্ম প্রবেশাধিকার নিয়ন্ত্রণ
হুডি টেবিলে সূক্ষ্ম-দানাযুক্ত অ্যাক্সেস নিয়ন্ত্রণ প্রয়োগ করতে, আপনি AWS লেক গঠনের অনুমতিগুলি থেকে উপকৃত হতে পারেন। লেক গঠনের অনুমতিগুলি আপনাকে নির্দিষ্ট টেবিল, কলাম বা সারিগুলিতে অ্যাক্সেস সীমাবদ্ধ করতে এবং তারপরে সূক্ষ্ম-দানাযুক্ত অ্যাক্সেস নিয়ন্ত্রণের সাথে অ্যামাজন অ্যাথেনার মাধ্যমে হুডি টেবিলগুলিকে জিজ্ঞাসা করতে দেয়। হুডি এমওআর টেবিলের জন্য লেক গঠনের অনুমতি কনফিগার করা যাক।
পূর্বশর্ত
এখানে এই টিউটোরিয়ালের পূর্বশর্ত রয়েছে:
- পূর্ববর্তী বিভাগটি সম্পূর্ণ করুন AWS লেক গঠন ডেটা অনুমতি সহ AWS Glue ক্রলার ব্যবহার করে একটি Hudi MoR টেবিল ক্রল করুন.
- একটি IAM ব্যবহারকারী DataAnalyst তৈরি করুন, যার AWS পরিচালিত নীতি রয়েছে AmazonAthenaFullAccess.
একটি লেক গঠন ডেটা সেল ফিল্টার তৈরি করুন
চলুন প্রথমে MoR রিড অপ্টিমাইজ করা টেবিলের জন্য একটি ফিল্টার সেট আপ করি।
- একটি ডেটা লেক প্রশাসক হিসাবে লেক ফর্মেশন কনসোলে সাইন ইন করুন৷
- বেছে নিন ডেটা ফিল্টার.
- বেছে নিন নতুন ফিল্টার তৈরি করুন.
- জন্য ডেটা ফিল্টারের নামপ্রবেশ করান
exclude_product_price
. - জন্য টার্গেট ডাটাবেস, ডাটাবেস নির্বাচন করুন
hudi_crawler_blog
. - জন্য লক্ষ্য টেবিল, টেবিল নির্বাচন করুন
sample_hudi_mor_table_ro
. - জন্য কলাম-স্তর অ্যাক্সেস, নির্বাচন করুন কলাম বাদ দিন, এবং কলাম মূল্য চয়ন করুন.
- জন্য সারি ফিল্টার অভিব্যক্তিপ্রবেশ করান
true
. - বেছে নিন ফিল্টার তৈরি করুন.
DataAnalyst ব্যবহারকারীকে লেক গঠনের অনুমতি দিন
লেক গঠনের অনুমতি দেওয়ার জন্য নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন৷ DataAnalyst
ব্যবহারকারী
- লেক ফর্মেশন কনসোলে, নির্বাচন করুন ডেটা লেকের অনুমতি.
- বেছে নিন প্রদান.
- জন্য প্রিন্সিপালনির্বাচন IAM ব্যবহারকারী এবং ভূমিকা, এবং ব্যবহারকারী নির্বাচন করুন
DataAnalyst
. - জন্য LF ট্যাগ বা ক্যাটালগ সম্পদনির্বাচন নামকৃত ডেটা ক্যাটালগ সম্পদ.
- জন্য ডেটাবেস, ডাটাবেস নির্বাচন করুন
hudi_crawler_blog
. - জন্য টেবিল - ঐচ্ছিক, টেবিল নির্বাচন করুন
sample_hudi_mor_table_ro
. - জন্য ডেটা ফিল্টার - ঐচ্ছিক, নির্বাচন করুন
exclude_product_price
. - জন্য ডেটা ফিল্টার অনুমতি, নির্বাচন করুন নির্বাচন করা.
- বেছে নিন প্রদান.
আপনি ডাটাবেসে লেক গঠনের অনুমতি দিয়েছেন hudi_crawler_blog
এবং টেবিল sample_hudi_mor_table_ro
, কলাম বাদ দিয়ে price
ডেটা অ্যানালিস্ট ব্যবহারকারীর কাছে। এখন এথেনা ব্যবহার করে ডেটাতে ব্যবহারকারীর অ্যাক্সেস যাচাই করা যাক।
- ডেটা অ্যানালিস্ট ব্যবহারকারী হিসাবে অ্যাথেনা কনসোলে সাইন ইন করুন।
- ক্যোয়ারী এডিটরে, নিম্নলিখিত ক্যোয়ারী চালান:
নিম্নলিখিত স্ক্রিনশট আমাদের আউটপুট দেখায়:
এখন আপনি যে কলাম যাচাই price
দেখানো হয় না, কিন্তু অন্যান্য কলাম product_id
, product_name
, update_at
, এবং category
দেখানো হয়.
পরিষ্কার কর
আপনার AWS অ্যাকাউন্টে অবাঞ্ছিত চার্জ এড়াতে, নিম্নলিখিত AWS সংস্থানগুলি মুছুন:
- AWS আঠালো ডাটাবেস মুছুন
hudi_crawler_blog
. - AWS আঠালো ক্রলার মুছুন
hudi_cow_crawler
এবংhudi_mor_crawler
. - অধীনে Amazon S3 ফাইল মুছুন
s3://your_s3_bucket/data/sample_hudi_cow_table/
এবংs3://your_s3_bucket/data/sample_hudi_mor_table/
.
উপসংহার
এই পোস্টটি দেখিয়েছে কিভাবে AWS Glue ক্রলার হুডি টেবিলের জন্য কাজ করে। Hudi ক্রলারের জন্য সমর্থন সহ, আপনি দ্রুত AWS Glue Data Catalog কে আপনার প্রাথমিক Hudi টেবিল ক্যাটালগ হিসাবে ব্যবহার করতে পারেন। আপনি AWS-এ Hudi ব্যবহার করে AWS Glue, AWS Glue Data Catalog, এবং Lake Formation সূক্ষ্ম-দানাযুক্ত অ্যাক্সেস নিয়ন্ত্রণগুলি AWS বিশ্লেষণাত্মক ইঞ্জিন দ্বারা সমর্থিত টেবিল এবং বিন্যাসের জন্য আপনার সার্ভারহীন লেনদেন ডেটা লেক তৈরি করা শুরু করতে পারেন৷
লেখক সম্পর্কে
নরিতাকা সেকিয়ামা AWS Glue দলের একজন প্রধান বিগ ডেটা আর্কিটেক্ট। তিনি জাপানের টোকিওতে কাজ করেন। তিনি গ্রাহকদের সাহায্য করার জন্য সফ্টওয়্যার শিল্পকর্ম নির্মাণের জন্য দায়ী। অবসর সময়ে, তিনি তার রাস্তার বাইক নিয়ে সাইকেল চালানো উপভোগ করেন।
কাইল ডুওং AWS Glue এবং Lake Formation টিমের একজন সফটওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার। তিনি বড় তথ্য প্রযুক্তি এবং বিতরণ সিস্টেম নির্মাণ সম্পর্কে উত্সাহী.
সন্দীপ আদওয়াঙ্কর AWS-এর একজন সিনিয়র টেকনিক্যাল প্রোডাক্ট ম্যানেজার। ক্যালিফোর্নিয়া বে এরিয়াতে অবস্থিত, তিনি ব্যবসা এবং প্রযুক্তিগত প্রয়োজনীয়তাগুলিকে পণ্যগুলিতে অনুবাদ করার জন্য বিশ্বজুড়ে গ্রাহকদের সাথে কাজ করেন যা গ্রাহকদের কীভাবে তারা ডেটা পরিচালনা, সুরক্ষিত এবং অ্যাক্সেস করতে পারে তা উন্নত করতে সক্ষম করে।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
- প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
- উত্স: https://aws.amazon.com/blogs/big-data/introducing-apache-hudi-support-with-aws-glue-crawlers/
- : আছে
- : হয়
- :না
- :কোথায়
- $ ইউপি
- 10
- 100
- 11
- 13
- 17
- 67
- 7
- 8
- 9
- a
- সক্ষম
- সম্পর্কে
- প্রবেশ
- ডেটাতে অ্যাক্সেস
- অ্যাক্সেস করা
- হিসাব
- কর্ম
- যোগ
- যোগ
- যোগ
- গৃহীত
- গ্রহণ
- অগ্রসর
- পর
- সব
- অনুমতি
- অনুমতি
- অনুমতি
- এছাড়াও
- মর্দানী স্ত্রীলোক
- অ্যামাজন অ্যাথেনা
- অ্যামাজন ওয়েব সার্ভিসেস
- an
- বিশ্লেষণাত্মক
- বৈশ্লেষিক ন্যায়
- এবং
- অন্য
- কোন
- এ্যাপাচি
- আপা স্পার্ক
- API
- মনে হচ্ছে,
- আবেদন
- অ্যাপ্লিকেশন ডেভেলপমেন্ট
- প্রয়োগ করা
- রয়েছি
- এলাকায়
- কাছাকাছি
- AS
- At
- স্বয়ংক্রিয়ভাবে
- এড়াতে
- ডেস্কটপ AWS
- এডাব্লুএস আঠালো
- AWS লেক গঠন
- ভিত্তি
- ভিত্তি
- উপসাগর
- BE
- কারণ
- হয়েছে
- সুবিধা
- উত্তম
- বিশাল
- বড় ডেটা
- আনে
- ভবন
- নির্মিত
- ব্যবসায়
- কিন্তু
- by
- ক্যালিফোর্নিয়া
- কল
- CAN
- ক্ষমতা
- সামর্থ্য
- কেস
- তালিকা
- ক্যাটালগ
- বিভাগ
- কোষ
- চ্যালেঞ্জ
- পরিবর্তন
- পরিবর্তিত
- পরিবর্তন
- চার্জ
- বেছে নিন
- স্তম্ভ
- কলাম
- সমাহার
- সমর্পণ করা
- প্রতিজ্ঞাবদ্ধ
- সম্পূর্ণ
- জটিল
- উপাদান
- কনফিগারেশন
- কনসোল
- ধারণ
- বিষয়বস্তু
- একটানা
- নিয়ন্ত্রণ
- নিয়ন্ত্রণগুলি
- পারা
- ক্রলার
- সৃষ্টি
- নির্মিত
- সৃষ্টি
- পরিচয়পত্র
- গ্রাহকদের
- উপাত্ত
- বিভিন্ন উপাদানের মিশ্রনের তথ্য
- ডেটা লেক
- তথ্য গুদাম
- ডেটাবেস
- ডাটাবেস
- ডেটাসেট
- সংজ্ঞা
- সংজ্ঞা
- ব-দ্বীপ
- প্রদর্শিত
- প্রমান
- গভীরতা
- উন্নয়ন
- সরাসরি
- আবিষ্কার করা
- বণ্টিত
- বিতরণ সিস্টেম
- do
- না
- সময়
- প্রতি
- সহজ
- সহজে
- সম্পাদক
- কার্যকরীভাবে
- দক্ষ
- সক্ষম করা
- সক্ষম করা
- প্রকৌশলী
- প্রকৌশলী
- ইঞ্জিন
- প্রবেশ করান
- থার (eth)
- নব্য
- অপসারণ
- নির্যাস
- দ্রুত
- কম
- ফাইল
- নথি পত্র
- ছাঁকনি
- ফিল্টার
- আবিষ্কার
- প্রথম
- প্রথমবার
- অনুসরণ
- জন্য
- বিন্যাস
- গঠন
- ঘনঘন
- থেকে
- প্রদত্ত
- পৃথিবী
- Go
- প্রদান
- মঞ্জুর
- নির্দেশিকা
- Hadoop
- আছে
- he
- সাহায্য
- সাহায্য
- তার
- মধুচক্র
- কিভাবে
- কিভাবে
- এইচটিএমএল
- HTTPS দ্বারা
- আমি
- if
- প্রভাব
- উন্নত করা
- in
- সুদ্ধ
- ক্রমবর্ধমান
- তথ্য
- পরিবর্তে
- সম্পূর্ণ
- ইন্টিগ্রেশন
- ইন্টারফেস
- মধ্যে
- উপস্থাপক
- IT
- জাপান
- JPG
- পালন
- হ্রদ
- হ্রদ
- সর্বশেষ
- শুরু করা
- শিখতে
- শিক্ষা
- কম
- LIMIT টি
- লাইন
- তালিকা
- অবস্থিত
- অবস্থান
- অবস্থানগুলি
- লগ
- মেশিন
- মেশিন লার্নিং
- বজায় রাখার
- করা
- তৈরি করে
- পরিচালনা করা
- পরিচালিত
- পরিচালক
- পরিচালক
- ম্যানুয়াল
- সর্বাধিক
- মার্জ
- মেটাডাটা
- স্থানান্তর
- অভিপ্রয়াণ
- ML
- অধিক
- সেতু
- পদক্ষেপ
- বহু
- নাম
- স্থানীয়
- প্রয়োজন
- প্রয়োজন
- নতুন
- সদ্য
- পরবর্তী
- এখন
- of
- on
- ONE
- কেবল
- খোলা
- ওপেন সোর্স
- অপ্টিমাইজ
- পছন্দ
- or
- অন্যান্য
- আমাদের
- আউটপুট
- অংশ
- কামুক
- পথ
- পাথ
- কর্মক্ষমতা
- অনুমতি
- অনুমতি
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- জনপ্রিয়
- জনবহুল
- পোস্ট
- প্রস্তুত করা
- পূর্বশর্ত
- আগে
- মূল্য
- প্রাথমিক
- অধ্যক্ষ
- প্রক্রিয়াজাতকরণ
- পণ্য
- পণ্য ব্যবস্থাপক
- পণ্য
- প্রদান
- প্রদত্ত
- উপলব্ধ
- প্রশ্নের
- দ্রুত
- পড়া
- বাস্তব
- প্রকৃত সময়
- প্রকৃত সময়
- সাম্প্রতিক
- নথি
- খাতা
- নিবন্ধভুক্ত
- প্রতিস্থাপন করা
- আবশ্যকতা
- Resources
- দায়ী
- সীমাবদ্ধ করা
- রাস্তা
- ভূমিকা
- সারিটি
- চালান
- একই
- তফসিল
- তালিকাভুক্ত
- SDK
- অধ্যায়
- নিরাপদ
- দেখ
- নির্বাচন করা
- জ্যেষ্ঠ
- Serverless
- সেবা
- সেবা
- সেট
- সেটিংস
- প্রদর্শিত
- শো
- সরলীকৃত
- থেকে
- একক
- ফালি
- স্ন্যাপশট
- So
- সফটওয়্যার
- সফটওয়্যার উন্নয়ন
- উৎস
- সোর্স
- স্ফুলিঙ্গ
- নির্দিষ্ট
- শুরু
- রাষ্ট্র
- ধাপ
- প্রারম্ভিক ব্যবহারের নির্দেশাবলী
- সঞ্চিত
- স্ট্রিমিং
- স্ট্রিম
- চিত্রশালা
- সফলভাবে
- এমন
- সমর্থন
- সমর্থিত
- সুসংগত.
- সিস্টেম
- টেবিল
- টীম
- কারিগরী
- প্রযুক্তি
- যে
- সার্জারির
- তাদের
- তারপর
- সেখানে।
- তারা
- এই
- তিন
- দ্বারা
- সময়
- বার
- থেকে
- টোকিও
- শীর্ষ
- লেনদেনের
- লেনদেন
- অনুবাদ
- তর্ক করা
- ট্রিগার
- আলোড়ন সৃষ্টি
- অভিভাবকসংবঁধীয়
- দুই
- ধরনের
- টিপিক্যাল
- অধীনে
- অনাবশ্যক
- আপডেট
- আপডেট
- আপডেট
- ব্যবহার
- ব্যবহার ক্ষেত্রে
- ব্যবহৃত
- ব্যবহারকারী
- ব্যবহারকারী
- ব্যবহারসমূহ
- ব্যবহার
- যাচাই করুন
- যাচাই
- মানগুলি
- সংস্করণ
- চাক্ষুষ
- গুদাম
- we
- ওয়েব
- ওয়েব সার্ভিস
- আমরা একটি
- কখন
- যে
- যখন
- হু
- ইচ্ছা
- সঙ্গে
- ছাড়া
- হয়া যাই ?
- কাজ
- লেখা
- লিখিত
- আপনি
- আপনার
- নিজেকে
- zephyrnet