আজকের বিশ্বে, গ্রাহকরা তাদের মধ্যে প্রচুর পরিমাণে ডেটা পরিচালনা করে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) ডেটা লেক, যার জন্য ডেটা লেআউটের পরিবর্তনগুলিকে ক্রমাগতভাবে বুঝতে এবং সেগুলিকে ব্যবহারকারী সিস্টেমগুলিতে উপলব্ধ করার জন্য জটিল ডেটা পাইপলাইনগুলির প্রয়োজন৷ এডাব্লুএস আঠালো ক্রলারগুলি AWS Glue Data Catalog-এ ডেটা ক্যাটালগ করার একটি সহজ উপায় প্রদান করে যা স্কিমা পরিচালনা এবং ডেটা শ্রেণীবিভাগের ক্ষেত্রে ভারী উত্তোলনকে সরিয়ে দেয়। AWS Glue ক্রলারগুলি Amazon S3 থেকে ডেটা স্কিমা এবং পার্টিশনগুলিকে স্বয়ংক্রিয়ভাবে ডেটা ক্যাটালগ তৈরি করতে, মেটাডেটা বর্তমান রেখে।
কিন্তু সময়ের সাথে সাথে ডেটা দ্রুত বৃদ্ধির সাথে সাথে, একটি প্রদত্ত টেবিলে পার্টিশনের সংখ্যা উল্লেখযোগ্যভাবে বৃদ্ধি পেতে পারে। কারণ বিশ্লেষণ সেবা পছন্দ করে অ্যামাজন অ্যাথেনা লক্ষ লক্ষ পার্টিশন সমন্বিত একটি টেবিলের অনুসন্ধান করুন, পার্টিশন পুনরুদ্ধারের জন্য প্রয়োজনীয় সময় বৃদ্ধি পায় এবং কোয়েরি রানটাইম বৃদ্ধি করতে পারে।
আজ, AWS Glue ক্রলার সমর্থন বিভাজিত ডেটাসেটে ক্যোয়ারী প্রক্রিয়াকরণ অপ্টিমাইজ করার জন্য নতুন আবিষ্কৃত টেবিলের জন্য স্বয়ংক্রিয়ভাবে পার্টিশন সূচী যোগ করার জন্য প্রসারিত করা হয়েছে। এখন, যখন ক্রলার একটি ক্রলার চালানোর সময় একটি নতুন ডেটা ক্যাটালগ টেবিল তৈরি করে, তখন এটি ডিফল্টরূপে একটি পার্টিশন সূচীও তৈরি করে, যা সব সাংখ্যিক এবং স্ট্রিং টাইপ পার্টিশন কলামগুলির কী হিসাবে বৃহত্তম স্থানান্তর সহ। ডেটা ক্যাটালগ তারপর এই কীগুলির উপর ভিত্তি করে একটি অনুসন্ধানযোগ্য সূচক তৈরি করে, লক্ষ লক্ষ পার্টিশন সহ টেবিলে পার্টিশন মেটাডেটা পুনরুদ্ধার এবং ফিল্টার করার জন্য প্রয়োজনীয় সময় কমিয়ে দেয়। পার্টিশন ইনডেক্স তৈরি করা অ্যাথেনাতে চলমান অ্যানালিটিক্স ওয়ার্কলোডগুলিকে উপকৃত করে, আমাজন ইএমআর, আমাজন রেডশিফ্ট স্পেকট্রাম, এবং AWS আঠালো।
এই পোস্টে, আমরা বর্ণনা করি কিভাবে একটি AWS Glue ক্রলারের সাহায্যে পার্টিশন সূচী তৈরি করা যায় এবং Athena থেকে পার্টিশন সূচী সহ এবং ছাড়াই ক্রল করা ডেটা অ্যাক্সেস করার সময় কোয়েরি কর্মক্ষমতা উন্নতির তুলনা করি।
সমাধান ওভারভিউ
আমরা একটি ব্যবহার এডাব্লুএস ক্লাউডফর্মেশন আমাদের সমাধান সংস্থান তৈরি করতে টেমপ্লেট। নিম্নলিখিত ধাপে, আমরা AWS গ্লু কনসোল বা এডব্লিউএস গ্লু কনসোল ব্যবহার করে একটি পার্টিশন সূচক তৈরি করতে AWS Glue ক্রলারকে কীভাবে কনফিগার করতে হয় তা প্রদর্শন করি। এডাব্লুএস কমান্ড লাইন ইন্টারফেস (AWS CLI)। তারপর আমরা Athena ব্যবহার করে ক্যোয়ারী কর্মক্ষমতা উন্নতি তুলনা.
পূর্বশর্ত
এই পোস্টের সাথে অনুসরণ করতে, আপনার অবশ্যই একটি অ্যাক্সেস থাকতে হবে এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট AWS ক্লাউডফর্মেশন ব্যবহার করে সংস্থান তৈরি করতে (IAM) প্রশাসকের ভূমিকা।
আপনার সমাধান সংস্থান সেট আপ করুন
ক্লাউডফর্মেশন টেমপ্লেটটি নিম্নলিখিত সংস্থানগুলি উত্পন্ন করে:
- IAM ভূমিকা এবং নীতি
- স্কিমা ধরে রাখার জন্য একটি AWS আঠালো ডাটাবেস
- একটি AWS আঠালো ক্রলার একটি অত্যন্ত বিভাজিত ডেটাসেটের দিকে নির্দেশ করে৷
- ক্যোয়ারী ফলাফল সঞ্চয় করার জন্য একটি এথেনা ওয়ার্কগ্রুপ এবং বালতি
সমাধান সংস্থান সেট আপ করতে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- লগ ইন করুন এডাব্লুএস ম্যানেজমেন্ট কনসোল আইএএম প্রশাসক হিসাবে।
- বেছে নিন স্ট্যাক চালু করুন CloudFormation টেমপ্লেট স্থাপন করতে:
- জন্য ডাটাবেসনাম, ডিফল্ট রাখুন
blog_partition_index_crawlerdb
. - বেছে নিন পরবর্তী.
- চূড়ান্ত পৃষ্ঠায় বিশদটি পর্যালোচনা করুন এবং নির্বাচন করুন আমি স্বীকার করি যে এডাব্লুএস ক্লাউডফর্মেশন আইএএম সংস্থান তৈরি করতে পারে.
- বেছে নিন স্ট্যাক তৈরি করুন.
- স্ট্যাক সম্পূর্ণ হলে, AWS CloudFormation কনসোলে, নেভিগেট করুন আউটপুট স্ট্যাকের ট্যাব।
- এর মান নোট করুন
DatabaseName
এবংGlueCrawlerName
.
এই স্ট্যাক স্থাপন করে এমন কিছু সংস্থান ব্যবহার করার সময় খরচ হয়।
AWS Glue ক্রলার সম্পাদনা করুন এবং চালান
AWS Glue ক্রলার কনফিগার করতে এবং চালাতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- এডাব্লুএস আঠালো কনসোলে, নির্বাচন করুন ক্রোলের্স নেভিগেশন ফলকে।
- সনাক্ত করুন
crawler blog-partition-index-crawler
এবং নির্বাচন করুন সম্পাদন করা. - মধ্যে আউটপুট এবং সময়সূচী সেট করুন অধীন, বিভাগ উন্নত বিকল্প, নির্বাচন করুন স্বয়ংক্রিয়ভাবে পার্টিশন সূচী তৈরি করুন.
- ক্রলার সেটিংস পর্যালোচনা এবং আপডেট করুন।
বিকল্পভাবে, আপনি AWS CLI ব্যবহার করে আপনার ক্রলার কনফিগার করতে পারেন (আপনার IAM ভূমিকা এবং অঞ্চল প্রদান করুন):
- এখন ক্রলার চালান এবং যাচাই করুন যে ক্রলার চালানো সম্পূর্ণ হয়েছে।
এটি অত্যন্ত বিভাজিত ডেটাসেট এবং এটি সম্পূর্ণ হতে প্রায় 90 মিনিট সময় লাগবে৷
বিভাজিত টেবিল যাচাই করুন
AWS আঠালো ডাটাবেসে blog_partition_index_crawlerdb
, টেবিল যাচাই করুন highly_partitioned_table
সৃষ্ট.
ডিফল্টরূপে, ক্রলার পার্টিশন কলামের একই ক্রমে বৈধ কলামের প্রকারের পার্টিশন কলামগুলির বৃহত্তম স্থানান্তরের উপর ভিত্তি করে একটি সূচক নির্ধারণ করে, যা হয় সংখ্যাসূচক বা স্ট্রিং। ক্রলার দ্বারা তৈরি টেবিলের জন্য (highly_partitioned_table
), আমাদের পার্টিশন কলাম আছে year
(স্ট্রিং), month
(স্ট্রিং), day
(স্ট্রিং), এবং hour
(স্ট্রিং)।
এই সংজ্ঞার উপর ভিত্তি করে, ক্রলার বছর, মাস, দিন এবং ঘন্টার স্থানান্তরের উপর একটি সূচক তৈরি করেছে। ক্রলার এর সাথে উপসর্গযুক্ত সূচী তৈরি করেছে crawler_
ডিফল্টরূপে তৈরি যেকোনো পার্টিশন সূচকে।
টেবিলে নেভিগেট করে একই যাচাই করুন highly_partitioned_table
AWS আঠালো কনসোলে এবং নির্বাচন করুন ইনডেক্সে ট্যাব।
ক্রলার S3 ডেটা উত্স ক্রল করতে এবং টেবিলের জন্য পার্টিশন সূচীগুলি সফলভাবে পূরণ করতে সক্ষম হয়েছিল।
Athena ব্যবহার করে ক্যোয়ারী কর্মক্ষমতা উন্নতি তুলনা করুন
প্রথমত, আমরা পার্টিশন সূচী ব্যবহার না করে এথেনায় টেবিলটি জিজ্ঞাসা করি। এথেনা ব্যবহার করে টেবিল যাচাই করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- অ্যাথেনা কনসোলে, চয়ন করুন
crawler-primary-workgroup
এথেনা ওয়ার্কগ্রুপ হিসাবে এবং নির্বাচন করুন স্বীকার করা. - নিম্নলিখিত ক্যোয়ারী চালান:
নিম্নলিখিত স্ক্রিনশট দেখায় যে পার্টিশন সূচী ব্যবহার করে ফিল্টারিং সক্ষম না করে কোয়েরিটি প্রায় 32 সেকেন্ড সময় নিয়েছে৷
- এখন আমরা এথেনা ক্যোয়ারীতে পার্টিশন সূচক সক্রিয় করি:
- নিম্নলিখিত ক্যোয়ারীটি আবার চালান এবং রানটাইম নোট করুন:
নিম্নলিখিত স্ক্রিনশটটি দেখায় যে ক্যোয়ারীটি মাত্র 700 মিলিসেকেন্ড সময় নিয়েছে, যা পার্টিশন সূচক ব্যবহার করে ফিল্টারিং সক্ষম করার সাথে অনেক দ্রুত।
পরিষ্কার কর
আপনার AWS অ্যাকাউন্টে অবাঞ্ছিত চার্জ এড়াতে, আপনি AWS সম্পদ মুছে ফেলতে পারেন:
- CloudFormation স্ট্যাক তৈরি করার জন্য IAM অ্যাডমিন হিসেবে CloudFormation কনসোলে সাইন ইন করুন।
- আপনার তৈরি করা ক্লাউডফর্মেশন স্ট্যাকটি মুছুন।
উপসংহার
এই পোস্টে, আমরা ব্যাখ্যা করেছি কিভাবে পার্টিশন সূচী তৈরি করতে একটি AWS ক্রলার কনফিগার করতে হয় এবং Athena থেকে সূচীগুলির সাথে ডেটা অ্যাক্সেস করার সময় ক্যোয়ারী কর্মক্ষমতা তুলনা করে।
যদি টেবিলে কোনো পার্টিশন ইনডেক্স না থাকে, AWS Glue টেবিলের সমস্ত পার্টিশন লোড করে, এবং তারপর লোড করা পার্টিশনগুলিকে ফিল্টার করে, যার ফলে মেটাডেটা অদক্ষ পুনরুদ্ধার হয়। Redshift Spectrum, Amazon EMR, এবং AWS Glue ETL Spark DataFrames-এর মতো বিশ্লেষণ পরিষেবাগুলি এখন পার্টিশনগুলি আনার জন্য সূচীগুলি ব্যবহার করতে পারে, যার ফলে উল্লেখযোগ্য ক্যোয়ারী পারফরম্যান্স হয়৷
বিভিন্ন বিশ্লেষণাত্মক ইঞ্জিন জুড়ে পার্টিশন সূচী এবং অনুসন্ধান কর্মক্ষমতা সম্পর্কে আরও তথ্যের জন্য, পড়ুন AWS Glue Data Catalog Partition Indexes ব্যবহার করে Amazon Athena কোয়েরি কর্মক্ষমতা উন্নত করুন এবং এডাব্লুএস আঠালো বিভাজন সূচকগুলি ব্যবহার করে ক্যোয়ারি পারফরম্যান্সকে উন্নত করুন.
যারা এই ক্রলার বৈশিষ্ট্য লঞ্চে অবদান রেখেছেন তাদের প্রত্যেককে বিশেষ ধন্যবাদ: Yuhang Chen, Kyle Duong, and Mita Gavade.
লেখক সম্পর্কে
শ্রীবিদ্যা পার্থসারথি AWS লেক ফর্মেশন টিমের একজন সিনিয়র বিগ ডেটা আর্কিটেক্ট। তিনি ডেটা জাল সমাধান তৈরি করতে এবং সম্প্রদায়ের সাথে ভাগ করে নিতে উপভোগ করেন।
সন্দীপ আদওয়াঙ্কর AWS-এর একজন সিনিয়র টেকনিক্যাল প্রোডাক্ট ম্যানেজার। ক্যালিফোর্নিয়া বে এরিয়াতে অবস্থিত, তিনি ব্যবসা এবং প্রযুক্তিগত প্রয়োজনীয়তাগুলিকে পণ্যগুলিতে অনুবাদ করার জন্য বিশ্বজুড়ে গ্রাহকদের সাথে কাজ করেন যা গ্রাহকদের কীভাবে তারা ডেটা পরিচালনা, সুরক্ষিত এবং অ্যাক্সেস করতে পারে তা উন্নত করতে সক্ষম করে।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- ইভিএম ফাইন্যান্স। বিকেন্দ্রীভূত অর্থের জন্য ইউনিফাইড ইন্টারফেস। এখানে প্রবেশ করুন.
- কোয়ান্টাম মিডিয়া গ্রুপ। IR/PR প্রশস্ত। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ডেটা ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- উত্স: https://aws.amazon.com/blogs/big-data/efficiently-crawl-your-data-lake-and-improve-data-access-with-aws-glue-crawler-using-partition-indexes/
- : আছে
- : হয়
- :কোথায়
- $ ইউপি
- 1
- 100
- 11
- 27
- 32
- 8
- 9
- 90
- a
- সক্ষম
- প্রবেশ
- অ্যাক্সেস করা
- হিসাব
- স্বীকার করা
- দিয়ে
- যোগ
- অ্যাডমিন
- আবার
- সব
- বরাবর
- এছাড়াও
- মর্দানী স্ত্রীলোক
- অ্যামাজন অ্যাথেনা
- আমাজন ইএমআর
- অ্যামাজন ওয়েব সার্ভিসেস
- পরিমাণে
- an
- বিশ্লেষণাত্মক
- বৈশ্লেষিক ন্যায়
- এবং
- কোন
- আন্দাজ
- রয়েছি
- এলাকায়
- কাছাকাছি
- AS
- At
- স্বয়ংক্রিয়ভাবে
- সহজলভ্য
- এড়াতে
- ডেস্কটপ AWS
- এডাব্লুএস ক্লাউডফর্মেশন
- এডাব্লুএস আঠালো
- AWS লেক গঠন
- ভিত্তি
- উপসাগর
- কারণ
- হয়েছে
- সুবিধা
- বিশাল
- বড় ডেটা
- ভবন
- ব্যবসায়
- by
- ক্যালিফোর্নিয়া
- CAN
- তালিকা
- কারণ
- পরিবর্তন
- চার্জ
- চেন
- বেছে নিন
- নির্বাচন
- শ্রেণীবিন্যাস
- স্তম্ভ
- কলাম
- আসে
- সম্প্রদায়
- তুলনা করা
- তুলনা
- সম্পূর্ণ
- কনসোল
- একটানা
- অবদান রেখেছে
- খরচ
- ক্রলার
- সৃষ্টি
- নির্মিত
- সৃষ্টি
- তৈরি করা হচ্ছে
- সৃষ্টি
- বর্তমান
- গ্রাহকদের
- উপাত্ত
- তথ্য এক্সেস
- ডেটা লেক
- ডেটাবেস
- দিন
- ডিফল্ট
- প্রদর্শন
- স্থাপন
- স্থাপন
- বর্ণনা করা
- বিস্তারিত
- নির্ধারণ করে
- আবিষ্কৃত
- নিচে
- সময়
- দক্ষতার
- পারেন
- সক্ষম করা
- সক্ষম করা
- ইঞ্জিন
- থার (eth)
- সবাই
- সম্প্রসারিত
- ব্যাখ্যা
- ব্যাখ্যা মূলকভাবে
- নির্যাস
- তথ্য নিষ্কাশন
- দ্রুত
- বৈশিষ্ট্য
- ছাঁকনি
- ফিল্টারিং
- ফিল্টার
- চূড়ান্ত
- অনুসরণ করা
- অনুসরণ
- জন্য
- গঠন
- থেকে
- উত্পন্ন
- প্রদত্ত
- পৃথিবী
- হত্তয়া
- ক্রমবর্ধমান
- আছে
- he
- ভারী
- ভারী উত্তোলন
- অত্যন্ত
- রাখা
- ঘন্টা
- কিভাবে
- কিভাবে
- এইচটিএমএল
- HTTP
- HTTPS দ্বারা
- আমি
- পরিচয়
- উন্নত করা
- উন্নতি
- উন্নতি
- in
- বৃদ্ধি
- বৃদ্ধি
- সূচক
- ইনডেক্স
- অদক্ষ
- তথ্য
- মধ্যে
- IT
- JPG
- রাখা
- পালন
- কী
- হ্রদ
- বৃহত্তম
- শুরু করা
- বিন্যাস
- উদ্ধরণ
- মত
- লাইন
- লোড
- করা
- পরিচালনা করা
- ব্যবস্থাপনা
- পরিচালক
- জাল
- মেটাডাটা
- হতে পারে
- লক্ষ লক্ষ
- মিনিট
- মাস
- অধিক
- অনেক
- অবশ্যই
- নেভিগেট করুন
- নেভিগেট
- ন্যাভিগেশন
- প্রয়োজন
- নতুন
- সদ্য
- না।
- এখন
- সংখ্যা
- of
- on
- কেবল
- অপ্টিমিজ
- or
- ক্রম
- আমাদের
- আউটপুট
- শেষ
- পৃষ্ঠা
- শার্সি
- পথ
- কর্মক্ষমতা
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- পোস্ট
- বর্তমান
- প্রক্রিয়াজাতকরণ
- পণ্য
- পণ্য ব্যবস্থাপক
- পণ্য
- প্রদান
- হ্রাস
- এলাকা
- প্রয়োজনীয়
- আবশ্যকতা
- প্রয়োজন
- Resources
- ফলে এবং
- ফলাফল
- ভূমিকা
- ভূমিকা
- চালান
- দৌড়
- একই
- সেকেন্ড
- অধ্যায়
- নিরাপদ
- জ্যেষ্ঠ
- সেবা
- সেট
- সেটিংস
- শেয়ারিং
- সে
- শো
- গুরুত্বপূর্ণ
- উল্লেখযোগ্যভাবে
- সহজ
- সমাধান
- সলিউশন
- উৎস
- স্ফুলিঙ্গ
- বর্ণালী
- গাদা
- প্রারম্ভিক ব্যবহারের নির্দেশাবলী
- স্টোরেজ
- দোকান
- অকপট
- স্ট্রিং
- সফলভাবে
- সমর্থন
- সিস্টেম
- টেবিল
- গ্রহণ করা
- টীম
- কারিগরী
- টেমপ্লেট
- ধন্যবাদ
- যে
- সার্জারির
- তাদের
- তাহাদিগকে
- তারপর
- এইগুলো
- তারা
- এই
- সময়
- থেকে
- আজকের
- গ্রহণ
- অনুবাদ
- সত্য
- আদর্শ
- ধরনের
- অধীনে
- বোঝা
- অনাবশ্যক
- আপডেট
- ব্যবহার
- ব্যবহৃত
- ব্যবহার
- সদ্ব্যবহার করা
- মূল্য
- মানগুলি
- বিভিন্ন
- সুবিশাল
- যাচাই
- সংস্করণ
- ছিল
- উপায়..
- we
- ওয়েব
- ওয়েব সার্ভিস
- কখন
- যে
- হু
- ইচ্ছা
- সঙ্গে
- ছাড়া
- ওয়ার্কগ্রুপ
- কাজ
- বিশ্ব
- ইয়ামল
- বছর
- আপনি
- আপনার
- zephyrnet