AWS গ্লু স্টুডিও এখন সঙ্গে একত্রিত করা হয় AWS আঠালো ডেটাব্রু. AWS Glue Studio হল একটি গ্রাফিকাল ইন্টারফেস যা সহজে তৈরি করা, চালানো এবং নিরীক্ষণ করা, ট্রান্সফর্ম করা এবং লোড করা (ETL) কাজগুলি এডাব্লুএস আঠালো. DataBrew হল একটি ভিজ্যুয়াল ডেটা প্রস্তুতির টুল যা আপনাকে কোনো কোড না লিখেই ডেটা পরিষ্কার এবং স্বাভাবিক করতে সক্ষম করে। এটি প্রদান করে 200 টিরও বেশি রূপান্তরগুলি এখন একটি AWS Glue Studio ভিজ্যুয়াল কাজে ব্যবহারের জন্য উপলব্ধ।
ডেটাব্রুতে, ক প্রণালী ডেটা রূপান্তর পদক্ষেপগুলির একটি সেট যা আপনি এর স্বজ্ঞাত ভিজ্যুয়াল ইন্টারফেসে ইন্টারেক্টিভভাবে লিখতে পারেন। এই পোস্টে, আপনি দেখতে পাবেন কিভাবে DataBrew-এ একটি রেসিপি তৈরি করতে হয় এবং তারপর এটি একটি AWS Glue Studio ভিজ্যুয়াল ETL কাজের অংশ হিসেবে প্রয়োগ করতে হয়।
বর্তমান DataBrew ব্যবহারকারীরাও এই ইন্টিগ্রেশন থেকে উপকৃত হবেন—আপনি এখন উন্নত কাজের কনফিগারেশন এবং সর্বশেষ AWS Glue ইঞ্জিন সংস্করণ ব্যবহার করতে সক্ষম হওয়ার পাশাপাশি AWS Glue Studio প্রদানকারী অন্যান্য সমস্ত উপাদানগুলির সাথে একটি বৃহত্তর ভিজ্যুয়াল ওয়ার্কফ্লো অংশ হিসাবে আপনার রেসিপিগুলি চালাতে পারেন। .
এই একীকরণ উভয় সরঞ্জামের বিদ্যমান ব্যবহারকারীদের জন্য স্বতন্ত্র সুবিধা নিয়ে আসে:
- এডব্লিউএস গ্লু স্টুডিওতে সামগ্রিক ETL ডায়াগ্রামের শেষ থেকে শেষ পর্যন্ত আপনার একটি কেন্দ্রীভূত দৃশ্য রয়েছে
- আপনি ডেটাব্রু কনসোলে মান, পরিসংখ্যান এবং বিতরণ দেখে ইন্টারেক্টিভভাবে একটি রেসিপি সংজ্ঞায়িত করতে পারেন, তারপর AWS গ্লু স্টুডিও ভিজ্যুয়াল জবগুলিতে সেই পরীক্ষিত এবং সংস্করণযুক্ত প্রক্রিয়াকরণ লজিকটি পুনরায় ব্যবহার করতে পারেন
- আপনি একটি AWS Glue ETL কাজে একাধিক DataBrew রেসিপি বা AWS Glue ওয়ার্কফ্লো ব্যবহার করে একাধিক কাজ করতে পারেন
- DataBrew রেসিপিগুলি এখন AWS Glue কাজের বৈশিষ্ট্যগুলি ব্যবহার করতে পারে যেমন ক্রমবর্ধমান ডেটা প্রক্রিয়াকরণের জন্য বুকমার্ক, স্বয়ংক্রিয় পুনঃপ্রচার, স্বয়ংক্রিয় স্কেল, বা আরও দক্ষতার জন্য ছোট ফাইলগুলিকে গোষ্ঠীবদ্ধ করা
সমাধান ওভারভিউ
আমাদের কাল্পনিক ব্যবহারের ক্ষেত্রে, এই পোস্টের জন্য তৈরি করা একটি সিন্থেটিক চিকিৎসা দাবির ডেটাসেট পরিষ্কার করা প্রয়োজন, যাতে ডেটা প্রস্তুতির উপর ডেটাব্রু ক্ষমতা প্রদর্শনের উদ্দেশ্যে কিছু ডেটা গুণমানের সমস্যা রয়েছে। তারপরে দাবির ডেটা ক্যাটালগে প্রবেশ করানো হয় (তাই এটি বিশ্লেষকদের কাছে দৃশ্যমান), একটি পৃথক উত্স থেকে আগত সংশ্লিষ্ট চিকিৎসা প্রদানকারীদের সম্পর্কে কিছু প্রাসঙ্গিক বিবরণ দিয়ে সমৃদ্ধ করার পরে।
সমাধানটিতে একটি AWS গ্লু স্টুডিও ভিজ্যুয়াল জব রয়েছে যা যথাক্রমে দাবি এবং প্রদানকারীর সাথে দুটি CSV ফাইল পড়ে। কাজটি গুণমানের সমস্যা সমাধানের জন্য প্রথমটির একটি রেসিপি প্রয়োগ করে, দ্বিতীয়টি থেকে কলাম নির্বাচন করে, উভয় ডেটাসেটে যোগ দেয় এবং অবশেষে ফলাফলটি সংরক্ষণ করে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3), ক্যাটালগে একটি টেবিল তৈরি করে যাতে আউটপুট ডেটা অন্যান্য সরঞ্জাম দ্বারা ব্যবহার করা যায় যেমন অ্যামাজন অ্যাথেনা.
একটি DataBrew রেসিপি তৈরি করুন
দাবি ফাইলের জন্য ডেটা স্টোর নিবন্ধন করে শুরু করুন। এটি আপনাকে প্রকৃত ডেটা ব্যবহার করে এর ইন্টারেক্টিভ এডিটরে রেসিপি তৈরি করার অনুমতি দেবে যাতে আপনি রূপান্তরের ফলাফলগুলিকে সংজ্ঞায়িত করার সাথে সাথে মূল্যায়ন করতে পারেন।
- নিম্নলিখিত লিঙ্ক ব্যবহার করে দাবি CSV ফাইল ডাউনলোড করুন: alabama_claims_data_Jun2023.csv.
- DataBrew কনসোলে, নির্বাচন করুন ডেটাসেট নেভিগেশন ফলকে, তারপর নির্বাচন করুন নতুন ডেটাসেট সংযুক্ত করুন.
- বিকল্পটি বেছে নিন ফাইল আপলোড.
- জন্য ডাটাসেটের নামপ্রবেশ করান
Alabama claims
. - জন্য আপলোড করার জন্য একটি ফাইল নির্বাচন করুন, আপনি এইমাত্র আপনার কম্পিউটারে ডাউনলোড করা ফাইলটি চয়ন করুন৷
- জন্য S3 গন্তব্য লিখুন, আপনার অ্যাকাউন্ট এবং অঞ্চলের একটি বালতিতে প্রবেশ করুন বা ব্রাউজ করুন।
- ডিফল্টভাবে বাকি বিকল্পগুলি ছেড়ে দিন (CSV কমা এবং হেডার দিয়ে আলাদা করা হয়েছে) এবং ডেটাসেট তৈরি সম্পূর্ণ করুন।
- বেছে নিন প্রকল্প নেভিগেশন ফলকে, তারপর নির্বাচন করুন প্রকল্প তৈরি করুন.
- জন্য প্রকল্প নাম, নাম
ClaimsCleanup
. - অধীনে রেসিপি বিবরণজন্য সংযুক্ত রেসিপিনির্বাচন নতুন রেসিপি তৈরি করুন, নাম
ClaimsCleanup-recipe
, এবং চয়ন করুনAlabama claims
আপনার তৈরি করা ডেটাসেট। - একটি নির্বাচন করুন DataBrew জন্য উপযুক্ত ভূমিকা অথবা একটি নতুন তৈরি করুন, এবং প্রকল্প তৈরি সম্পূর্ণ করুন।
এটি ডেটার একটি কনফিগারযোগ্য উপসেট ব্যবহার করে একটি সেশন তৈরি করবে। এটি সেশন শুরু করার পরে, আপনি লক্ষ্য করতে পারেন যে কিছু কক্ষে অবৈধ বা অনুপস্থিত মান রয়েছে।
কলামে অনুপস্থিত মান ছাড়াও রোগ নির্ণয়ের কোড, দাবির পরিমান, এবং দাবি তারিখ, ডেটার কিছু মানগুলিতে কিছু অতিরিক্ত অক্ষর রয়েছে: রোগ নির্ণয়ের কোড মানগুলি কখনও কখনও “কোড” (স্পেস অন্তর্ভুক্ত), এবং পদ্ধতি কোড মানগুলি কখনও কখনও একক উদ্ধৃতি দ্বারা অনুসরণ করা হয়।
দাবির পরিমান মানগুলি সম্ভবত কিছু গণনার জন্য ব্যবহার করা হবে, তাই সংখ্যায় রূপান্তর করুন, এবং ডেটা দাবি করুন তারিখ টাইপ রূপান্তর করা উচিত.
এখন যেহেতু আমরা ডেটা মানের সমস্যাগুলি চিহ্নিত করেছি, তাই প্রতিটি ক্ষেত্রে কীভাবে মোকাবিলা করতে হবে তা আমাদের সিদ্ধান্ত নিতে হবে।
কলাম প্রসঙ্গ মেনু, উপরের টুলবার বা রেসিপি সারাংশ ব্যবহার সহ আপনি রেসিপি ধাপগুলি যোগ করতে পারেন এমন একাধিক উপায় রয়েছে। শেষ পদ্ধতিটি ব্যবহার করে, আপনি এই পোস্টে তৈরি রেসিপিটি প্রতিলিপি করতে নির্দেশিত ধাপের ধরনটি অনুসন্ধান করতে পারেন।
দাবির পরিমান এই ব্যবহারের ক্ষেত্রে অপরিহার্য, এবং সিদ্ধান্ত এই ধরনের সারি অপসারণ হয়.
- ধাপ যোগ করুন অনুপস্থিত মান সরান.
- জন্য উৎস কলামনির্বাচন দাবির পরিমান.
- ডিফল্ট অ্যাকশন ছেড়ে দিন অনুপস্থিত মান সহ সারি মুছুন এবং নির্বাচন করুন প্রয়োগ করা এটা বাঁচাতে
স্টেপ অ্যাপ্লিকেশান প্রতিফলিত করার জন্য দৃশ্যটি এখন আপডেট করা হয়েছে এবং অনুপস্থিত পরিমাণ সহ সারিগুলি আর নেই৷
রোগ নির্ণয়ের কোড খালি হতে পারে তাই এই গৃহীত হয়, কিন্তু ক্ষেত্রে দাবি তারিখ, আমরা একটি যুক্তিসঙ্গত অনুমান আছে চাই. ডেটার সারিগুলি কালানুক্রমিক ক্রমে সাজানো হয়েছে, তাই আপনি পূর্ববর্তী সারিগুলি থেকে প্রাকদর্শন বৈধ মান ব্যবহার করে অনুপস্থিত তারিখগুলিকে অভিযুক্ত করতে পারেন৷ ধরে নিচ্ছি যে প্রতিদিনের দাবি আছে, সবচেয়ে বড় ত্রুটিটি প্রিভিউ ডেতে এটিকে বরাদ্দ করা হবে যদি সেই দিনটি তারিখটি অনুপস্থিত প্রথম দাবি হয়; দৃষ্টান্তের উদ্দেশ্যে, আসুন সেই সম্ভাব্য ত্রুটিটিকে গ্রহণযোগ্য বিবেচনা করি।
প্রথমে, কলামটিকে স্ট্রিং থেকে তারিখের প্রকারে রূপান্তর করুন।
- ধাপ যোগ করুন ধরন পরিবর্তন করুন.
- বেছে নিন দাবি তারিখ কলাম হিসাবে এবং তারিখ টাইপ হিসাবে, তারপর চয়ন করুন প্রয়োগ করা.
- এখন অনুপস্থিত তারিখের অনুমান করতে, ধাপটি যোগ করুন অনুপস্থিত মানগুলি পূরণ করুন বা অভিযুক্ত করুন.
- কর্ম হিসাবে শেষ বৈধ মান দিয়ে পূরণ করুন নির্বাচন করুন এবং নির্বাচন করুন দাবি তারিখ উৎস হিসাবে
- বেছে নিন পূর্বরূপ পরিবর্তন এটি যাচাই করতে, তারপর নির্বাচন করুন প্রয়োগ করা পদক্ষেপ সংরক্ষণ করতে।
এখন পর্যন্ত, আপনার রেসিপিতে তিনটি ধাপ থাকা উচিত, যেমনটি নিম্নলিখিত স্ক্রিনশটে দেখানো হয়েছে।
- পরবর্তী, ধাপ যোগ করুন উদ্ধৃতি চিহ্ন সরান.
- পছন্দ পদ্ধতি কোড কলাম এবং নির্বাচন করুন অগ্রণী এবং পরবর্তী উদ্ধৃতি চিহ্ন.
- এটির পছন্দসই প্রভাব আছে যাচাই করতে পূর্বরূপ দেখুন এবং নতুন পদক্ষেপটি প্রয়োগ করুন।
- ধাপ যোগ করুন বিশেষ অক্ষর সরান.
- পছন্দ দাবির পরিমান কলাম এবং আরো নির্দিষ্ট হতে, নির্বাচন করুন কাস্টম বিশেষ অক্ষর এবং প্রবেশ করান
$
উন্নত কাস্টম বিশেষ অক্ষর লিখুন. - যুক্ত কর একটি ধরন পরিবর্তন করুন কলামে ধাপ দাবির পরিমান এবং নির্বাচন করুন ডবল টাইপ হিসাবে।
- শেষ ধাপ হিসাবে, অপ্রয়োজনীয় "কোড" উপসর্গ সরাতে, একটি যোগ করুন মান বা প্যাটার্ন প্রতিস্থাপন করুন ধাপ।
- কলাম নির্বাচন করুন রোগ নির্ণয়ের কোড, এবং জন্য কাস্টম মান লিখুনপ্রবেশ করান
code
(শেষে একটি স্থান সহ)।
এখন যেহেতু আপনি নমুনায় চিহ্নিত সমস্ত ডেটা মানের সমস্যা সমাধান করেছেন, প্রকল্পটিকে একটি রেসিপি হিসাবে প্রকাশ করুন৷
- বেছে নিন প্রকাশ করা মধ্যে প্রণালী ফলক, একটি ঐচ্ছিক বিবরণ লিখুন এবং প্রকাশনা সম্পূর্ণ করুন।
আপনি প্রতিবার প্রকাশ করার সময়, এটি রেসিপিটির একটি ভিন্ন সংস্করণ তৈরি করবে। পরে, আপনি রেসিপিটির কোন সংস্করণটি ব্যবহার করবেন তা চয়ন করতে সক্ষম হবেন।
AWS Glue Studio এ একটি ভিজ্যুয়াল ETL কাজ তৈরি করুন
এর পরে, আপনি রেসিপি ব্যবহার করে এমন কাজ তৈরি করুন। নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- AWS গ্লু স্টুডিও কনসোলে, নির্বাচন করুন ভিজ্যুয়াল ইটিএল নেভিগেশন ফলকে।
- বেছে নিন একটি ফাঁকা ক্যানভাস সঙ্গে ভিজ্যুয়াল এবং ভিজ্যুয়াল কাজ তৈরি করুন।
- কাজের শীর্ষে, আপনার পছন্দের একটি নাম দিয়ে "শিরোনামহীন চাকরি" প্রতিস্থাপন করুন।
- উপরে চাকরির বিস্তারিত ট্যাব, কাজটি ব্যবহার করবে এমন একটি ভূমিকা নির্দিষ্ট করুন।
এই একটি হতে হবে এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (আমি) AWS আঠালো জন্য উপযুক্ত ভূমিকা অ্যামাজন S3 এবং AWS গ্লু ডেটা ক্যাটালগের অনুমতি সহ। উল্লেখ্য যে DataBrew-এর জন্য আগে ব্যবহৃত ভূমিকাটি চালিত কাজের জন্য ব্যবহারযোগ্য নয়, তাই এতে তালিকাভুক্ত করা হবে না আইএএম ভূমিকা ড্রপ-ডাউন মেনু এখানে।
আপনি যদি আগে শুধুমাত্র DataBrew কাজগুলি ব্যবহার করেন, তাহলে লক্ষ্য করুন যে AWS Glue Studio-তে, আপনি কর্মক্ষমতা এবং খরচের সেটিংস বেছে নিতে পারেন, যার মধ্যে রয়েছে কর্মীর আকার, স্বয়ংক্রিয় স্কেলিং এবং নমনীয় এক্সিকিউশন, সেইসাথে সর্বশেষ AWS Glue 4.0 রানটাইম ব্যবহার করুন এবং এটি নিয়ে আসা উল্লেখযোগ্য কর্মক্ষমতা উন্নতিগুলি থেকে উপকৃত হন। এই কাজের জন্য, আপনি ডিফল্ট সেটিংস ব্যবহার করতে পারেন, কিন্তু মিতব্যয়ীতার স্বার্থে অনুরোধকৃত কর্মীদের সংখ্যা কমাতে পারেন। এই উদাহরণের জন্য, দুই শ্রমিক কাজ করবে। - উপরে চাক্ষুষ ট্যাবে, একটি S3 উত্স যোগ করুন এবং এটির নাম দিন
Providers
. - জন্য S3 URLপ্রবেশ করান
s3://awsglue-datasets/examples/medicare/Medicare_Hospital_Provider.csv
.
- হিসাবে বিন্যাস নির্বাচন করুন CSV তে এবং নির্বাচন করুন অনুমান স্কিমা.
এখন স্কিমা তালিকাভুক্ত করা হয়েছে আউটপুট স্কিমা ফাইল হেডার ব্যবহার করে ট্যাব।
এই ব্যবহারের ক্ষেত্রে, সিদ্ধান্ত হল যে প্রোভাইডার ডেটাসেটের সমস্ত কলামের প্রয়োজন নেই, তাই আমরা বাকিগুলি বাতিল করতে পারি।
- সঙ্গে সঙ্গে প্রোভাইডার নোড নির্বাচিত, একটি যোগ করুন ড্রপ ফিল্ডস রূপান্তর (যদি আপনি প্যারেন্ট নোডটি নির্বাচন না করেন তবে এটিতে একটি থাকবে না; সেক্ষেত্রে, নোড প্যারেন্টটি ম্যানুয়ালি বরাদ্দ করুন)।
- পরে সব ক্ষেত্র নির্বাচন করুন প্রদানকারীর জিপ কোড.
পরে, এই তথ্য প্রদানকারী ব্যবহার করে আলাবামা রাজ্যের জন্য দাবি দ্বারা যোগদান করা হবে; যাইহোক, সেই দ্বিতীয় ডেটাসেটে রাজ্য নির্দিষ্ট করা নেই। আমরা সত্যিই প্রয়োজনীয় ডেটা ফিল্টার করে যোগদানকে অপ্টিমাইজ করতে ডেটার জ্ঞান ব্যবহার করতে পারি।
- যুক্ত কর একটি ফিল্টার একটি শিশু হিসাবে রূপান্তরিত ড্রপ ফিল্ডস.
- নাম
Alabama providers
এবং একটি শর্ত যোগ করুন যে রাষ্ট্র অবশ্যই মেলেAL
. - দ্বিতীয় উৎস (একটি নতুন S3 উৎস) যোগ করুন এবং এটির নাম দিন
Alabama claims
. - প্রবেশ করতে S3 URL, একটি পৃথক ব্রাউজার ট্যাবে DataBrew খুলুন, নেভিগেশন প্যানে ডেটাসেট নির্বাচন করুন এবং টেবিলে টেবিলে দেখানো অবস্থানটি কপি করুন আলাবামা দাবি করেছে (s3:// দিয়ে শুরু হওয়া টেক্সটটি কপি করুন, HTTP লিঙ্ক যুক্ত নয়)। তারপর ভিজ্যুয়াল কাজের উপর ফিরে, এটি হিসাবে পেস্ট S3 URL; এটা সঠিক হলে, আপনি দেখতে পাবেন আউটপুট স্কিমা তালিকাভুক্ত ডেটা ক্ষেত্রগুলি ট্যাব করুন।
- CSV বিন্যাস নির্বাচন করুন এবং আপনি অন্য উৎসের মতো স্কিমা অনুমান করুন।
- এই উত্স একটি শিশু হিসাবে, অনুসন্ধান নোড যোগ করুন জন্য মেনু
recipe
এবং নির্বাচন করুন ডেটা প্রস্তুতির রেসিপি. - এই নতুন নোডের বৈশিষ্ট্যে, এটির নাম দিন
Claim cleanup recipe
এবং আপনি আগে প্রকাশিত রেসিপি এবং সংস্করণ চয়ন করুন। - আপনি এখানে রেসিপি পদক্ষেপগুলি পর্যালোচনা করতে পারেন এবং প্রয়োজনে পরিবর্তন করতে DataBrew-এর লিঙ্কটি ব্যবহার করতে পারেন।
- যুক্ত কর একটি যোগদান নোড এবং উভয় নির্বাচন করুন আলাবামা প্রদানকারী এবং পরিষ্কার রেসিপি দাবি পিতামাতা হিসাবে।
- উভয় উৎস থেকে প্রদানকারী আইডির সমান যোগদানের শর্ত যোগ করুন।
- শেষ ধাপ হিসাবে, একটি লক্ষ্য হিসাবে একটি S3 নোড যোগ করুন (মনে রাখবেন যে আপনি যখন অনুসন্ধান করবেন তখন তালিকাভুক্ত প্রথমটি উৎস; লক্ষ্য হিসাবে তালিকাভুক্ত সংস্করণটি আপনি নির্বাচন করেছেন তা নিশ্চিত করুন)।
- নোড কনফিগারেশনে, ডিফল্ট ফর্ম্যাট JSON ত্যাগ করুন এবং একটি S3 URL লিখুন যেখানে কাজের ভূমিকা লেখার অনুমতি রয়েছে৷
উপরন্তু, ক্যাটালগে একটি টেবিল হিসাবে ডেটা আউটপুট উপলব্ধ করুন।
- মধ্যে ডেটা ক্যাটালগ আপডেট বিকল্প বিভাগে, দ্বিতীয় বিকল্পটি নির্বাচন করুন ডেটা ক্যাটালগে একটি টেবিল তৈরি করুন এবং পরবর্তী রানে, স্কিমা আপডেট করুন এবং নতুন পার্টিশন যোগ করুন, তারপর একটি ডাটাবেস নির্বাচন করুন যেখানে আপনার টেবিল তৈরি করার অনুমতি আছে।
- দায়িত্ব অর্পণ করা
alabama_claims
নাম হিসাবে এবং চয়ন করুন দাবি তারিখ পার্টিশন কী হিসাবে (এটি উদাহরণের উদ্দেশ্যে; এই ধরনের একটি ছোট টেবিলের জন্য পার্টিশনের প্রয়োজন হয় না যদি পরবর্তী ডেটা যোগ করা না হয়)। - এখন আপনি সংরক্ষণ এবং কাজ চালাতে পারেন.
- উপরে রান ট্যাবে, আপনি প্রক্রিয়াটির ট্র্যাক রাখতে পারেন এবং কাজের আইডি লিঙ্কটি ব্যবহার করে বিশদ কাজের মেট্রিক্স দেখতে পারেন।
কাজটি সম্পূর্ণ হতে কয়েক মিনিট সময় নেওয়া উচিত।
- কাজ সম্পূর্ণ হলে, এথেনা কনসোলে নেভিগেট করুন।
- টেবিলের জন্য অনুসন্ধান করুন
alabama_claims
আপনার নির্বাচিত ডাটাবেসে এবং প্রসঙ্গ মেনু ব্যবহার করে নির্বাচন করুন পূর্বরূপ সারণী, যা টেবিলে একটি সাধারণ SELECT * SQL স্টেটমেন্ট চালাবে।
আপনি কাজের ফলাফলে দেখতে পাচ্ছেন যে ডেটা ব্রিউ রেসিপি দ্বারা ডেটা পরিষ্কার করা হয়েছে এবং AWS গ্লু স্টুডিও যোগদান দ্বারা সমৃদ্ধ হয়েছে।
Apache Spark হল ইঞ্জিন যা AWS Glue Studio-তে তৈরি করা কাজগুলি চালায়। এটি যে ইভেন্ট লগগুলি তৈরি করে তাতে স্পার্ক UI ব্যবহার করে, আপনি কাজের পরিকল্পনা সম্পর্কে অন্তর্দৃষ্টি দেখতে পারেন এবং চালাতে পারেন, যা আপনাকে বুঝতে সাহায্য করতে পারে যে আপনার কাজ কীভাবে পারফর্ম করছে এবং সম্ভাব্য পারফরম্যান্সের বাধা রয়েছে৷ উদাহরণস্বরূপ, একটি বড় ডেটাসেটে এই কাজের জন্য, আপনি যোগদান করার আগে স্পষ্টভাবে প্রদানকারীর অবস্থা ফিল্টার করার প্রভাব তুলনা করতে বা সমান্তরালতা উন্নত করতে একটি অটোব্যালেন্স ট্রান্সফর্ম যোগ করে আপনি উপকৃত হতে পারেন কিনা তা সনাক্ত করতে এটি ব্যবহার করতে পারেন।
ডিফল্টরূপে, কাজটি পাথের নিচে Apache Spark ইভেন্ট লগ সংরক্ষণ করবে s3://aws-glue-assets-<your account id>-<your region name>/sparkHistoryLogs/
. কাজগুলি দেখতে, আপনাকে ব্যবহার করে একটি ইতিহাস সার্ভার ইনস্টল করতে হবে উপলব্ধ পদ্ধতি এক.
পরিষ্কার কর
আপনার যদি এই সমাধানটির আর প্রয়োজন না হয়, আপনি Amazon S3, কাজের দ্বারা তৈরি টেবিল, DataBrew রেসিপি এবং AWS Glue জব তৈরি করা ফাইলগুলি মুছে ফেলতে পারেন৷
উপসংহার
এই পোস্টে, আমরা দেখিয়েছি কিভাবে আপনি প্রদত্ত ইন্টারেক্টিভ এডিটর ব্যবহার করে একটি রেসিপি তৈরি করতে AWS DataBrew ব্যবহার করতে পারেন এবং তারপর AWS Glue Studio ভিজ্যুয়াল ETL কাজের অংশ হিসেবে প্রকাশিত রেসিপিটি ব্যবহার করতে পারেন। AWS Glue Catalog সারণীতে ডেটা প্রস্তুতি এবং ডেটা ইনজেস্ট করার সময় আমরা সাধারণ কাজের কিছু উদাহরণ অন্তর্ভুক্ত করেছি।
এই উদাহরণটি ভিজ্যুয়াল কাজে একটি একক রেসিপি ব্যবহার করেছে, তবে ETL প্রক্রিয়ার বিভিন্ন অংশে একাধিক রেসিপি ব্যবহার করা সম্ভব, পাশাপাশি একাধিক কাজের ক্ষেত্রে একই রেসিপি পুনরায় ব্যবহার করা সম্ভব।
এই AWS আঠালো সমাধানগুলি আপনাকে কার্যকরভাবে উন্নত ETL পাইপলাইন তৈরি করতে দেয় যা নির্মাণ এবং রক্ষণাবেক্ষণের জন্য সহজ, সব কিছুই কোনো কোড না লিখে। আপনি আজকে উভয় সরঞ্জামকে একত্রিত করে এমন সমাধান তৈরি করা শুরু করতে পারেন।
লেখক সম্পর্কে
মিখাইল স্মিরনভ AWS Glue টিমের একজন Sr. Software Dev Engineer এবং AWS Glue DataBrew ডেভেলপমেন্ট টিমের অংশ। কাজের বাইরে, তার আগ্রহের মধ্যে রয়েছে গিটার বাজানো শেখা এবং তার পরিবারের সাথে ভ্রমণ।
গঞ্জালো হেরেরোস AWS Glue দলের একজন সিনিয়র বিগ ডেটা আর্কিটেক্ট। ডাবলিন, আয়ারল্যান্ডের উপর ভিত্তি করে, তিনি গ্রাহকদের AWS Glue-এর উপর ভিত্তি করে বড় ডেটা সমাধান দিয়ে সফল হতে সাহায্য করেন। তার অবসর সময়ে, তিনি বোর্ড গেম এবং সাইক্লিং উপভোগ করেন।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- প্লেটোইএসজি। মোটরগাড়ি / ইভি, কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
- ব্লকঅফসেট। পরিবেশগত অফসেট মালিকানার আধুনিকীকরণ। এখানে প্রবেশ করুন.
- উত্স: https://aws.amazon.com/blogs/big-data/use-aws-glue-databrew-recipes-in-your-aws-glue-studio-visual-etl-jobs/
- : আছে
- : হয়
- :না
- $ ইউপি
- 10
- 100
- 12
- 15%
- 20
- 200
- 22
- 26
- 28
- 500
- 7
- 8
- a
- সক্ষম
- সম্পর্কে
- গ্রহণযোগ্য
- গৃহীত
- প্রবেশ
- হিসাব
- কর্ম
- আসল
- যোগ
- যোগ
- যোগ
- যোগ
- ঠিকানা
- অগ্রসর
- পর
- আলাবামা
- সব
- অনুমতি
- এছাড়াও
- মর্দানী স্ত্রীলোক
- অ্যামাজন ওয়েব সার্ভিসেস
- পরিমাণে
- an
- বিশ্লেষকরা
- এবং
- কোন
- এ্যাপাচি
- আপা স্পার্ক
- আবেদন
- প্রয়োগ করা
- রয়েছি
- AS
- যুক্ত
- At
- লেখক
- গাড়ী
- স্বয়ংক্রিয়
- সহজলভ্য
- ডেস্কটপ AWS
- এডাব্লুএস আঠালো
- পিছনে
- ভিত্তি
- BE
- আগে
- হচ্ছে
- সুবিধা
- সুবিধা
- বিশাল
- বড় ডেটা
- ফাঁকা
- তক্তা
- বোর্ড গেম
- বুকমার্ক
- উভয়
- আনে
- ব্রাউজার
- নির্মাণ করা
- কিন্তু
- by
- CAN
- ক্ষমতা
- কেস
- তালিকা
- সেল
- কেন্দ্রীভূত
- পরিবর্তন
- পরিবর্তন
- অক্ষর
- শিশু
- পছন্দ
- বেছে নিন
- দাবি
- দাবি
- কোড
- স্তম্ভ
- কলাম
- মেশা
- আসছে
- সাধারণ
- তুলনা করা
- সম্পূর্ণ
- উপাদান
- কম্পিউটার
- শর্ত
- কনফিগারেশন
- বিবেচনা
- গঠিত
- কনসোল
- প্রসঙ্গ
- রূপান্তর
- ধর্মান্তরিত
- ঠিক
- অনুরূপ
- মূল্য
- পারা
- সৃষ্টি
- নির্মিত
- তৈরি করা হচ্ছে
- সৃষ্টি
- প্রথা
- গ্রাহকদের
- উপাত্ত
- ডেটা প্রস্তুতি
- তথ্য প্রক্রিয়াজাতকরণ
- উপাত্ত গুণমান
- ডেটাবেস
- ডেটাসেট
- তারিখ
- তারিখগুলি
- দিন
- লেনদেন
- সিদ্ধান্ত নেন
- রায়
- ডিফল্ট
- প্রদর্শন
- বিবরণ
- আকাঙ্ক্ষিত
- বিশদ
- বিস্তারিত
- দেব
- উন্নয়ন
- উন্নয়ন দল
- DID
- বিভিন্ন
- স্বতন্ত্র
- বিতরণ
- do
- না
- করছেন
- ডলার
- ডবল
- ড্রপ
- ডাব্লিন
- প্রতি
- সহজ
- সম্পাদক
- প্রভাব
- কার্যকরীভাবে
- সম্ভব
- শেষ
- ইঞ্জিন
- প্রকৌশলী
- সমৃদ্ধ
- সমৃদ্ধ করা
- প্রবেশ করান
- ভুল
- অপরিহার্য
- থার (eth)
- মূল্যায়ন
- এমন কি
- ঘটনা
- প্রতি
- প্রতিদিন
- উদাহরণ
- উদাহরণ
- বিদ্যমান
- অতিরিক্ত
- নির্যাস
- পরিবার
- এ পর্যন্ত
- বৈশিষ্ট্য
- কয়েক
- ক্ষেত্রসমূহ
- ফাইল
- নথি পত্র
- পূরণ করা
- ছাঁকনি
- ফিল্টারিং
- পরিশেষে
- প্রথম
- অনুসৃত
- অনুসরণ
- জন্য
- বিন্যাস
- থেকে
- অধিকতর
- গেম
- উত্পন্ন
- দাও
- বৃহত্তর
- আছে
- he
- সাহায্য
- সাহায্য
- এখানে
- তার
- ইতিহাস
- কিভাবে
- কিভাবে
- যাহোক
- এইচটিএমএল
- HTTP
- HTTPS দ্বারা
- আমি
- ID
- চিহ্নিত
- সনাক্ত করা
- পরিচয়
- if
- প্রভাব
- উন্নত করা
- উন্নতি
- in
- অন্তর্ভুক্ত করা
- অন্তর্ভুক্ত
- সুদ্ধ
- জ্ঞাপিত
- ইনপুট
- অর্ন্তদৃষ্টি
- ইনস্টল
- উদাহরণ
- সংহত
- ইন্টিগ্রেশন
- ইন্টারেক্টিভ
- স্বার্থ
- মধ্যে রয়েছে
- ইন্টারফেস
- মধ্যে
- উপস্থাপিত
- স্বজ্ঞাত
- আয়ারল্যাণ্ড
- সমস্যা
- IT
- এর
- কাজ
- জবস
- যোগদানের
- যোগদান
- JPG
- JSON
- মাত্র
- রাখা
- চাবি
- জ্ঞান
- বড়
- বৃহত্তর
- বৃহত্তম
- গত
- পরে
- সর্বশেষ
- শিক্ষা
- ত্যাগ
- মত
- সম্ভবত
- LINK
- তালিকাভুক্ত
- বোঝা
- অবস্থান
- যুক্তিবিদ্যা
- আর
- বজায় রাখা
- করা
- তৈরি করে
- ম্যানুয়ালি
- ম্যাচ
- চিকিৎসা
- মেনু
- পদ্ধতি
- পদ্ধতি
- ছন্দোবিজ্ঞান
- মিনিট
- অনুপস্থিত
- মনিটর
- অধিক
- বহু
- অবশ্যই
- নাম
- নেভিগেট করুন
- ন্যাভিগেশন
- প্রয়োজন
- প্রয়োজন
- চাহিদা
- নতুন
- না।
- নোড
- লক্ষ্য করুন..
- এখন
- সংখ্যা
- of
- on
- ONE
- কেবল
- খোলা
- অপ্টিমিজ
- পছন্দ
- অপশন সমূহ
- or
- ক্রম
- অন্যান্য
- আমাদের
- আউটপুট
- বাহিরে
- শেষ
- সামগ্রিক
- শার্সি
- অংশ
- যন্ত্রাংশ
- পথ
- কর্মক্ষমতা
- করণ
- অনুমতি
- অনুমতি
- পরিকল্পনা
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- খেলা
- সম্ভব
- পোস্ট
- সম্ভাব্য
- প্রস্তুতি
- প্রি
- প্রিভিউ
- প্রক্রিয়া
- প্রক্রিয়াজাতকরণ
- উত্পাদন করে
- প্রকল্প
- বৈশিষ্ট্য
- প্রদত্ত
- প্রদানকারী
- প্রদানকারীর
- উপলব্ধ
- প্রকাশন
- প্রকাশ করা
- প্রকাশিত
- উদ্দেশ্য
- উদ্দেশ্য
- গুণ
- কোট
- সত্যিই
- ন্যায্য
- প্রণালী
- রেসিপি
- হ্রাস করা
- প্রতিফলিত করা
- এলাকা
- নিবন্ধনের
- প্রাসঙ্গিক
- অপসারণ
- প্রতিস্থাপন করা
- অনুরোধ
- প্রয়োজনীয়
- প্রয়োজন
- যথাক্রমে
- বিশ্রাম
- ফল
- ফলাফল
- পুনঃব্যবহারের
- এখানে ক্লিক করুন
- ভূমিকা
- চালান
- রান
- একই
- সংরক্ষণ করুন
- স্কেল
- আরোহী
- সার্চ
- দ্বিতীয়
- অধ্যায়
- দেখ
- এইজন্য
- নির্বাচিত
- আলাদা
- সেবা
- সেশন
- সেট
- সেটিংস
- উচিত
- দেখিয়েছেন
- প্রদর্শিত
- চিহ্ন
- গুরুত্বপূর্ণ
- সহজ
- একক
- আয়তন
- ছোট
- So
- যতদূর
- সফটওয়্যার
- সমাধান
- সলিউশন
- কিছু
- উৎস
- সোর্স
- স্থান
- স্ফুলিঙ্গ
- প্রশিক্ষণ
- নির্দিষ্ট
- নিদিষ্ট
- এসকিউএল
- শুরু
- শুরু হচ্ছে
- রাষ্ট্র
- বিবৃতি
- পরিসংখ্যান
- ধাপ
- প্রারম্ভিক ব্যবহারের নির্দেশাবলী
- স্টোরেজ
- দোকান
- অকপট
- স্ট্রিং
- চিত্রশালা
- পরবর্তী
- সফল
- এমন
- উপযুক্ত
- সংক্ষিপ্তসার
- নিশ্চিত
- কৃত্রিম
- টেবিল
- গ্রহণ করা
- লক্ষ্য
- কাজ
- টীম
- প্রমাণিত
- যে
- সার্জারির
- উৎস
- রাষ্ট্র
- তাহাদিগকে
- তারপর
- সেখানে।
- এই
- তিন
- সময়
- থেকে
- আজ
- টুল
- সরঞ্জাম
- শীর্ষ
- পথ
- রুপান্তর
- রুপান্তর
- রূপান্তরের
- ভ্রমণ
- দুই
- আদর্শ
- ui
- অধীনে
- বোঝা
- আপডেট
- আপডেট
- URL টি
- উপভোগ্য
- ব্যবহার
- ব্যবহার ক্ষেত্রে
- ব্যবহৃত
- ব্যবহারকারী
- ব্যবহারসমূহ
- ব্যবহার
- যাচাই করুন
- মূল্য
- মানগুলি
- যাচাই
- সংস্করণ
- চেক
- দৃশ্যমান
- প্রয়োজন
- ছিল
- উপায়
- we
- ওয়েব
- ওয়েব সার্ভিস
- আমরা একটি
- ছিল
- কখন
- যে
- ইচ্ছা
- সঙ্গে
- ছাড়া
- হয়া যাই ?
- কর্মী
- শ্রমিকদের
- কর্মপ্রবাহ
- would
- লেখা
- লেখা
- আপনি
- আপনার
- zephyrnet
- ফ্যাস্ শব্দ