গ্রাহকরা ব্যবহার করেন আমাজন রেডশিফ্ট স্ট্রাকচার্ড এবং সেমি-স্ট্রাকচার্ড ডেটার পেটাবাইটে তাদের ব্যবসা-সমালোচনামূলক বিশ্লেষণ চালানোর জন্য। Apache Spark হল একটি জনপ্রিয় ফ্রেমওয়ার্ক যা আপনি ETL (এক্সট্রাক্ট, ট্রান্সফর্ম এবং লোড), ইন্টারেক্টিভ অ্যানালিটিক্স এবং মেশিন লার্নিং (ML) এর মতো ব্যবহারের ক্ষেত্রে অ্যাপ্লিকেশন তৈরি করতে ব্যবহার করতে পারেন। Apache Spark আপনাকে আপনার Amazon Redshift ডেটা গুদামের ডেটা অ্যাক্সেস করে জাভা, স্কালা এবং পাইথনের মতো বিভিন্ন ভাষায় অ্যাপ্লিকেশন তৈরি করতে সক্ষম করে।
অ্যাপাচি স্পার্কের জন্য অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশন ডেভেলপারদের অ্যামাজন রেডশিফ্ট ডেটাতে অ্যাপাচি স্পার্ক অ্যাপ্লিকেশনগুলি নির্বিঘ্নে তৈরি এবং চালাতে সহায়তা করে। বিকাশকারীরা যেমন AWS বিশ্লেষণ এবং ML পরিষেবাগুলি ব্যবহার করতে পারে আমাজন ইএমআর, এডাব্লুএস আঠালো, এবং আমাজন সেজমেকার অনায়াসে Apache Spark অ্যাপ্লিকেশন তৈরি করতে যা তাদের Amazon Redshift ডেটা গুদাম থেকে পড়তে এবং লিখতে পারে। আপনি আপনার অ্যাপ্লিকেশনের কর্মক্ষমতা বা আপনার ডেটার লেনদেনের ধারাবাহিকতার সাথে আপস না করে এটি করতে পারেন।
এই পোস্টে, আমরা আলোচনা করব কেন Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন বিশ্লেষণ এবং ML-এর জন্য গুরুত্বপূর্ণ এবং দক্ষ। উপরন্তু, আমরা ব্যবসায়িক প্রভাব চালনা করার জন্য Apache Spark-এর সাথে Amazon Redshift ইন্টিগ্রেশন ব্যবহার করে এমন ব্যবহারের ক্ষেত্রে আলোচনা করি। অবশেষে, আমরা আপনাকে Apache Spark অ্যাপ্লিকেশনে এই অফিসিয়াল AWS সংযোগকারীটি কীভাবে ব্যবহার করতে হয় তার ধাপে ধাপে উদাহরণ দিয়ে নিয়ে যাই।
Apache Spark এর জন্য Amazon Redshift ইন্টিগ্রেশন
অ্যাপাচি স্পার্কের জন্য অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশন একটি স্পার্ক-রেডশিফ্ট সংযোগকারী সেট আপ করার কষ্টকর এবং প্রায়শই ম্যানুয়াল প্রক্রিয়াকে হ্রাস করে (সম্প্রদায় সংস্করণ) এবং বিশ্লেষণ এবং ML কার্যগুলির জন্য প্রস্তুত করার জন্য প্রয়োজনীয় সময়কে ছোট করে। আপনাকে শুধুমাত্র আপনার ডেটা গুদামের সাথে সংযোগটি নির্দিষ্ট করতে হবে এবং আপনি মিনিটের মধ্যে আপনার Apache Spark-ভিত্তিক অ্যাপ্লিকেশনগুলি থেকে Amazon Redshift ডেটা নিয়ে কাজ শুরু করতে পারেন৷
আপনি সাজানো, সমষ্টি, সীমা, যোগদান এবং স্কেলার ফাংশনের মতো ক্রিয়াকলাপগুলির জন্য বেশ কয়েকটি পুশডাউন ক্ষমতা ব্যবহার করতে পারেন যাতে কেবলমাত্র প্রাসঙ্গিক ডেটা আপনার অ্যামাজন রেডশিফ্ট ডেটা গুদাম থেকে গ্রাসকারী Apache স্পার্ক অ্যাপ্লিকেশনে স্থানান্তরিত হয়। এটি আপনাকে আপনার অ্যাপ্লিকেশনগুলির কর্মক্ষমতা উন্নত করতে দেয়। অ্যামাজন রেডশিফ্ট অ্যাডমিনরা সহজেই স্পার্ক-ভিত্তিক অ্যাপ্লিকেশনগুলি থেকে তৈরি করা SQL সনাক্ত করতে পারে। এই পোস্টে, আমরা দেখাই কিভাবে আপনি Apache Spark কাজ দ্বারা উত্পন্ন SQL খুঁজে পেতে পারেন।
তাছাড়া, Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন একটি অস্থায়ী ডিরেক্টরিতে ডেটা স্টেজ করার সময় Parquet ফাইল ফর্ম্যাট ব্যবহার করে। Amazon Redshift এই অস্থায়ী ডেটা সঞ্চয় করতে UNLOAD SQL স্টেটমেন্ট ব্যবহার করে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3)। Apache Spark অ্যাপ্লিকেশনটি অস্থায়ী ডিরেক্টরি (Parquet ফাইল বিন্যাসে সংরক্ষিত) থেকে ফলাফল পুনরুদ্ধার করে, যা কর্মক্ষমতা উন্নত করে।
আপনি ব্যবহার করে আপনার অ্যাপ্লিকেশনগুলিকে আরও সুরক্ষিত করতে সাহায্য করতে পারেন৷ এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট Amazon Redshift এর সাথে সংযোগ করার জন্য (IAM) শংসাপত্র।
অ্যাপাচি স্পার্কের জন্য অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশন স্পার্ক-রেডশিফ্ট সংযোগকারীর উপরে তৈরি করা হয়েছে (সম্প্রদায় সংস্করণ) এবং কর্মক্ষমতা এবং নিরাপত্তার জন্য এটিকে উন্নত করে, আপনাকে 10 গুণ দ্রুত অ্যাপ্লিকেশান কার্যক্ষমতা অর্জনে সহায়তা করে।
Apache Spark এর সাথে Amazon Redshift ইন্টিগ্রেশনের ক্ষেত্রে কেস ব্যবহার করুন
আমাদের ব্যবহারের ক্ষেত্রে, পণ্য-ভিত্তিক কোম্পানির নেতৃত্ব একাধিক বাজারে প্রতিটি পণ্যের বিক্রয় জানতে চায়। যেহেতু কোম্পানির বিক্রয় গতিশীলভাবে ওঠানামা করে, তাই একাধিক বাজারে বিক্রয় ট্র্যাক করা নেতৃত্বের জন্য একটি চ্যালেঞ্জ হয়ে দাঁড়িয়েছে। যাইহোক, সামগ্রিক বিক্রয় হ্রাস পাচ্ছে, এবং কোম্পানির নেতৃত্ব খুঁজে বের করতে চায় কোন বাজারগুলি পারফর্ম করছে না যাতে তারা প্রচার প্রচারণার জন্য এই বাজারগুলিকে লক্ষ্য করতে পারে৷
একাধিক বাজার জুড়ে বিক্রয়ের জন্য, পণ্য বিক্রয় ডেটা যেমন অর্ডার, লেনদেন এবং চালানের ডেটা ডেটা লেকের মধ্যে Amazon S3-এ উপলব্ধ৷ ডেটা ইঞ্জিনিয়ারিং টিম Amazon EMR বা AWS Glue এর সাথে Apache Spark ব্যবহার করতে পারে এই ডেটা Amazon S3 এ বিশ্লেষণ করতে।
ইনভেন্টরি ডেটা অ্যামাজন রেডশিফ্টে উপলব্ধ। একইভাবে, ডেটা ইঞ্জিনিয়ারিং দল অ্যামাজন EMR ব্যবহার করে Apache Spark এর সাথে এই ডেটা বিশ্লেষণ করতে পারে বা AWS Glue জব Apache Spark-এর জন্য অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশন ব্যবহার করে অ্যাগ্রিগেশন এবং ট্রান্সফর্মেশন করতে পারে। Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করে একত্রিত এবং রূপান্তরিত ডেটাসেট আবার Amazon Redshift-এ সংরক্ষণ করা যেতে পারে।
Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন সহ Apache Spark-এর মতো একটি বিতরণ করা ফ্রেমওয়ার্ক ব্যবহার করে বিক্রয় অন্তর্দৃষ্টি তৈরি করতে ডেটা লেক এবং ডেটা গুদাম জুড়ে দৃশ্যমানতা প্রদান করতে পারে। এই অন্তর্দৃষ্টিগুলি আমাজন রেডশিফ্টের ব্যবসায়িক স্টেকহোল্ডারদের এবং ব্যবসায়িক ব্যবহারকারীদের লাইনের কাছে উপলব্ধ করা যেতে পারে যাতে কম রাজস্ব বাজারের অংশগুলির জন্য লক্ষ্যযুক্ত প্রচার চালানোর জন্য জ্ঞাত সিদ্ধান্ত নেওয়া যায়।
উপরন্তু, আমরা নিম্নলিখিত ব্যবহারের ক্ষেত্রে Apache Spark এর সাথে Amazon Redshift ইন্টিগ্রেশন ব্যবহার করতে পারি:
- অ্যামাজন ইএমআর বা এডব্লিউএস গ্লু গ্রাহক অ্যাপাচি স্পার্ক জব চালাচ্ছেন তারা তাদের ইটিএল পাইপলাইনের একটি অংশ হিসাবে ডেটা রূপান্তর করতে এবং এটিকে অ্যামাজন রেডশিফ্টে লিখতে চান
- একজন এমএল গ্রাহক অ্যামাজন রেডশিফ্টে ডেটা অ্যাক্সেস এবং রূপান্তর করার জন্য ফিচার ইঞ্জিনিয়ারিংয়ের জন্য সেজমেকারের সাথে অ্যাপাচি স্পার্ক ব্যবহার করেন
- একজন Amazon EMR, AWS Glue, বা SageMaker গ্রাহক নোটবুক থেকে Amazon Redshift-এর ডেটা সহ ইন্টারেক্টিভ ডেটা বিশ্লেষণের জন্য Apache Spark ব্যবহার করে
Apache Spark অ্যাপ্লিকেশনে Apache Spark এর জন্য Amazon Redshift ইন্টিগ্রেশনের উদাহরণ
এই পোস্টে, আমরা অ্যামাজন ইএমআর থেকে অ্যামাজন রেডশিফ্ট সংযোগ করার পদক্ষেপগুলি দেখাই অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (Amazon EC2), আমাজন ইএমআর সার্ভারহীন, এবং AWS আঠালো একটি সাধারণ স্ক্রিপ্ট ব্যবহার করে। নিম্নলিখিত নমুনা কোডে, আমরা 2008 সালের ত্রৈমাসিক বিক্রয় দেখানো একটি প্রতিবেদন তৈরি করি। এটি করার জন্য, আমরা একটি Apache Spark DataFrame ব্যবহার করে দুটি Amazon Redshift টেবিলে যোগদান করি, একটি পূর্বনির্ধারিত পুশডাউন চালাই, ডেটা একত্রিত এবং সাজান এবং রূপান্তরিত লিখি ডেটা অ্যামাজন রেডশিফ্টে ফিরে আসে। স্ক্রিপ্ট PySpark ব্যবহার করে
স্ক্রিপ্ট ব্যবহার করে Amazon Redshift-এর জন্য IAM-ভিত্তিক প্রমাণীকরণ. Amazon EMR এবং AWS Glue দ্বারা ব্যবহৃত IAM ভূমিকাগুলিতে Amazon Redshift প্রমাণীকরণের উপযুক্ত অনুমতি থাকা উচিত এবং অস্থায়ী ডেটা স্টোরেজের জন্য S3 বালতিতে অ্যাক্সেস থাকা উচিত।
নিম্নলিখিত উদাহরণ নীতি IAM ভূমিকা কল করতে অনুমতি দেয় GetClusterCredentials
কার্যক্রম:
নিম্নলিখিত উদাহরণ নীতি অস্থায়ী ডেটা স্টোরেজের জন্য একটি S3 বালতিতে অ্যাক্সেসের অনুমতি দেয়:
সম্পূর্ণ স্ক্রিপ্টটি নিম্নরূপ:
আপনি যদি আপনার পরিবেশে পূর্ববর্তী স্ক্রিপ্ট ব্যবহার করার পরিকল্পনা করেন, তাহলে নিশ্চিত করুন যে আপনি নিম্নলিখিত ভেরিয়েবলের মানগুলিকে আপনার পরিবেশের জন্য উপযুক্ত মান দিয়ে প্রতিস্থাপন করেছেন: jdbc_iam_url
, temp_dir
, এবং aws_role
.
পরবর্তী বিভাগে, আমরা অ্যামাজন রেডশিফ্টে উপলব্ধ একটি নমুনা ডেটাসেট একত্রিত করতে এই স্ক্রিপ্টটি চালানোর পদক্ষেপগুলি দিয়ে চলেছি।
পূর্বশর্ত
আমরা শুরু করার আগে, নিম্নলিখিত পূর্বশর্তগুলি পূরণ হয়েছে তা নিশ্চিত করুন:
AWS CloudFormation ব্যবহার করে সম্পদ স্থাপন করুন
CloudFormation স্ট্যাক স্থাপন করতে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- সাইন ইন করুন এডাব্লুএস ম্যানেজমেন্ট কনসোল, তারপর CloudFormation স্ট্যাক চালু করুন:
আপনি এটিও করতে পারেন CloudFormation টেমপ্লেট ডাউনলোড করুন কোড (IaC) হিসাবে অবকাঠামোর মাধ্যমে এই পোস্টে উল্লিখিত সংস্থানগুলি তৈরি করতে। একটি নতুন CloudFormation স্ট্যাক চালু করার সময় এই টেমপ্লেটটি ব্যবহার করুন৷
- নির্বাচন করতে পৃষ্ঠার নীচে স্ক্রোল করুন আমি স্বীকার করি যে এডাব্লুএস ক্লাউডফর্মেশন আইএএম সংস্থান তৈরি করতে পারে অধীনে কেপেবিলিটিস, তাহলে বেছে নাও স্ট্যাক তৈরি করুন.
স্ট্যাক তৈরির প্রক্রিয়াটি সম্পূর্ণ হতে 15-20 মিনিট সময় নেয়। CloudFormation টেমপ্লেট নিম্নলিখিত সংস্থান তৈরি করে:
-
- প্রয়োজনীয় সাবনেট, রুট টেবিল এবং NAT গেটওয়ে সহ একটি Amazon VPC
- নাম সহ একটি S3 বালতি
redshift-spark-databucket-xxxxxxx
(মনে রাখবেন যে xxxxxxx হল একটি র্যান্ডম স্ট্রিং যা বালতির নামটিকে অনন্য করে তোলে) - ডাটাবেসের ভিতরে লোড করা নমুনা ডেটা সহ একটি অ্যামাজন রেডশিফ্ট ক্লাস্টার৷
dev
এবং প্রাথমিক ব্যবহারকারীredshiftmasteruser
. এই ব্লগ পোস্টের উদ্দেশ্যে,redshiftmasteruser
প্রশাসনিক অনুমতি সঙ্গে ব্যবহার করা হয়. যাইহোক, উত্পাদন পরিবেশে সূক্ষ্ম দানাদার অ্যাক্সেস নিয়ন্ত্রণ সহ ব্যবহারকারী ব্যবহার করার পরামর্শ দেওয়া হয়। - অ্যামাজন রেডশিফ্টের জন্য অ্যামাজন রেডশিফ্ট ক্লাস্টারের ডেভ ডাটাবেস থেকে অস্থায়ী শংসাপত্রের অনুরোধ করার ক্ষমতা সহ একটি IAM ভূমিকা ব্যবহার করা হবে
- আমাজন ইএমআর স্টুডিও প্রয়োজনীয় IAM ভূমিকা সহ
- প্রয়োজনীয় IAM ভূমিকা সহ একটি EC6.9.0 ক্লাস্টারে Amazon EMR রিলিজ সংস্করণ 2
- একটি Amazon EMR সার্ভারলেস অ্যাপ্লিকেশন রিলিজ সংস্করণ 6.9.0
- একটি AWS Glue সংযোগ এবং AWS Glue কাজের সংস্করণ 4.0
- A জুপিটার নোটবুক একটি EC2 ক্লাস্টারে Amazon EMR ব্যবহার করে Amazon EMR Studio ব্যবহার করে চালানোর জন্য
- Amazon EMR স্টুডিও এবং Amazon EMR সার্ভারলেস ব্যবহার করে চালানোর জন্য একটি PySpark স্ক্রিপ্ট
- স্ট্যাক তৈরি সম্পূর্ণ হওয়ার পরে, স্ট্যাকের নাম নির্বাচন করুন
redshift-spark
এবং নেভিগেট করুন আউটপুট
আমরা এই পোস্টে পরে এই আউটপুট মানগুলি ব্যবহার করব।
পরবর্তী বিভাগে, আমরা Amazon EC2, Amazon EMR Serverless, এবং AWS Glue-এ Amazon EMR থেকে Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশনের ধাপগুলি দেখাই।
EC2 এ Amazon EMR-এ Apache Spark-এর সাথে Amazon Redshift ইন্টিগ্রেশন ব্যবহার করুন
Amazon EMR রিলিজ সংস্করণ 6.9.0 এবং তার উপরে থেকে শুরু করে, Apache Spark এবং Amazon Redshift JDBC ড্রাইভারের জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করে সংযোগকারী স্থানীয়ভাবে Amazon EMR-এ উপলব্ধ। এই ফাইলের অধীনে অবস্থিত /usr/share/aws/redshift/
ডিরেক্টরি যাইহোক, অ্যামাজন ইএমআর এর আগের সংস্করণগুলিতে, সম্প্রদায় সংস্করণ spark-redshift
সংযোগকারী সহজলভ্য.
নিম্নলিখিত উদাহরণটি দেখায় কিভাবে একটি PySpark কার্নেল ব্যবহার করে অ্যামাজন রেডশিফ্ট সংযোগ করতে হয় আমাজন ইএমআর স্টুডিও নোটবই. ক্লাউডফর্মেশন স্ট্যাক অ্যামাজন ইএমআর স্টুডিও তৈরি করেছে, একটি EC2 ক্লাস্টারে অ্যামাজন ইএমআর এবং চালানোর জন্য উপলব্ধ একটি জুপিটার নোটবুক। এই উদাহরণের মাধ্যমে যেতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- আপনার জন্য S3 বালতিতে উপলব্ধ জুপিটার নোটবুকটি ডাউনলোড করুন:
- ক্লাউডফর্মেশন স্ট্যাক আউটপুটগুলিতে, এর মানটি সন্ধান করুন
EMRStudioNotebook
, যা নির্দেশ করা উচিতredshift-spark-emr.ipynb
নোটবুক S3 বালতিতে পাওয়া যায়। - লিঙ্কটি চয়ন করুন বা নোটবুকের URLটি অনুলিপি করে একটি নতুন ট্যাবে লিঙ্কটি খুলুন৷
- আপনি লিঙ্কটি খোলার পরে, চয়ন করে নোটবুকটি ডাউনলোড করুন ডাউনলোড, যা আপনার কম্পিউটারে ফাইলটিকে স্থানীয়ভাবে সংরক্ষণ করবে।
- ক্লাউডফর্মেশন স্ট্যাক আউটপুটগুলিতে, এর মানটি সন্ধান করুন
- কীটির জন্য ক্লাউডফরমেশন স্ট্যাক আউটপুটগুলিতে প্রদত্ত লিঙ্কটি বেছে বা অনুলিপি করে Amazon EMR স্টুডিও অ্যাক্সেস করুন
EMRStudioURL
. - নেভিগেশন ফলকে, নির্বাচন করুন ওয়ার্কস্পেস.
- বেছে নিন কর্মক্ষেত্র তৈরি করুন.
- উদাহরণস্বরূপ, কর্মক্ষেত্রের জন্য একটি নাম দিন
redshift-spark
. - বিস্তৃত করা উন্নত কনফিগারেশন অধ্যায় এবং নির্বাচন করুন একটি EMR ক্লাস্টারে ওয়ার্কস্পেস সংযুক্ত করুন.
- অধীনে একটি EMR ক্লাস্টার সংযুক্ত করুন, নামের সাথে EMR ক্লাস্টার বেছে নিন
emrCluster-Redshift-Spark
. - বেছে নিন কর্মক্ষেত্র তৈরি করুন.
- অ্যামাজন ইএমআর স্টুডিও ওয়ার্কস্পেস তৈরি হওয়ার পরে এবং অ্যাটাচড স্ট্যাটাসে, আপনি ওয়ার্কস্পেসের নাম বেছে নিয়ে ওয়ার্কস্পেস অ্যাক্সেস করতে পারেন।
এটি একটি নতুন ট্যাবে ওয়ার্কস্পেস খুলতে হবে। মনে রাখবেন যে আপনার যদি পপ-আপ ব্লকার থাকে, তাহলে আপনাকে ওয়ার্কস্পেসকে পপ-আপ ব্লকার খুলতে বা অক্ষম করার অনুমতি দিতে হতে পারে।
আমাজন EMR স্টুডিও ওয়ার্কস্পেসে, আমরা এখন জুপিটার নোটবুক আপলোড করেছি যা আমরা আগে ডাউনলোড করেছি।
- বেছে নিন আপলোড আপনার স্থানীয় ফাইল সিস্টেম ব্রাউজ করতে এবং Jupyter নোটবুক আপলোড করতে (
redshift-spark-emr.ipynb
). - নির্বাচন করুন (ডাবল-ক্লিক করুন)
redshift-spark-emr.ipynb
নোটবুক খোলার জন্য ওয়ার্কস্পেসের মধ্যে নোটবুক।
নোটবুক বিভিন্ন কাজের বিবরণ প্রদান করে যা এটি করে। উল্লেখ্য যে বিভাগে অ্যামাজন রেডশিফ্ট ক্লাস্টারে সংযোগ করতে ভেরিয়েবলগুলিকে সংজ্ঞায়িত করুন, এর জন্য আপনাকে মান আপডেট করতে হবে না jdbc_iam_url
, temp_dir
, এবং aws_role
কারণ এগুলি আপনার জন্য AWS CloudFormation দ্বারা আপডেট করা হয়েছে৷ এডব্লিউএস ক্লাউডফর্মেশনও উল্লেখিত পদক্ষেপগুলি সম্পাদন করেছে পূর্বশর্ত নোটবুকের বিভাগ।
আপনি এখন নোটবুক চালানো শুরু করতে পারেন।
- পৃথক কোষগুলি নির্বাচন করে এবং তারপর বেছে নিয়ে চালান খেলা.
আপনি এর কী সমন্বয়ও ব্যবহার করতে পারেন Shift + Enter or শিফট+রিটার্ন. বিকল্পভাবে, আপনি নির্বাচন করে সমস্ত ঘর চালাতে পারেন সমস্ত সেল চালান উপরে চালান মেনু.
- Apache Spark এর জন্য Amazon Redshift ইন্টিগ্রেশন দ্বারা Amazon Redshift ক্লাস্টারে সম্পাদিত পূর্বনির্ধারিত পুশডাউন অপারেশন খুঁজুন।
আমরা অপ্টিমাইজড Parquet ফরম্যাটে Amazon S3 তে সংরক্ষিত অস্থায়ী ডেটাও দেখতে পারি। সেকশনে সেল চালানো থেকে আউটপুট দেখা যায় অ্যামাজন রেডশিফ্টে সম্পাদিত শেষ প্রশ্নটি পান.
- Amazon EC2 তে Amazon EMR থেকে কাজের দ্বারা তৈরি টেবিলটি যাচাই করতে, Amazon Redshift কনসোলে নেভিগেট করুন এবং ক্লাস্টারটি বেছে নিন
redshift-spark-redshift-cluster
উপরে প্রভিশন করা ক্লাস্টার ড্যাশবোর্ড পাতা. - ক্লাস্টারের বিবরণে, তে তথ্য অনুসন্ধান করুন মেনু, নির্বাচন করুন ক্যোয়ারী এডিটর v2.
- নেভিগেশন ফলকে ক্লাস্টারটি বেছে নিন এবং যখন এটি প্রমাণীকরণের জন্য অনুরোধ করে তখন অ্যামাজন রেডশিফ্ট ক্লাস্টারের সাথে সংযোগ করুন৷
- নির্বাচন করা অস্থায়ী শংসাপত্র.
- জন্য ডেটাবেসপ্রবেশ করান
dev
. - জন্য ব্যবহারকারীর নামপ্রবেশ করান
redshiftmasteruser
. - বেছে নিন সংরক্ষণ করুন.
- নেভিগেশন ফলকে, ক্লাস্টারটি প্রসারিত করুন
redshift-spark-redshift-cluster
, dev ডাটাবেস প্রসারিত করুন, প্রসারিত করুনtickit
, এবং প্রসারিত করুন টেবিল স্কিমার ভিতরে সমস্ত টেবিল তালিকাভুক্ত করতেtickit
.
আপনি টেবিল খুঁজে বের করা উচিত test_emr
.
- টেবিলটি বেছে নিন (ডান-ক্লিক করুন)
test_emr
, তাহলে বেছে নাও টেবিল নির্বাচন করুন টেবিল জিজ্ঞাসা করতে. - বেছে নিন চালান এসকিউএল স্টেটমেন্ট চালানোর জন্য।
Amazon EMR সার্ভারলেস Apache Spark এর সাথে Amazon Redshift ইন্টিগ্রেশন ব্যবহার করুন
Amazon EMR রিলিজ সংস্করণ 6.9.0 এবং তার উপরে অ্যামাজন ইএমআর সার্ভারলেস স্থানীয়ভাবে Apache Spark JARs (Amazon Redshift দ্বারা পরিচালিত) এবং Amazon Redshift JDBC JAR-এর জন্য Amazon Redshift ইন্টিগ্রেশন প্রদান করে। এই ফাইলের অধীনে অবস্থিত /usr/share/aws/redshift/
ডিরেক্টরি নিম্নলিখিত উদাহরণে, আমরা আগে তৈরি করা ক্লাউডফর্মেশন স্ট্যাকের দ্বারা S3 বালতিতে উপলব্ধ পাইথন স্ক্রিপ্ট ব্যবহার করি।
- ক্লাউডফরমেশন স্ট্যাক আউটপুটগুলিতে, এর জন্য মানের একটি নোট করুন
EMRServerlessExecutionScript
, যা S3 বালতিতে পাইথন স্ক্রিপ্টের অবস্থান। - এছাড়াও জন্য মান নোট করুন
EMRServerlessJobExecutionRole
, যা Amazon EMR সার্ভারহীন কাজ চালানোর সাথে IAM ভূমিকা ব্যবহার করা হবে। - কীটির জন্য ক্লাউডফরমেশন স্ট্যাক আউটপুটগুলিতে প্রদত্ত লিঙ্কটি বেছে বা অনুলিপি করে Amazon EMR স্টুডিও অ্যাক্সেস করুন
EMRStudioURL
. - বেছে নিন অ্যাপ্লিকেশন অধীনে Serverless নেভিগেশন ফলকে।
আপনি নামের সাথে CloudFormation স্ট্যাক দ্বারা তৈরি একটি EMR অ্যাপ্লিকেশন পাবেন emr-spark-redshift
.
- চাকরি জমা দিতে আবেদনের নাম বেছে নিন।
- বেছে নিন চাকরি জমা দিন.
- অধীনে চাকরির বিস্তারিতজন্য নাম, কাজের জন্য একটি শনাক্তযোগ্য নাম লিখুন।
- জন্য রানটাইম ভূমিকা, ক্লাউডফর্মেশন স্ট্যাক আউটপুট থেকে আপনি যে IAM ভূমিকাটি আগে উল্লেখ করেছেন সেটি বেছে নিন।
- জন্য স্ক্রিপ্ট অবস্থান, ক্লাউডফর্মেশন স্ট্যাক আউটপুট থেকে আপনি আগে উল্লেখ করা পাইথন স্ক্রিপ্টের পথ প্রদান করুন।
- বিভাগটি প্রসারিত করুন স্পার্ক বৈশিষ্ট্য এবং নির্বাচন করুন পাঠ্যে সম্পাদনা করুন
- টেক্সট বক্সে নিম্নলিখিত মানটি লিখুন, যা পাথ প্রদান করে
redshift-connector
, Amazon Redshift JDBC ড্রাইভার,spark-avro
JAR, এবংminimal-json
JAR ফাইল: - বেছে নিন চাকরি জমা দিন.
- কাজ সম্পূর্ণ হওয়ার জন্য এবং রান স্ট্যাটাস হিসাবে দেখানোর জন্য অপেক্ষা করুন সাফল্য.
- টেবিলটি সফলভাবে তৈরি হয়েছে কিনা তা দেখতে Amazon Redshift ক্যোয়ারী এডিটরে নেভিগেট করুন।
- Amazon Redshift ক্যোয়ারী গ্রুপের জন্য চালানো পুশডাউন প্রশ্নগুলি পরীক্ষা করুন
emr-serverless-redshift
. আপনি ডাটাবেসের বিরুদ্ধে নিম্নলিখিত SQL স্টেটমেন্ট চালাতে পারেনdev
:
আপনি দেখতে পাচ্ছেন যে পুশডাউন কোয়েরি এবং রিটার্ন ফলাফলগুলি Amazon S3 এ Parquet ফাইল বিন্যাসে সংরক্ষণ করা হয়েছে৷
AWS Glue-এ Apache Spark এর সাথে Amazon Redshift ইন্টিগ্রেশন ব্যবহার করুন
AWS Glue ভার্সন 4.0 এবং তার উপরে থেকে শুরু করে, অ্যামাজন রেডশিফ্টের সাথে সংযুক্ত Apache Spark জবগুলি Apache Spark এবং Amazon Redshift JDBC ড্রাইভারের জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করতে পারে। বিদ্যমান AWS Glue কাজগুলি যেগুলি ইতিমধ্যেই Amazon Redshift কে উৎস বা লক্ষ্য হিসাবে ব্যবহার করে এই নতুন সংযোগকারীর সুবিধা নিতে AWS Glue 4.0 এ আপগ্রেড করা যেতে পারে৷ এই পোস্টের সাথে প্রদত্ত ক্লাউডফর্মেশন টেমপ্লেট নিম্নলিখিত AWS আঠালো সংস্থান তৈরি করে:
- অ্যামাজন রেডশিফ্টের জন্য AWS আঠালো সংযোগ - Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করে AWS Glue থেকে Amazon Redshift-এ সংযোগ স্থাপনের সংযোগ
- AWS Glue কাজের সাথে সংযুক্ত IAM ভূমিকা - AWS Glue কাজ চালানোর অনুমতি পরিচালনা করার জন্য IAM ভূমিকা
- AWS আঠালো কাজ - Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করে রূপান্তর এবং একত্রীকরণ সম্পাদনকারী AWS Glue কাজের জন্য স্ক্রিপ্ট
নিম্নলিখিত উদাহরণটি PySpark এর সাথে AWS Glue কাজের সাথে সংযুক্ত AWS Glue সংযোগ ব্যবহার করে এবং নিম্নলিখিত পদক্ষেপগুলি অন্তর্ভুক্ত করে:
- এডাব্লুএস আঠালো কনসোলে, নির্বাচন করুন সংযোগ নেভিগেশন ফলকে।
- অধীনে সংযোগ, ক্লাউডফরমেশন টেমপ্লেট দ্বারা তৈরি অ্যামাজন রেডশিফ্টের জন্য AWS আঠালো সংযোগ চয়ন করুন৷
- সংযোগের বিবরণ যাচাই করুন।
আপনি এখন একটি কাজের মধ্যে বা একাধিক চাকরি জুড়ে এই সংযোগটি পুনরায় ব্যবহার করতে পারেন৷
- উপরে সংযোজকগুলির পৃষ্ঠায়, ক্লাউডফরমেশন স্ট্যাকের অধীনে তৈরি করা AWS আঠালো কাজটি বেছে নিন আপনার কাজ, অথবা কীটির জন্য প্রদত্ত URL ব্যবহার করে AWS Glue কাজ অ্যাক্সেস করুন
GlueJob
CloudFormation স্ট্যাক আউটপুটে। - AWS Glue কাজের জন্য স্ক্রিপ্ট অ্যাক্সেস এবং যাচাই করুন।
- উপরে চাকরির বিস্তারিত ট্যাব, নিশ্চিত করুন যে আঠালো সংস্করণ তৈরি আঠালো 4.0.
এটি নিশ্চিত করে যে চাকরিটি সর্বশেষ ব্যবহার করে redshift-spark
সংযোজক।
- বিস্তৃত করা উন্নত বৈশিষ্ট্য এবং মধ্যে সংযোগ বিভাগে, ক্লাউডফরমেশন স্ট্যাক দ্বারা তৈরি সংযোগ সংযুক্ত করা হয়েছে তা যাচাই করুন।
- AWS Glue কাজের জন্য যোগ করা কাজের পরামিতি যাচাই করুন। এই মানগুলি CloudFormation স্ট্যাকের জন্য আউটপুটেও উপলব্ধ।
- বেছে নিন সংরক্ষণ করুন এবং তারপর চালান.
আপনি চাকরীর জন্য স্ট্যাটাস দেখতে পারেন চালান ট্যাব।
- কাজটি সফলভাবে সম্পন্ন হওয়ার পর, আপনি AWS Glue কাজের দ্বারা তৈরি টেবিল টেস্ট-গ্লুর আউটপুট যাচাই করতে পারেন।
- আমরা অ্যামাজন রেডশিফ্ট ক্যোয়ারী গ্রুপের জন্য চালানো পুশডাউন প্রশ্নগুলি পরীক্ষা করি
glue-redshift
. আপনি ডাটাবেসের বিরুদ্ধে নিম্নলিখিত SQL স্টেটমেন্ট চালাতে পারেনdev
:
সেরা অনুশীলন
নিম্নলিখিত সেরা অনুশীলনগুলি মনে রাখবেন:
- ব্যবহার করার পরিবর্তে অ্যামাজন ইএমআর থেকে অ্যাপাচি স্পার্কের জন্য অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশন ব্যবহার করার কথা বিবেচনা করুন
redshift-spark
আপনার নতুন Apache Spark কাজের জন্য সংযোগকারী (সম্প্রদায় সংস্করণ)। - আপনি যদি বিদ্যমান অ্যাপাচি স্পার্ক কাজ ব্যবহার করে থাকেন
redshift-spark
সংযোগকারী (সম্প্রদায়িক সংস্করণ), Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করতে তাদের আপগ্রেড করার কথা বিবেচনা করুন - Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন স্বয়ংক্রিয়ভাবে কার্যকারিতার জন্য অপ্টিমাইজ করার জন্য predicate এবং Query pushdown প্রয়োগ করে। আমরা সমর্থিত ফাংশন ব্যবহার করার পরামর্শ দিই (
autopushdown
) আপনার প্রশ্নে। Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন ফাংশনটিকে SQL ক্যোয়ারীতে পরিণত করবে এবং Amazon Redshift-এ ক্যোয়ারী চালাবে। এই অপ্টিমাইজেশনের ফলে প্রয়োজনীয় ডেটা পুনরুদ্ধার করা হয়, তাই Apache Spark কম ডেটা প্রক্রিয়া করতে পারে এবং ভাল পারফরম্যান্স করতে পারে।- যেমন সামগ্রিক pushdown ফাংশন ব্যবহার বিবেচনা করুন
avg
,count
,max
,min
, এবংsum
ডেটা প্রক্রিয়াকরণের জন্য ফিল্টার করা ডেটা পুনরুদ্ধার করতে। - বুলিয়ান পুশডাউন অপারেটর ব্যবহার করার কথা বিবেচনা করুন
in
,isnull
,isnotnull
,contains
,endswith
, এবংstartswith
ডেটা প্রক্রিয়াকরণের জন্য ফিল্টার করা ডেটা পুনরুদ্ধার করতে। - লজিক্যাল পুশডাউন অপারেটর ব্যবহার করার কথা বিবেচনা করুন
and
,or
, এবংnot
(অথবা!
) ডেটা প্রক্রিয়াকরণের জন্য ফিল্টার করা ডেটা পুনরুদ্ধার করতে।
- যেমন সামগ্রিক pushdown ফাংশন ব্যবহার বিবেচনা করুন
- প্যারামিটার ব্যবহার করে একটি IAM ভূমিকা পাস করার পরামর্শ দেওয়া হয়
aws_iam_role
Amazon EMR বা AWS Glue-এ আপনার Apache Spark অ্যাপ্লিকেশন থেকে Amazon Redshift প্রমাণীকরণের জন্য। এই ব্লগের "Apache Spark অ্যাপ্লিকেশনে Apache Spark এর জন্য Amazon Redshift ইন্টিগ্রেশনের উদাহরণ" বিভাগে দেখানো হিসাবে Amazon Redshift-এ প্রমাণীকরণের জন্য অস্থায়ী IAM শংসাপত্রগুলি পুনরুদ্ধার করার জন্য IAM ভূমিকার প্রয়োজনীয় অনুমতি থাকা উচিত। - এই বৈশিষ্ট্যটির সাথে, আপনাকে গোপন ম্যানেজার এবং অ্যামাজন রেডশিফ্ট ডাটাবেসে আপনার Amazon Redshift ব্যবহারকারীর নাম এবং পাসওয়ার্ড বজায় রাখতে হবে না।
- Amazon Redshift UNLOAD SQL স্টেটমেন্ট ব্যবহার করে Amazon S3 তে এই অস্থায়ী ডেটা সঞ্চয় করে। Apache Spark অ্যাপ্লিকেশনটি অস্থায়ী ডিরেক্টরি থেকে ফলাফল পুনরুদ্ধার করে (Parquet ফাইল বিন্যাসে সংরক্ষিত)। Amazon S3-তে এই অস্থায়ী ডিরেক্টরিটি স্বয়ংক্রিয়ভাবে পরিষ্কার হয় না, এবং তাই অতিরিক্ত খরচ যোগ করতে পারে। আমরা ব্যবহার করার পরামর্শ দিই Amazon S3 জীবনচক্র নীতি S3 বালতির জন্য ধরে রাখার নিয়ম সংজ্ঞায়িত করতে।
- এটি চালু করার পরামর্শ দেওয়া হচ্ছে আমাজন রেডশিফ্ট অডিট লগিং আপনার ডাটাবেসে সংযোগ এবং ব্যবহারকারীর কার্যকলাপ সম্পর্কে তথ্য লগ করতে।
- এটি চালু করার পরামর্শ দেওয়া হচ্ছে অ্যামাজন রেডশিফ্ট অ্যাট-রেস্ট এনক্রিপশন আপনার ডেটা এনক্রিপ্ট করতে যেমন অ্যামাজন রেডশিফ্ট এটিকে তার ডেটা সেন্টারে লিখে এবং আপনি যখন এটি অ্যাক্সেস করেন তখন এটি আপনার জন্য ডিক্রিপ্ট করে৷
- Apache Spark এর জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করতে AWS Glue v4.0 এবং তার উপরে আপগ্রেড করার পরামর্শ দেওয়া হচ্ছে, যা বাক্সের বাইরে পাওয়া যায়। AWS Glue-এর এই সংস্করণে আপগ্রেড করা স্বয়ংক্রিয়ভাবে এই বৈশিষ্ট্যটি ব্যবহার করবে।
- Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করতে Amazon EMR v6.9.0 এবং তার উপরে আপগ্রেড করার পরামর্শ দেওয়া হচ্ছে। আপনাকে স্পষ্টভাবে কোনো ড্রাইভার বা JAR ফাইল পরিচালনা করতে হবে না।
- আপনার Apache Spark অ্যাপ্লিকেশনে আপনার Amazon Redshift ডেটার সাথে ইন্টারঅ্যাক্ট করতে Amazon EMR স্টুডিও নোটবুক ব্যবহার করার কথা বিবেচনা করুন।
- একটি ভিজ্যুয়াল ইন্টারফেস ব্যবহার করে Apache Spark কাজ তৈরি করতে AWS Glue Studio ব্যবহার করার কথা বিবেচনা করুন। এছাড়াও আপনি AWS Glue Studio-এর মধ্যে Scala বা PySpark-এ Apache Spark কোড লিখতেও যেতে পারেন।
পরিষ্কার কর
ক্লাউডফরমেশন টেমপ্লেটের একটি অংশ হিসাবে তৈরি করা সংস্থানগুলি পরিষ্কার করার জন্য নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন যাতে আপনি সংস্থানগুলির জন্য আর ব্যবহার না করলে আপনাকে বিল করা হবে না:
- অ্যামাজন ইএমআর সার্ভারলেস অ্যাপ্লিকেশন বন্ধ করুন:
- কীটির জন্য ক্লাউডফরমেশন স্ট্যাক আউটপুটগুলিতে প্রদত্ত লিঙ্কটি বেছে বা অনুলিপি করে Amazon EMR স্টুডিও অ্যাক্সেস করুন
EMRStudioURL
. - বেছে নিন অ্যাপ্লিকেশন অধীনে Serverless নেভিগেশন ফলকে।
- কীটির জন্য ক্লাউডফরমেশন স্ট্যাক আউটপুটগুলিতে প্রদত্ত লিঙ্কটি বেছে বা অনুলিপি করে Amazon EMR স্টুডিও অ্যাক্সেস করুন
আপনি নামের সাথে CloudFormation স্ট্যাক দ্বারা তৈরি একটি EMR অ্যাপ্লিকেশন পাবেন emr-spark-redshift
.
-
- যদি অ্যাপ্লিকেশান স্ট্যাটাস স্টপড হিসাবে দেখায়, আপনি পরবর্তী ধাপে যেতে পারেন। তবে, যদি অ্যাপ্লিকেশন স্ট্যাটাস শুরু হয়, তবে অ্যাপ্লিকেশনের নাম নির্বাচন করুন, তারপরে নির্বাচন করুন আবেদন বন্ধ করুন এবং আবেদন বন্ধ করুন আবার নিশ্চিত করতে
- অ্যামাজন ইএমআর স্টুডিও ওয়ার্কস্পেস মুছুন:
- কীটির জন্য ক্লাউডফরমেশন স্ট্যাক আউটপুটগুলিতে প্রদত্ত লিঙ্কটি বেছে বা অনুলিপি করে Amazon EMR স্টুডিও অ্যাক্সেস করুন
EMRStudioURL
. - বেছে নিন ওয়ার্কস্পেস নেভিগেশন ফলকে।
- আপনার তৈরি করা ওয়ার্কস্পেস নির্বাচন করুন এবং নির্বাচন করুন মুছে ফেলা, তাহলে বেছে নাও মুছে ফেলা আবার নিশ্চিত করতে
- কীটির জন্য ক্লাউডফরমেশন স্ট্যাক আউটপুটগুলিতে প্রদত্ত লিঙ্কটি বেছে বা অনুলিপি করে Amazon EMR স্টুডিও অ্যাক্সেস করুন
- CloudFormation স্ট্যাক মুছুন:
-
- AWS ক্লাউডফর্মেশন কনসোলে, আপনি আগে তৈরি করা স্ট্যাকে নেভিগেট করুন।
- স্ট্যাকের নাম নির্বাচন করুন এবং তারপর নির্বাচন করুন মুছে ফেলা স্ট্যাকটি সরাতে এবং এই পোস্টের একটি অংশ হিসাবে তৈরি সংস্থানগুলি মুছতে।
- নিশ্চিতকরণ স্ক্রিনে, নির্বাচন করুন স্ট্যাক মুছুন.
উপসংহার
এই পোস্টে, আমরা ব্যাখ্যা করেছি কিভাবে আপনি Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করে Amazon EMR-এর সাথে Amazon EC2, Amazon EMR Serverless, এবং AWS Glue ব্যবহার করতে পারেন যাতে ডেটার জন্য ক্যোয়ারী পারফরম্যান্স অপ্টিমাইজ করার জন্য স্বয়ংক্রিয়ভাবে predicate এবং ক্যোয়ারী পুশডাউন প্রয়োগ করা যায়। অ্যামাজন রেডশিফ্টে। আপনার Amazon EMR বা AWS Glue থেকে Amazon Redshift-এর সাথে নিরবচ্ছিন্ন এবং নিরাপদ সংযোগের জন্য Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করার জন্য এটি অত্যন্ত বাঞ্ছনীয়।
অ্যাপাচি স্পার্কের জন্য অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশন সম্পর্কে আমাদের কিছু গ্রাহকদের যা বলার আছে তা এখানে:
“আমরা আমাদের ইঞ্জিনিয়ারদের পাইথন এবং স্কালা ব্যবহার করে অ্যাপাচি স্পার্কের সাথে তাদের ডেটা পাইপলাইন এবং অ্যাপ্লিকেশন তৈরি করার ক্ষমতা দিই। আমরা একটি উপযোগী সমাধান চেয়েছিলাম যা আমাদের ক্লায়েন্টদের জন্য ক্রিয়াকলাপগুলিকে সহজ করে এবং দ্রুততর এবং আরও দক্ষতার সাথে বিতরণ করে এবং এটিই আমরা অ্যাপাচি স্পার্কের জন্য নতুন অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশনের সাথে পাই৷
-হুরন কনসাল্টিং
“GE Aerospace AWS বিশ্লেষণ এবং Amazon Redshift ব্যবহার করে সমালোচনামূলক ব্যবসার অন্তর্দৃষ্টি সক্ষম করতে যা গুরুত্বপূর্ণ ব্যবসায়িক সিদ্ধান্তগুলিকে চালিত করে। Amazon S3 থেকে স্বয়ংক্রিয় অনুলিপির জন্য সমর্থন সহ, আমরা Amazon S3 থেকে Amazon Redshift-এ ডেটা সরানোর জন্য সহজ ডেটা পাইপলাইন তৈরি করতে পারি। এটি আমাদের ডেটা পণ্য টিমের ডেটা অ্যাক্সেস করার এবং শেষ ব্যবহারকারীদের কাছে অন্তর্দৃষ্টি দেওয়ার ক্ষমতাকে ত্বরান্বিত করে। আমরা ডেটার মাধ্যমে মান যোগ করতে বেশি সময় ব্যয় করি এবং একীকরণে কম সময় ব্যয় করি।"
-জিই এরোস্পেস
“আমাদের ফোকাস গোল্ডম্যান শ্যাসে আমাদের সমস্ত ব্যবহারকারীদের জন্য ডেটাতে স্ব-পরিষেবা অ্যাক্সেস প্রদানের উপর। লিজেন্ড, আমাদের ওপেন-সোর্স ডেটা ম্যানেজমেন্ট এবং গভর্নেন্স প্ল্যাটফর্মের মাধ্যমে, আমরা ব্যবহারকারীদের ডেটা-কেন্দ্রিক অ্যাপ্লিকেশনগুলি বিকাশ করতে এবং ডেটা-চালিত অন্তর্দৃষ্টি অর্জন করতে সক্ষম করি কারণ আমরা আর্থিক পরিষেবা শিল্প জুড়ে সহযোগিতা করি। Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশনের মাধ্যমে, আমাদের ডেটা প্ল্যাটফর্ম টিম ন্যূনতম ম্যানুয়াল পদক্ষেপের সাথে Amazon Redshift ডেটা অ্যাক্সেস করতে সক্ষম হবে, শূন্য-কোড ETL-এর অনুমতি দেবে যা ইঞ্জিনিয়ারদের জন্য তাদের কর্মপ্রবাহকে নিখুঁত করার উপর ফোকাস করা সহজ করার ক্ষমতা বাড়াবে। তারা সম্পূর্ণ এবং সময়োপযোগী তথ্য সংগ্রহ করে। আমরা আশা করি অ্যাপ্লিকেশনের পারফরম্যান্সের উন্নতি এবং উন্নত সুরক্ষা দেখতে পাব কারণ আমাদের ব্যবহারকারীরা এখন সহজেই অ্যামাজন রেডশিফ্টে সর্বশেষ ডেটা অ্যাক্সেস করতে পারবেন।”
-গোল্ডম্যান শ্যাস
লেখক সম্পর্কে
গগন ব্রাহ্মী আমাজন ওয়েব সার্ভিসেস-এ বড় ডেটা অ্যানালিটিক্স এবং AI/ML প্ল্যাটফর্মের উপর দৃষ্টি নিবদ্ধ করে একজন সিনিয়র স্পেশালিস্ট সলিউশন আর্কিটেক্ট। তথ্য প্রযুক্তিতে গগনের 18 বছরেরও বেশি অভিজ্ঞতা রয়েছে। তিনি গ্রাহকদের আর্কিটেক্ট করতে এবং AWS-এ অত্যন্ত মাপযোগ্য, পারফরম্যান্ট এবং সুরক্ষিত ক্লাউড-ভিত্তিক সমাধান তৈরি করতে সহায়তা করেন। তার অবসর সময়ে, তিনি তার পরিবারের সাথে সময় কাটান এবং নতুন জায়গা ঘুরে দেখেন।
বিবেক গৌতম এডব্লিউএস প্রফেশনাল সার্ভিসেস-এ ডেটা লেকে বিশেষায়িত একজন ডেটা আর্কিটেক্ট। তিনি এন্টারপ্রাইজ গ্রাহকদের সাথে কাজ করে ডেটা পণ্য, বিশ্লেষণ প্ল্যাটফর্ম এবং AWS-এ সমাধান তৈরি করে। ডেটা লেক তৈরি এবং ডিজাইন না করার সময়, বিবেক একজন খাদ্য উত্সাহী যিনি নতুন ভ্রমণ গন্তব্যগুলি অন্বেষণ করতে এবং হাইকে যেতে পছন্দ করেন৷
নরেশ গৌতম তিনি 20 বছরের অভিজ্ঞতার সাথে AWS-এর একজন ডেটা অ্যানালিটিক্স এবং AI/ML নেতা, যিনি গ্রাহকদের ডেটা-চালিত সিদ্ধান্ত গ্রহণের ক্ষমতায়নের জন্য অত্যন্ত উপলব্ধ, উচ্চ-কার্যক্ষমতা, এবং খরচ-কার্যকর ডেটা বিশ্লেষণ এবং AI/ML সমাধানগুলিকে আর্কিটেক্ট করতে সাহায্য করেন। . তার অবসর সময়ে, তিনি ধ্যান এবং রান্না উপভোগ করেন।
বেয়াক্স শরিফী অ্যামাজন রেডশিফ্ট ড্রাইভারদের দলের একজন সফ্টওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার যেখানে তিনি অ্যাপাচি স্পার্ক সংযোগকারীর সাথে অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশনের উন্নয়নে নেতৃত্ব দেন। একাধিক শিল্পে ডেটা-চালিত প্ল্যাটফর্ম তৈরি করার 20 বছরেরও বেশি অভিজ্ঞতা রয়েছে তার। তার অবসর সময়ে, তিনি তার পরিবারের সাথে সময় কাটাতে এবং সার্ফিং উপভোগ করেন।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- অ্যাড্রিয়েন অ্যাশলির সাথে ভবিষ্যত মিন্টিং। এখানে প্রবেশ করুন.
- উত্স: https://aws.amazon.com/blogs/big-data/simplify-and-speed-up-apache-spark-applications-on-amazon-redshift-data-with-amazon-redshift-integration-for-apache-spark/
- : আছে
- : হয়
- :না
- $ ইউপি
- 1
- 10
- 100
- 107
- 11
- 20
- 20 বছর
- 7
- 8
- 9
- a
- ক্ষমতা
- সক্ষম
- সম্পর্কে
- উপরে
- খানি
- প্রবেশ
- ডেটাতে অ্যাক্সেস
- অ্যাক্সেস করা
- স্বীকার করা
- দিয়ে
- কর্ম
- ক্রিয়াকলাপ
- যোগ
- যোগ
- অতিরিক্ত
- প্রশাসনিক
- সুবিধা
- মহাকাশ
- বিরুদ্ধে
- এআই / এমএল
- সব
- অনুমতি
- অনুমতি
- ইতিমধ্যে
- এছাড়াও
- মর্দানী স্ত্রীলোক
- আমাজন EC2
- আমাজন ইএমআর
- অ্যামাজন ওয়েব সার্ভিসেস
- an
- বিশ্লেষণ
- বৈশ্লেষিক ন্যায়
- বিশ্লেষণ করা
- এবং
- কোন
- এ্যাপাচি
- আপা স্পার্ক
- আবেদন
- অ্যাপ্লিকেশন
- প্রয়োগ করা
- যথাযথ
- রয়েছি
- AS
- At
- নিরীক্ষা
- বিশুদ্ধতা প্রমাণ করা
- প্রমাণীকরণ
- স্বয়ংক্রিয়ভাবে
- সহজলভ্য
- ডেস্কটপ AWS
- এডাব্লুএস ক্লাউডফর্মেশন
- এডাব্লুএস আঠালো
- AWS প্রফেশনাল সার্ভিসেস
- পিছনে
- BE
- কারণ
- পরিণত
- শুরু করা
- হচ্ছে
- সর্বোত্তম
- সেরা অভ্যাস
- উত্তম
- বিশাল
- বড় ডেটা
- ব্লগ
- পাদ
- বক্স
- নির্মাণ করা
- নির্মাতা
- ভবন
- নির্মিত
- ব্যবসায়
- ব্যবসা প্রভাব
- by
- কল
- প্রচারাভিযান
- CAN
- ক্ষমতা
- কেস
- মামলা
- সেল
- সেন্টার
- চ্যালেঞ্জ
- চেক
- বেছে নিন
- নির্বাচন
- শ্রেণী
- ক্লায়েন্ট
- গুচ্ছ
- কোড
- সহযোগিতা করা
- সংগ্রহ করা
- এর COM
- সমাহার
- সাধারণ
- সম্প্রদায়
- কোম্পানি
- সম্পূর্ণ
- সমাপ্ত
- সন্দেহজনক
- গনা
- কম্পিউটার
- নিশ্চিত করা
- অনুমোদন
- সংযোগ করা
- সংযোজক
- সংযোগ
- সংযোগ
- বিবেচনা
- কনসোল
- প্রসঙ্গ
- নিয়ন্ত্রণ
- রান্না
- নকল
- মূল্য
- সাশ্রয়ের
- পারা
- সৃষ্টি
- নির্মিত
- সৃষ্টি
- সৃষ্টি
- পরিচয়পত্র
- সংকটপূর্ণ
- ক্রেতা
- গ্রাহকদের
- ড্যাশবোর্ড
- উপাত্ত
- তথ্য বিশ্লেষণ
- ডেটা বিশ্লেষণ
- তথ্য কেন্দ্র
- ডেটা লেক
- ডাটা ব্যাবস্থাপনা
- ডেটা প্ল্যাটফর্ম
- তথ্য প্রক্রিয়াজাতকরণ
- তথ্য ভান্ডার
- তথ্য গুদাম
- তথ্য চালিত
- ডেটাবেস
- তারিখ
- সিদ্ধান্ত মেকিং
- সিদ্ধান্ত
- পড়ন্ত
- ডিক্রিপ্ট করুন
- প্রদান করা
- নিষ্কৃত
- স্থাপন
- ফন্দিবাজ
- গন্তব্যস্থল
- বিস্তারিত
- দেব
- বিকাশ
- ডেভেলপারদের
- উন্নয়ন
- বিভিন্ন
- আলোচনা করা
- প্রদর্শন
- বণ্টিত
- Dont
- নিচে
- ডাউনলোড
- ড্রাইভ
- চালক
- ড্রাইভার
- ড্রপ
- পরিবর্তনশীল
- প্রতি
- পূর্বে
- সহজ
- সহজে
- সম্পাদক
- প্রভাব
- দক্ষ
- দক্ষতার
- পারেন
- ক্ষমতাপ্রদান করা
- সক্ষম করা
- সম্ভব
- প্রকৌশলী
- প্রকৌশল
- প্রকৌশলী
- বাড়ায়
- নিশ্চিত করা
- নিশ্চিত
- প্রবেশ করান
- উদ্যোগ
- এন্টারপ্রাইজ গ্রাহকরা
- কৌতূহলী ব্যক্তি
- পরিবেশ
- স্থাপন করা
- থার (eth)
- উদাহরণ
- উদাহরণ
- বিদ্যমান
- বিস্তৃত করা
- আশা করা
- অভিজ্ঞতা
- ব্যাখ্যা
- অন্বেষণ করুণ
- নির্যাস
- পরিবার
- দ্রুত
- বৈশিষ্ট্য
- ফাইল
- নথি পত্র
- পরিশেষে
- আর্থিক
- অর্থনৈতিক সেবা সমূহ
- আবিষ্কার
- জরিমানা
- ওঠানামা
- কেন্দ্রবিন্দু
- দৃষ্টি নিবদ্ধ করা
- অনুসরণ
- অনুসরণ
- খাদ্য
- জন্য
- বিন্যাস
- ফ্রেম
- ফ্রেমওয়ার্ক
- বিনামূল্যে
- থেকে
- ক্রিয়া
- ক্রিয়াকলাপ
- লাভ করা
- উত্পাদন করা
- উত্পন্ন
- পাওয়া
- GitHub
- Go
- গোল্ডম্যান
- গোল্ডম্যান শ্যাস
- শাসন
- গ্রুপ
- আছে
- he
- সাহায্য
- সাহায্য
- সাহায্য
- উচ্চ পারদর্শিতা
- অত্যন্ত
- হাইকস
- কিভাবে
- কিভাবে
- যাহোক
- এইচটিএমএল
- HTTP
- HTTPS দ্বারা
- IAC
- আমি
- সনাক্ত করা
- পরিচয়
- প্রভাব
- আমদানি
- গুরুত্বপূর্ণ
- উন্নত করা
- উন্নত
- উন্নতি
- উন্নত
- in
- অন্তর্ভুক্ত
- বৃদ্ধি
- স্বতন্ত্র
- শিল্প
- শিল্প
- তথ্য
- তথ্য প্রযুক্তি
- অবগত
- পরিকাঠামো
- আরম্ভ করা
- অর্ন্তদৃষ্টি
- উদাহরণ
- পরিবর্তে
- ইন্টিগ্রেশন
- ঐক্যবদ্ধতার
- গর্ভনাটিকা
- ইন্টারেক্টিভ
- ইন্টারফেস
- মধ্যে
- জায়
- ইনভেন্টরি ডেটা
- IT
- এর
- জাভা
- কাজ
- জবস
- যোগদানের
- Jupyter নোটবুক
- চাবি
- জানা
- হ্রদ
- ভাষাসমূহ
- গত
- সর্বশেষ
- শুরু করা
- চালু করা
- নেতা
- নেতৃত্ব
- বিশালাকার
- শিক্ষা
- যাক
- জীবনচক্র
- মত
- LIMIT টি
- লাইন
- LINK
- তালিকা
- বোঝা
- স্থানীয়
- স্থানীয়ভাবে
- অবস্থিত
- অবস্থান
- যৌক্তিক
- আর
- দেখুন
- কম
- মেশিন
- মেশিন লার্নিং
- প্রণীত
- বজায় রাখা
- করা
- পরিচালনা করা
- পরিচালিত
- ব্যবস্থাপনা
- পরিচালক
- ম্যানুয়াল
- বাজার
- বাজার
- মে..
- ধ্যান
- উল্লিখিত
- মেনু
- হতে পারে
- মন
- যত্সামান্য
- মিনিট
- ML
- অধিক
- পদক্ষেপ
- বহু
- নাম
- নেভিগেট করুন
- ন্যাভিগেশন
- প্রয়োজনীয়
- প্রয়োজন
- প্রয়োজন
- নতুন
- পরবর্তী
- নোটবই
- নোটবুক
- সুপরিচিত
- এখন
- of
- কর্মকর্তা
- on
- কেবল
- খোলা
- ওপেন সোর্স
- অপারেশন
- অপারেশনস
- অপারেটরদের
- অপ্টিমাইজেশান
- অপ্টিমিজ
- অপ্টিমাইজ
- অপশন সমূহ
- or
- ক্রম
- আদেশ
- আমাদের
- আউটপুট
- শেষ
- সামগ্রিক
- পৃষ্ঠা
- শার্সি
- স্থিতিমাপ
- পরামিতি
- অংশ
- পাস
- পাসওয়ার্ড
- পথ
- উপসংহার
- সম্পাদন করা
- কর্মক্ষমতা
- করণ
- সঞ্চালিত
- অনুমতি
- জায়গা
- পরিকল্পনা
- মাচা
- প্ল্যাটফর্ম
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- বিন্দু
- নীতি
- পপ-আপ
- জনপ্রিয়
- পোস্ট
- চর্চা
- প্রস্তুত করা
- পূর্বশর্ত
- আগে
- প্রাথমিক
- প্রক্রিয়া
- প্রক্রিয়াজাতকরণ
- পণ্য
- উত্পাদনের
- পণ্য
- পেশাদারী
- পদোন্নতি
- প্রচার
- প্রদান
- প্রদত্ত
- উপলব্ধ
- প্রদানের
- উদ্দেশ্য
- ধাক্কা
- পাইথন
- প্রশ্নের
- এলোমেলো
- পড়া
- সুপারিশ করা
- সুপারিশ করা
- মুক্তি
- প্রাসঙ্গিক
- অপসারণ
- প্রতিস্থাপন করা
- রিপোর্ট
- অনুরোধ
- অনুরোধ
- প্রয়োজনীয়
- সংস্থান
- Resources
- ফলাফল
- স্মৃতিশক্তি
- প্রত্যাবর্তন
- পুনঃব্যবহারের
- রাজস্ব
- সঠিক পছন্দ
- ভূমিকা
- ভূমিকা
- রুট
- নিয়ম
- চালান
- দৌড়
- শ্যাস
- ঋষি নির্মাতা
- বিক্রয়
- নমুনা ডেটাসেট
- সংরক্ষণ করুন
- scala
- মাপযোগ্য
- স্ক্রিন
- নির্বিঘ্ন
- নির্বিঘ্নে
- অধ্যায়
- বিভাগে
- নিরাপদ
- নিরাপত্তা
- অংশ
- নির্বাচন
- স্ব সেবা
- জ্যেষ্ঠ
- Serverless
- সেবা
- সেশন
- সেট
- বিন্যাস
- বিভিন্ন
- উচিত
- প্রদর্শনী
- প্রদর্শিত
- শো
- একভাবে
- সহজ
- সরলীকৃত
- সহজতর করা
- So
- সফটওয়্যার
- সফটওয়্যার উন্নয়ন
- সমাধান
- সলিউশন
- কিছু
- উৎস
- স্ফুলিঙ্গ
- বিশেষজ্ঞ
- স্পীড
- ব্যয় করা
- খরচ
- এসকিউএল
- গাদা
- উপস্থাপনকারী
- অংশীদারদের
- শুরু
- শুরু
- বিবৃতি
- অবস্থা
- প্রারম্ভিক ব্যবহারের নির্দেশাবলী
- বন্ধ
- স্টোরেজ
- দোকান
- সঞ্চিত
- স্ট্রিং
- কাঠামোবদ্ধ
- চিত্রশালা
- জমা
- সাবনেট
- সফলভাবে
- এমন
- সমর্থন
- সমর্থিত
- সুইচ
- পদ্ধতি
- টেবিল
- উপযোগী
- গ্রহণ করা
- লাগে
- লক্ষ্য
- লক্ষ্যবস্তু
- কাজ
- টীম
- প্রযুক্তিঃ
- টেমপ্লেট
- অস্থায়ী
- পরীক্ষা
- যে
- সার্জারির
- তথ্য
- তাদের
- তাহাদিগকে
- অতএব
- এইগুলো
- এই
- দ্বারা
- সময়
- বার
- থেকে
- শীর্ষ
- পথ
- লেনদেনের
- লেনদেন
- রুপান্তর
- রূপান্তরের
- রুপান্তরিত
- রূপান্তর
- ভ্রমণ
- চালু
- অধীনে
- অনন্য
- আপডেট
- আপডেট
- আপগ্রেড
- আপগ্রেড
- URL টি
- ব্যবহার
- ব্যবহার ক্ষেত্রে
- ব্যবহৃত
- ব্যবহারকারী
- ব্যবহারকারী
- সদ্ব্যবহার করা
- ব্যবহার
- যাচাই করুন
- বৈধতা
- মূল্য
- মানগুলি
- বৈচিত্র্য
- যাচাই
- সংস্করণ
- মাধ্যমে
- চেক
- দৃষ্টিপাত
- চেয়েছিলেন
- গুদাম
- ছিল
- we
- ওয়েব
- ওয়েব সার্ভিস
- আমরা একটি
- কি
- যে
- হু
- ইচ্ছা
- সঙ্গে
- মধ্যে
- ছাড়া
- কর্মপ্রবাহ
- কাজ
- কাজ
- লেখা
- লেখা
- লিখিত
- ইয়ামল
- বছর
- বছর
- আপনি
- আপনার
- zephyrnet