অ্যাপাচি স্পার্কের জন্য অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশন সহ অ্যামাজন রেডশিফ্ট ডেটাতে অ্যাপাচি স্পার্ক অ্যাপ্লিকেশানগুলিকে সরল করুন এবং গতি বাড়ান

অ্যাপাচি স্পার্কের জন্য অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশন সহ অ্যামাজন রেডশিফ্ট ডেটাতে অ্যাপাচি স্পার্ক অ্যাপ্লিকেশানগুলিকে সরল করুন এবং গতি বাড়ান

উত্স নোড: 2597866

গ্রাহকরা ব্যবহার করেন আমাজন রেডশিফ্ট স্ট্রাকচার্ড এবং সেমি-স্ট্রাকচার্ড ডেটার পেটাবাইটে তাদের ব্যবসা-সমালোচনামূলক বিশ্লেষণ চালানোর জন্য। Apache Spark হল একটি জনপ্রিয় ফ্রেমওয়ার্ক যা আপনি ETL (এক্সট্রাক্ট, ট্রান্সফর্ম এবং লোড), ইন্টারেক্টিভ অ্যানালিটিক্স এবং মেশিন লার্নিং (ML) এর মতো ব্যবহারের ক্ষেত্রে অ্যাপ্লিকেশন তৈরি করতে ব্যবহার করতে পারেন। Apache Spark আপনাকে আপনার Amazon Redshift ডেটা গুদামের ডেটা অ্যাক্সেস করে জাভা, স্কালা এবং পাইথনের মতো বিভিন্ন ভাষায় অ্যাপ্লিকেশন তৈরি করতে সক্ষম করে।

অ্যাপাচি স্পার্কের জন্য অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশন ডেভেলপারদের অ্যামাজন রেডশিফ্ট ডেটাতে অ্যাপাচি স্পার্ক অ্যাপ্লিকেশনগুলি নির্বিঘ্নে তৈরি এবং চালাতে সহায়তা করে। বিকাশকারীরা যেমন AWS বিশ্লেষণ এবং ML পরিষেবাগুলি ব্যবহার করতে পারে আমাজন ইএমআর, এডাব্লুএস আঠালো, এবং আমাজন সেজমেকার অনায়াসে Apache Spark অ্যাপ্লিকেশন তৈরি করতে যা তাদের Amazon Redshift ডেটা গুদাম থেকে পড়তে এবং লিখতে পারে। আপনি আপনার অ্যাপ্লিকেশনের কর্মক্ষমতা বা আপনার ডেটার লেনদেনের ধারাবাহিকতার সাথে আপস না করে এটি করতে পারেন।

এই পোস্টে, আমরা আলোচনা করব কেন Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন বিশ্লেষণ এবং ML-এর জন্য গুরুত্বপূর্ণ এবং দক্ষ। উপরন্তু, আমরা ব্যবসায়িক প্রভাব চালনা করার জন্য Apache Spark-এর সাথে Amazon Redshift ইন্টিগ্রেশন ব্যবহার করে এমন ব্যবহারের ক্ষেত্রে আলোচনা করি। অবশেষে, আমরা আপনাকে Apache Spark অ্যাপ্লিকেশনে এই অফিসিয়াল AWS সংযোগকারীটি কীভাবে ব্যবহার করতে হয় তার ধাপে ধাপে উদাহরণ দিয়ে নিয়ে যাই।

Apache Spark এর জন্য Amazon Redshift ইন্টিগ্রেশন

অ্যাপাচি স্পার্কের জন্য অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশন একটি স্পার্ক-রেডশিফ্ট সংযোগকারী সেট আপ করার কষ্টকর এবং প্রায়শই ম্যানুয়াল প্রক্রিয়াকে হ্রাস করে (সম্প্রদায় সংস্করণ) এবং বিশ্লেষণ এবং ML কার্যগুলির জন্য প্রস্তুত করার জন্য প্রয়োজনীয় সময়কে ছোট করে। আপনাকে শুধুমাত্র আপনার ডেটা গুদামের সাথে সংযোগটি নির্দিষ্ট করতে হবে এবং আপনি মিনিটের মধ্যে আপনার Apache Spark-ভিত্তিক অ্যাপ্লিকেশনগুলি থেকে Amazon Redshift ডেটা নিয়ে কাজ শুরু করতে পারেন৷

আপনি সাজানো, সমষ্টি, সীমা, যোগদান এবং স্কেলার ফাংশনের মতো ক্রিয়াকলাপগুলির জন্য বেশ কয়েকটি পুশডাউন ক্ষমতা ব্যবহার করতে পারেন যাতে কেবলমাত্র প্রাসঙ্গিক ডেটা আপনার অ্যামাজন রেডশিফ্ট ডেটা গুদাম থেকে গ্রাসকারী Apache স্পার্ক অ্যাপ্লিকেশনে স্থানান্তরিত হয়। এটি আপনাকে আপনার অ্যাপ্লিকেশনগুলির কর্মক্ষমতা উন্নত করতে দেয়। অ্যামাজন রেডশিফ্ট অ্যাডমিনরা সহজেই স্পার্ক-ভিত্তিক অ্যাপ্লিকেশনগুলি থেকে তৈরি করা SQL সনাক্ত করতে পারে। এই পোস্টে, আমরা দেখাই কিভাবে আপনি Apache Spark কাজ দ্বারা উত্পন্ন SQL খুঁজে পেতে পারেন।

তাছাড়া, Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন একটি অস্থায়ী ডিরেক্টরিতে ডেটা স্টেজ করার সময় Parquet ফাইল ফর্ম্যাট ব্যবহার করে। Amazon Redshift এই অস্থায়ী ডেটা সঞ্চয় করতে UNLOAD SQL স্টেটমেন্ট ব্যবহার করে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3)। Apache Spark অ্যাপ্লিকেশনটি অস্থায়ী ডিরেক্টরি (Parquet ফাইল বিন্যাসে সংরক্ষিত) থেকে ফলাফল পুনরুদ্ধার করে, যা কর্মক্ষমতা উন্নত করে।

আপনি ব্যবহার করে আপনার অ্যাপ্লিকেশনগুলিকে আরও সুরক্ষিত করতে সাহায্য করতে পারেন৷ এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট Amazon Redshift এর সাথে সংযোগ করার জন্য (IAM) শংসাপত্র।

অ্যাপাচি স্পার্কের জন্য অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশন স্পার্ক-রেডশিফ্ট সংযোগকারীর উপরে তৈরি করা হয়েছে (সম্প্রদায় সংস্করণ) এবং কর্মক্ষমতা এবং নিরাপত্তার জন্য এটিকে উন্নত করে, আপনাকে 10 গুণ দ্রুত অ্যাপ্লিকেশান কার্যক্ষমতা অর্জনে সহায়তা করে।

Apache Spark এর সাথে Amazon Redshift ইন্টিগ্রেশনের ক্ষেত্রে কেস ব্যবহার করুন

আমাদের ব্যবহারের ক্ষেত্রে, পণ্য-ভিত্তিক কোম্পানির নেতৃত্ব একাধিক বাজারে প্রতিটি পণ্যের বিক্রয় জানতে চায়। যেহেতু কোম্পানির বিক্রয় গতিশীলভাবে ওঠানামা করে, তাই একাধিক বাজারে বিক্রয় ট্র্যাক করা নেতৃত্বের জন্য একটি চ্যালেঞ্জ হয়ে দাঁড়িয়েছে। যাইহোক, সামগ্রিক বিক্রয় হ্রাস পাচ্ছে, এবং কোম্পানির নেতৃত্ব খুঁজে বের করতে চায় কোন বাজারগুলি পারফর্ম করছে না যাতে তারা প্রচার প্রচারণার জন্য এই বাজারগুলিকে লক্ষ্য করতে পারে৷

একাধিক বাজার জুড়ে বিক্রয়ের জন্য, পণ্য বিক্রয় ডেটা যেমন অর্ডার, লেনদেন এবং চালানের ডেটা ডেটা লেকের মধ্যে Amazon S3-এ উপলব্ধ৷ ডেটা ইঞ্জিনিয়ারিং টিম Amazon EMR বা AWS Glue এর সাথে Apache Spark ব্যবহার করতে পারে এই ডেটা Amazon S3 এ বিশ্লেষণ করতে।

ইনভেন্টরি ডেটা অ্যামাজন রেডশিফ্টে উপলব্ধ। একইভাবে, ডেটা ইঞ্জিনিয়ারিং দল অ্যামাজন EMR ব্যবহার করে Apache Spark এর সাথে এই ডেটা বিশ্লেষণ করতে পারে বা AWS Glue জব Apache Spark-এর জন্য অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশন ব্যবহার করে অ্যাগ্রিগেশন এবং ট্রান্সফর্মেশন করতে পারে। Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করে একত্রিত এবং রূপান্তরিত ডেটাসেট আবার Amazon Redshift-এ সংরক্ষণ করা যেতে পারে।

Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন সহ Apache Spark-এর মতো একটি বিতরণ করা ফ্রেমওয়ার্ক ব্যবহার করে বিক্রয় অন্তর্দৃষ্টি তৈরি করতে ডেটা লেক এবং ডেটা গুদাম জুড়ে দৃশ্যমানতা প্রদান করতে পারে। এই অন্তর্দৃষ্টিগুলি আমাজন রেডশিফ্টের ব্যবসায়িক স্টেকহোল্ডারদের এবং ব্যবসায়িক ব্যবহারকারীদের লাইনের কাছে উপলব্ধ করা যেতে পারে যাতে কম রাজস্ব বাজারের অংশগুলির জন্য লক্ষ্যযুক্ত প্রচার চালানোর জন্য জ্ঞাত সিদ্ধান্ত নেওয়া যায়।

উপরন্তু, আমরা নিম্নলিখিত ব্যবহারের ক্ষেত্রে Apache Spark এর সাথে Amazon Redshift ইন্টিগ্রেশন ব্যবহার করতে পারি:

  • অ্যামাজন ইএমআর বা এডব্লিউএস গ্লু গ্রাহক অ্যাপাচি স্পার্ক জব চালাচ্ছেন তারা তাদের ইটিএল পাইপলাইনের একটি অংশ হিসাবে ডেটা রূপান্তর করতে এবং এটিকে অ্যামাজন রেডশিফ্টে লিখতে চান
  • একজন এমএল গ্রাহক অ্যামাজন রেডশিফ্টে ডেটা অ্যাক্সেস এবং রূপান্তর করার জন্য ফিচার ইঞ্জিনিয়ারিংয়ের জন্য সেজমেকারের সাথে অ্যাপাচি স্পার্ক ব্যবহার করেন
  • একজন Amazon EMR, AWS Glue, বা SageMaker গ্রাহক নোটবুক থেকে Amazon Redshift-এর ডেটা সহ ইন্টারেক্টিভ ডেটা বিশ্লেষণের জন্য Apache Spark ব্যবহার করে

Apache Spark অ্যাপ্লিকেশনে Apache Spark এর জন্য Amazon Redshift ইন্টিগ্রেশনের উদাহরণ

এই পোস্টে, আমরা অ্যামাজন ইএমআর থেকে অ্যামাজন রেডশিফ্ট সংযোগ করার পদক্ষেপগুলি দেখাই অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (Amazon EC2), আমাজন ইএমআর সার্ভারহীন, এবং AWS আঠালো একটি সাধারণ স্ক্রিপ্ট ব্যবহার করে। নিম্নলিখিত নমুনা কোডে, আমরা 2008 সালের ত্রৈমাসিক বিক্রয় দেখানো একটি প্রতিবেদন তৈরি করি। এটি করার জন্য, আমরা একটি Apache Spark DataFrame ব্যবহার করে দুটি Amazon Redshift টেবিলে যোগদান করি, একটি পূর্বনির্ধারিত পুশডাউন চালাই, ডেটা একত্রিত এবং সাজান এবং রূপান্তরিত লিখি ডেটা অ্যামাজন রেডশিফ্টে ফিরে আসে। স্ক্রিপ্ট PySpark ব্যবহার করে

স্ক্রিপ্ট ব্যবহার করে Amazon Redshift-এর জন্য IAM-ভিত্তিক প্রমাণীকরণ. Amazon EMR এবং AWS Glue দ্বারা ব্যবহৃত IAM ভূমিকাগুলিতে Amazon Redshift প্রমাণীকরণের উপযুক্ত অনুমতি থাকা উচিত এবং অস্থায়ী ডেটা স্টোরেজের জন্য S3 বালতিতে অ্যাক্সেস থাকা উচিত।

নিম্নলিখিত উদাহরণ নীতি IAM ভূমিকা কল করতে অনুমতি দেয় GetClusterCredentials কার্যক্রম:

{ "Version": "2012-10-17", "Statement": { "Effect": "Allow", "Action": "redshift:GetClusterCredentials", "Resource": "arn:aws:redshift:<aws_region_name>:xxxxxxxxxxxx:dbuser:*/temp_*" }
}

নিম্নলিখিত উদাহরণ নীতি অস্থায়ী ডেটা স্টোরেজের জন্য একটি S3 বালতিতে অ্যাক্সেসের অনুমতি দেয়:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:ListBucket" ], "Resource": "arn:aws:s3:::<s3_bucket_name>" } ]
}

সম্পূর্ণ স্ক্রিপ্টটি নিম্নরূপ:

from pyspark.sql import SparkSession
from pyspark.sql.functions import col # Initiate Apache Spark session
spark = SparkSession .builder .appName("SparkRedshiftConnector") .enableHiveSupport() .getOrCreate() # Set connection options for Amazon Redshift
jdbc_iam_url = "jdbc:redshift:iam://redshift-spark-connector-1.xxxxxxxxxxx.<aws_region_name>.redshift.amazonaws.com:5439/sample_data_dev"
temp_dir = 's3://<s3_bucket_name>/redshift-temp-dir/'
aws_role = 'arn:aws:iam::xxxxxxxxxxxx:role/redshift-s3' # Set query group for the query. More details on Amazon Redshift WLM https://docs.aws.amazon.com/redshift/latest/dg/cm-c-executing-queries.html
queryGroup = "emr-redshift"
jdbc_iam_url_withQueryGroup = jdbc_iam_url+'?queryGroup='+queryGroup # Set User name for the query
userName = 'awsuser'
jdbc_iam_url_withUserName = jdbc_iam_url_withQueryGroup+';user='+userName # Define the Amazon Redshift context
redshiftOptions = { "url": jdbc_iam_url_withUserName, "tempdir": temp_dir, "aws_iam_role" : aws_role
} # Create the sales DataFrame from Amazon Redshift table using io.github.spark_redshift_community.spark.redshift class
sales_df = ( spark.read .format("io.github.spark_redshift_community.spark.redshift") .options(**redshiftOptions) .option("dbtable", "tickit.sales") .load()
) # Create the date Data Frame from Amazon Redshift table
date_df = ( spark.read .format("io.github.spark_redshift_community.spark.redshift") .options(**redshiftOptions) .option("dbtable", "tickit.date") .load()
) # Assign a Data Frame to the above output which will be written back to Amazon Redshift
output_df= sales_df.join(date_df, sales_df.dateid == date_df.dateid, 'inner').where( col("year") == 2008).groupBy("qtr").sum("qtysold").select( col("qtr"), col("sum(qtysold)")).sort(["qtr"], ascending=[1]).withColumnRenamed("sum(qtysold)","total_quantity_sold") # Display the output
output_df.show() ## Lets drop the queryGroup for easy validation of push down queries
# Set User name for the query
userName = 'awsuser'
jdbc_iam_url_withUserName = jdbc_iam_url+'?user='+userName # Define the Amazon Redshift context
redshiftWriteOptions = { "url": jdbc_iam_url_withUserName, "tempdir": temp_dir, "aws_iam_role" : aws_role
} # Write the Data Frame back to Amazon Redshift
output_df.write .format("io.github.spark_redshift_community.spark.redshift") .mode("overwrite") .options(**redshiftWriteOptions) .option("dbtable", "tickit.test") .save()

আপনি যদি আপনার পরিবেশে পূর্ববর্তী স্ক্রিপ্ট ব্যবহার করার পরিকল্পনা করেন, তাহলে নিশ্চিত করুন যে আপনি নিম্নলিখিত ভেরিয়েবলের মানগুলিকে আপনার পরিবেশের জন্য উপযুক্ত মান দিয়ে প্রতিস্থাপন করেছেন: jdbc_iam_url, temp_dir, এবং aws_role.

পরবর্তী বিভাগে, আমরা অ্যামাজন রেডশিফ্টে উপলব্ধ একটি নমুনা ডেটাসেট একত্রিত করতে এই স্ক্রিপ্টটি চালানোর পদক্ষেপগুলি দিয়ে চলেছি।

পূর্বশর্ত

আমরা শুরু করার আগে, নিম্নলিখিত পূর্বশর্তগুলি পূরণ হয়েছে তা নিশ্চিত করুন:

AWS CloudFormation ব্যবহার করে সম্পদ স্থাপন করুন

CloudFormation স্ট্যাক স্থাপন করতে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. সাইন ইন করুন এডাব্লুএস ম্যানেজমেন্ট কনসোল, তারপর CloudFormation স্ট্যাক চালু করুন:
    BDB-2063-লঞ্চ-ক্লাউডফর্মেশন-স্ট্যাক

আপনি এটিও করতে পারেন CloudFormation টেমপ্লেট ডাউনলোড করুন কোড (IaC) হিসাবে অবকাঠামোর মাধ্যমে এই পোস্টে উল্লিখিত সংস্থানগুলি তৈরি করতে। একটি নতুন CloudFormation স্ট্যাক চালু করার সময় এই টেমপ্লেটটি ব্যবহার করুন৷

  1. নির্বাচন করতে পৃষ্ঠার নীচে স্ক্রোল করুন আমি স্বীকার করি যে এডাব্লুএস ক্লাউডফর্মেশন আইএএম সংস্থান তৈরি করতে পারে অধীনে কেপেবিলিটিস, তাহলে বেছে নাও স্ট্যাক তৈরি করুন.

স্ট্যাক তৈরির প্রক্রিয়াটি সম্পূর্ণ হতে 15-20 মিনিট সময় নেয়। CloudFormation টেমপ্লেট নিম্নলিখিত সংস্থান তৈরি করে:

    • প্রয়োজনীয় সাবনেট, রুট টেবিল এবং NAT গেটওয়ে সহ একটি Amazon VPC
    • নাম সহ একটি S3 বালতি redshift-spark-databucket-xxxxxxx (মনে রাখবেন যে xxxxxxx হল একটি র্যান্ডম স্ট্রিং যা বালতির নামটিকে অনন্য করে তোলে)
    • ডাটাবেসের ভিতরে লোড করা নমুনা ডেটা সহ একটি অ্যামাজন রেডশিফ্ট ক্লাস্টার৷ dev এবং প্রাথমিক ব্যবহারকারী redshiftmasteruser. এই ব্লগ পোস্টের উদ্দেশ্যে, redshiftmasteruser প্রশাসনিক অনুমতি সঙ্গে ব্যবহার করা হয়. যাইহোক, উত্পাদন পরিবেশে সূক্ষ্ম দানাদার অ্যাক্সেস নিয়ন্ত্রণ সহ ব্যবহারকারী ব্যবহার করার পরামর্শ দেওয়া হয়।
    • অ্যামাজন রেডশিফ্টের জন্য অ্যামাজন রেডশিফ্ট ক্লাস্টারের ডেভ ডাটাবেস থেকে অস্থায়ী শংসাপত্রের অনুরোধ করার ক্ষমতা সহ একটি IAM ভূমিকা ব্যবহার করা হবে
    • আমাজন ইএমআর স্টুডিও প্রয়োজনীয় IAM ভূমিকা সহ
    • প্রয়োজনীয় IAM ভূমিকা সহ একটি EC6.9.0 ক্লাস্টারে Amazon EMR রিলিজ সংস্করণ 2
    • একটি Amazon EMR সার্ভারলেস অ্যাপ্লিকেশন রিলিজ সংস্করণ 6.9.0
    • একটি AWS Glue সংযোগ এবং AWS Glue কাজের সংস্করণ 4.0
    • A জুপিটার নোটবুক একটি EC2 ক্লাস্টারে Amazon EMR ব্যবহার করে Amazon EMR Studio ব্যবহার করে চালানোর জন্য
    • Amazon EMR স্টুডিও এবং Amazon EMR সার্ভারলেস ব্যবহার করে চালানোর জন্য একটি PySpark স্ক্রিপ্ট
  1. স্ট্যাক তৈরি সম্পূর্ণ হওয়ার পরে, স্ট্যাকের নাম নির্বাচন করুন redshift-spark এবং নেভিগেট করুন আউটপুট

আমরা এই পোস্টে পরে এই আউটপুট মানগুলি ব্যবহার করব।

পরবর্তী বিভাগে, আমরা Amazon EC2, Amazon EMR Serverless, এবং AWS Glue-এ Amazon EMR থেকে Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশনের ধাপগুলি দেখাই।

EC2 এ Amazon EMR-এ Apache Spark-এর সাথে Amazon Redshift ইন্টিগ্রেশন ব্যবহার করুন

Amazon EMR রিলিজ সংস্করণ 6.9.0 এবং তার উপরে থেকে শুরু করে, Apache Spark এবং Amazon Redshift JDBC ড্রাইভারের জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করে সংযোগকারী স্থানীয়ভাবে Amazon EMR-এ উপলব্ধ। এই ফাইলের অধীনে অবস্থিত /usr/share/aws/redshift/ ডিরেক্টরি যাইহোক, অ্যামাজন ইএমআর এর আগের সংস্করণগুলিতে, সম্প্রদায় সংস্করণ spark-redshift সংযোগকারী সহজলভ্য.

নিম্নলিখিত উদাহরণটি দেখায় কিভাবে একটি PySpark কার্নেল ব্যবহার করে অ্যামাজন রেডশিফ্ট সংযোগ করতে হয় আমাজন ইএমআর স্টুডিও নোটবই. ক্লাউডফর্মেশন স্ট্যাক অ্যামাজন ইএমআর স্টুডিও তৈরি করেছে, একটি EC2 ক্লাস্টারে অ্যামাজন ইএমআর এবং চালানোর জন্য উপলব্ধ একটি জুপিটার নোটবুক। এই উদাহরণের মাধ্যমে যেতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. আপনার জন্য S3 বালতিতে উপলব্ধ জুপিটার নোটবুকটি ডাউনলোড করুন:
    • ক্লাউডফর্মেশন স্ট্যাক আউটপুটগুলিতে, এর মানটি সন্ধান করুন EMRStudioNotebook, যা নির্দেশ করা উচিত redshift-spark-emr.ipynb নোটবুক S3 বালতিতে পাওয়া যায়।
    • লিঙ্কটি চয়ন করুন বা নোটবুকের URLটি অনুলিপি করে একটি নতুন ট্যাবে লিঙ্কটি খুলুন৷
    • আপনি লিঙ্কটি খোলার পরে, চয়ন করে নোটবুকটি ডাউনলোড করুন ডাউনলোড, যা আপনার কম্পিউটারে ফাইলটিকে স্থানীয়ভাবে সংরক্ষণ করবে।
  1. কীটির জন্য ক্লাউডফরমেশন স্ট্যাক আউটপুটগুলিতে প্রদত্ত লিঙ্কটি বেছে বা অনুলিপি করে Amazon EMR স্টুডিও অ্যাক্সেস করুন EMRStudioURL.
  2. নেভিগেশন ফলকে, নির্বাচন করুন ওয়ার্কস্পেস.
  3. বেছে নিন কর্মক্ষেত্র তৈরি করুন.
  4. উদাহরণস্বরূপ, কর্মক্ষেত্রের জন্য একটি নাম দিন redshift-spark.
  5. বিস্তৃত করা উন্নত কনফিগারেশন অধ্যায় এবং নির্বাচন করুন একটি EMR ক্লাস্টারে ওয়ার্কস্পেস সংযুক্ত করুন.
  6. অধীনে একটি EMR ক্লাস্টার সংযুক্ত করুন, নামের সাথে EMR ক্লাস্টার বেছে নিন emrCluster-Redshift-Spark.
  7. বেছে নিন কর্মক্ষেত্র তৈরি করুন.
  8. অ্যামাজন ইএমআর স্টুডিও ওয়ার্কস্পেস তৈরি হওয়ার পরে এবং অ্যাটাচড স্ট্যাটাসে, আপনি ওয়ার্কস্পেসের নাম বেছে নিয়ে ওয়ার্কস্পেস অ্যাক্সেস করতে পারেন।

এটি একটি নতুন ট্যাবে ওয়ার্কস্পেস খুলতে হবে। মনে রাখবেন যে আপনার যদি পপ-আপ ব্লকার থাকে, তাহলে আপনাকে ওয়ার্কস্পেসকে পপ-আপ ব্লকার খুলতে বা অক্ষম করার অনুমতি দিতে হতে পারে।

আমাজন EMR স্টুডিও ওয়ার্কস্পেসে, আমরা এখন জুপিটার নোটবুক আপলোড করেছি যা আমরা আগে ডাউনলোড করেছি।

  1. বেছে নিন আপলোড আপনার স্থানীয় ফাইল সিস্টেম ব্রাউজ করতে এবং Jupyter নোটবুক আপলোড করতে (redshift-spark-emr.ipynb).
  2. নির্বাচন করুন (ডাবল-ক্লিক করুন) redshift-spark-emr.ipynb নোটবুক খোলার জন্য ওয়ার্কস্পেসের মধ্যে নোটবুক।

নোটবুক বিভিন্ন কাজের বিবরণ প্রদান করে যা এটি করে। উল্লেখ্য যে বিভাগে অ্যামাজন রেডশিফ্ট ক্লাস্টারে সংযোগ করতে ভেরিয়েবলগুলিকে সংজ্ঞায়িত করুন, এর জন্য আপনাকে মান আপডেট করতে হবে না jdbc_iam_url, temp_dir, এবং aws_role কারণ এগুলি আপনার জন্য AWS CloudFormation দ্বারা আপডেট করা হয়েছে৷ এডব্লিউএস ক্লাউডফর্মেশনও উল্লেখিত পদক্ষেপগুলি সম্পাদন করেছে পূর্বশর্ত নোটবুকের বিভাগ।

আপনি এখন নোটবুক চালানো শুরু করতে পারেন।

  1. পৃথক কোষগুলি নির্বাচন করে এবং তারপর বেছে নিয়ে চালান খেলা.

আপনি এর কী সমন্বয়ও ব্যবহার করতে পারেন Shift + Enter or শিফট+রিটার্ন. বিকল্পভাবে, আপনি নির্বাচন করে সমস্ত ঘর চালাতে পারেন সমস্ত সেল চালান উপরে চালান মেনু.

  1. Apache Spark এর জন্য Amazon Redshift ইন্টিগ্রেশন দ্বারা Amazon Redshift ক্লাস্টারে সম্পাদিত পূর্বনির্ধারিত পুশডাউন অপারেশন খুঁজুন।

আমরা অপ্টিমাইজড Parquet ফরম্যাটে Amazon S3 তে সংরক্ষিত অস্থায়ী ডেটাও দেখতে পারি। সেকশনে সেল চালানো থেকে আউটপুট দেখা যায় অ্যামাজন রেডশিফ্টে সম্পাদিত শেষ প্রশ্নটি পান.

  1. Amazon EC2 তে Amazon EMR থেকে কাজের দ্বারা তৈরি টেবিলটি যাচাই করতে, Amazon Redshift কনসোলে নেভিগেট করুন এবং ক্লাস্টারটি বেছে নিন redshift-spark-redshift-cluster উপরে প্রভিশন করা ক্লাস্টার ড্যাশবোর্ড পাতা.
  2. ক্লাস্টারের বিবরণে, তে তথ্য অনুসন্ধান করুন মেনু, নির্বাচন করুন ক্যোয়ারী এডিটর v2.
  3. নেভিগেশন ফলকে ক্লাস্টারটি বেছে নিন এবং যখন এটি প্রমাণীকরণের জন্য অনুরোধ করে তখন অ্যামাজন রেডশিফ্ট ক্লাস্টারের সাথে সংযোগ করুন৷
  4. নির্বাচন করা অস্থায়ী শংসাপত্র.
  5. জন্য ডেটাবেসপ্রবেশ করান dev.
  6. জন্য ব্যবহারকারীর নামপ্রবেশ করান redshiftmasteruser.
  7. বেছে নিন সংরক্ষণ করুন.
  8. নেভিগেশন ফলকে, ক্লাস্টারটি প্রসারিত করুন redshift-spark-redshift-cluster, dev ডাটাবেস প্রসারিত করুন, প্রসারিত করুন tickit, এবং প্রসারিত করুন টেবিল স্কিমার ভিতরে সমস্ত টেবিল তালিকাভুক্ত করতে tickit.

আপনি টেবিল খুঁজে বের করা উচিত test_emr.

  1. টেবিলটি বেছে নিন (ডান-ক্লিক করুন) test_emr, তাহলে বেছে নাও টেবিল নির্বাচন করুন টেবিল জিজ্ঞাসা করতে.
  2. বেছে নিন চালান এসকিউএল স্টেটমেন্ট চালানোর জন্য।

Amazon EMR সার্ভারলেস Apache Spark এর সাথে Amazon Redshift ইন্টিগ্রেশন ব্যবহার করুন

Amazon EMR রিলিজ সংস্করণ 6.9.0 এবং তার উপরে অ্যামাজন ইএমআর সার্ভারলেস স্থানীয়ভাবে Apache Spark JARs (Amazon Redshift দ্বারা পরিচালিত) এবং Amazon Redshift JDBC JAR-এর জন্য Amazon Redshift ইন্টিগ্রেশন প্রদান করে। এই ফাইলের অধীনে অবস্থিত /usr/share/aws/redshift/ ডিরেক্টরি নিম্নলিখিত উদাহরণে, আমরা আগে তৈরি করা ক্লাউডফর্মেশন স্ট্যাকের দ্বারা S3 বালতিতে উপলব্ধ পাইথন স্ক্রিপ্ট ব্যবহার করি।

  1. ক্লাউডফরমেশন স্ট্যাক আউটপুটগুলিতে, এর জন্য মানের একটি নোট করুন EMRServerlessExecutionScript, যা S3 বালতিতে পাইথন স্ক্রিপ্টের অবস্থান।
  2. এছাড়াও জন্য মান নোট করুন EMRServerlessJobExecutionRole, যা Amazon EMR সার্ভারহীন কাজ চালানোর সাথে IAM ভূমিকা ব্যবহার করা হবে।
  3. কীটির জন্য ক্লাউডফরমেশন স্ট্যাক আউটপুটগুলিতে প্রদত্ত লিঙ্কটি বেছে বা অনুলিপি করে Amazon EMR স্টুডিও অ্যাক্সেস করুন EMRStudioURL.
  4. বেছে নিন অ্যাপ্লিকেশন অধীনে Serverless নেভিগেশন ফলকে।

আপনি নামের সাথে CloudFormation স্ট্যাক দ্বারা তৈরি একটি EMR অ্যাপ্লিকেশন পাবেন emr-spark-redshift.

  1. চাকরি জমা দিতে আবেদনের নাম বেছে নিন।
  2. বেছে নিন চাকরি জমা দিন.
  3. অধীনে চাকরির বিস্তারিতজন্য নাম, কাজের জন্য একটি শনাক্তযোগ্য নাম লিখুন।
  4. জন্য রানটাইম ভূমিকা, ক্লাউডফর্মেশন স্ট্যাক আউটপুট থেকে আপনি যে IAM ভূমিকাটি আগে উল্লেখ করেছেন সেটি বেছে নিন।
  5. জন্য স্ক্রিপ্ট অবস্থান, ক্লাউডফর্মেশন স্ট্যাক আউটপুট থেকে আপনি আগে উল্লেখ করা পাইথন স্ক্রিপ্টের পথ প্রদান করুন।
  6. বিভাগটি প্রসারিত করুন স্পার্ক বৈশিষ্ট্য এবং নির্বাচন করুন পাঠ্যে সম্পাদনা করুন
  7. টেক্সট বক্সে নিম্নলিখিত মানটি লিখুন, যা পাথ প্রদান করে redshift-connector, Amazon Redshift JDBC ড্রাইভার, spark-avro JAR, এবং minimal-json JAR ফাইল:
    --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar

  8. বেছে নিন চাকরি জমা দিন.
  9. কাজ সম্পূর্ণ হওয়ার জন্য এবং রান স্ট্যাটাস হিসাবে দেখানোর জন্য অপেক্ষা করুন সাফল্য.
  10. টেবিলটি সফলভাবে তৈরি হয়েছে কিনা তা দেখতে Amazon Redshift ক্যোয়ারী এডিটরে নেভিগেট করুন।
  11. Amazon Redshift ক্যোয়ারী গ্রুপের জন্য চালানো পুশডাউন প্রশ্নগুলি পরীক্ষা করুন emr-serverless-redshift. আপনি ডাটাবেসের বিরুদ্ধে নিম্নলিখিত SQL স্টেটমেন্ট চালাতে পারেন dev:
    SELECT query_text FROM SYS_QUERY_HISTORY WHERE query_label = 'emr-serverless-redshift' ORDER BY start_time DESC LIMIT 1

আপনি দেখতে পাচ্ছেন যে পুশডাউন কোয়েরি এবং রিটার্ন ফলাফলগুলি Amazon S3 এ Parquet ফাইল বিন্যাসে সংরক্ষণ করা হয়েছে৷

AWS Glue-এ Apache Spark এর সাথে Amazon Redshift ইন্টিগ্রেশন ব্যবহার করুন

AWS Glue ভার্সন 4.0 এবং তার উপরে থেকে শুরু করে, অ্যামাজন রেডশিফ্টের সাথে সংযুক্ত Apache Spark জবগুলি Apache Spark এবং Amazon Redshift JDBC ড্রাইভারের জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করতে পারে। বিদ্যমান AWS Glue কাজগুলি যেগুলি ইতিমধ্যেই Amazon Redshift কে উৎস বা লক্ষ্য হিসাবে ব্যবহার করে এই নতুন সংযোগকারীর সুবিধা নিতে AWS Glue 4.0 এ আপগ্রেড করা যেতে পারে৷ এই পোস্টের সাথে প্রদত্ত ক্লাউডফর্মেশন টেমপ্লেট নিম্নলিখিত AWS আঠালো সংস্থান তৈরি করে:

  • অ্যামাজন রেডশিফ্টের জন্য AWS আঠালো সংযোগ - Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করে AWS Glue থেকে Amazon Redshift-এ সংযোগ স্থাপনের সংযোগ
  • AWS Glue কাজের সাথে সংযুক্ত IAM ভূমিকা - AWS Glue কাজ চালানোর অনুমতি পরিচালনা করার জন্য IAM ভূমিকা
  • AWS আঠালো কাজ - Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করে রূপান্তর এবং একত্রীকরণ সম্পাদনকারী AWS Glue কাজের জন্য স্ক্রিপ্ট

নিম্নলিখিত উদাহরণটি PySpark এর সাথে AWS Glue কাজের সাথে সংযুক্ত AWS Glue সংযোগ ব্যবহার করে এবং নিম্নলিখিত পদক্ষেপগুলি অন্তর্ভুক্ত করে:

  1. এডাব্লুএস আঠালো কনসোলে, নির্বাচন করুন সংযোগ নেভিগেশন ফলকে।
  2. অধীনে সংযোগ, ক্লাউডফরমেশন টেমপ্লেট দ্বারা তৈরি অ্যামাজন রেডশিফ্টের জন্য AWS আঠালো সংযোগ চয়ন করুন৷
  3. সংযোগের বিবরণ যাচাই করুন।

আপনি এখন একটি কাজের মধ্যে বা একাধিক চাকরি জুড়ে এই সংযোগটি পুনরায় ব্যবহার করতে পারেন৷

  1. উপরে সংযোজকগুলির পৃষ্ঠায়, ক্লাউডফরমেশন স্ট্যাকের অধীনে তৈরি করা AWS আঠালো কাজটি বেছে নিন আপনার কাজ, অথবা কীটির জন্য প্রদত্ত URL ব্যবহার করে AWS Glue কাজ অ্যাক্সেস করুন GlueJob CloudFormation স্ট্যাক আউটপুটে।
  2. AWS Glue কাজের জন্য স্ক্রিপ্ট অ্যাক্সেস এবং যাচাই করুন।
  3. উপরে চাকরির বিস্তারিত ট্যাব, নিশ্চিত করুন যে আঠালো সংস্করণ তৈরি আঠালো 4.0.

এটি নিশ্চিত করে যে চাকরিটি সর্বশেষ ব্যবহার করে redshift-spark সংযোজক।

  1. বিস্তৃত করা উন্নত বৈশিষ্ট্য এবং মধ্যে সংযোগ বিভাগে, ক্লাউডফরমেশন স্ট্যাক দ্বারা তৈরি সংযোগ সংযুক্ত করা হয়েছে তা যাচাই করুন।
  2. AWS Glue কাজের জন্য যোগ করা কাজের পরামিতি যাচাই করুন। এই মানগুলি CloudFormation স্ট্যাকের জন্য আউটপুটেও উপলব্ধ।
  3. বেছে নিন সংরক্ষণ করুন এবং তারপর চালান.

আপনি চাকরীর জন্য স্ট্যাটাস দেখতে পারেন চালান ট্যাব।

  1. কাজটি সফলভাবে সম্পন্ন হওয়ার পর, আপনি AWS Glue কাজের দ্বারা তৈরি টেবিল টেস্ট-গ্লুর আউটপুট যাচাই করতে পারেন।
  2. আমরা অ্যামাজন রেডশিফ্ট ক্যোয়ারী গ্রুপের জন্য চালানো পুশডাউন প্রশ্নগুলি পরীক্ষা করি glue-redshift. আপনি ডাটাবেসের বিরুদ্ধে নিম্নলিখিত SQL স্টেটমেন্ট চালাতে পারেন dev:
    SELECT query_text FROM SYS_QUERY_HISTORY WHERE query_label = 'glue-redshift' ORDER BY start_time DESC LIMIT 1

সেরা অনুশীলন

নিম্নলিখিত সেরা অনুশীলনগুলি মনে রাখবেন:

  • ব্যবহার করার পরিবর্তে অ্যামাজন ইএমআর থেকে অ্যাপাচি স্পার্কের জন্য অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশন ব্যবহার করার কথা বিবেচনা করুন redshift-spark আপনার নতুন Apache Spark কাজের জন্য সংযোগকারী (সম্প্রদায় সংস্করণ)।
  • আপনি যদি বিদ্যমান অ্যাপাচি স্পার্ক কাজ ব্যবহার করে থাকেন redshift-spark সংযোগকারী (সম্প্রদায়িক সংস্করণ), Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করতে তাদের আপগ্রেড করার কথা বিবেচনা করুন
  • Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন স্বয়ংক্রিয়ভাবে কার্যকারিতার জন্য অপ্টিমাইজ করার জন্য predicate এবং Query pushdown প্রয়োগ করে। আমরা সমর্থিত ফাংশন ব্যবহার করার পরামর্শ দিই (autopushdown) আপনার প্রশ্নে। Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন ফাংশনটিকে SQL ক্যোয়ারীতে পরিণত করবে এবং Amazon Redshift-এ ক্যোয়ারী চালাবে। এই অপ্টিমাইজেশনের ফলে প্রয়োজনীয় ডেটা পুনরুদ্ধার করা হয়, তাই Apache Spark কম ডেটা প্রক্রিয়া করতে পারে এবং ভাল পারফরম্যান্স করতে পারে।
    • যেমন সামগ্রিক pushdown ফাংশন ব্যবহার বিবেচনা করুন avg, count, max, min, এবং sum ডেটা প্রক্রিয়াকরণের জন্য ফিল্টার করা ডেটা পুনরুদ্ধার করতে।
    • বুলিয়ান পুশডাউন অপারেটর ব্যবহার করার কথা বিবেচনা করুন in, isnull, isnotnull, contains, endswith, এবং startswith ডেটা প্রক্রিয়াকরণের জন্য ফিল্টার করা ডেটা পুনরুদ্ধার করতে।
    • লজিক্যাল পুশডাউন অপারেটর ব্যবহার করার কথা বিবেচনা করুন and, or, এবং not (অথবা !) ডেটা প্রক্রিয়াকরণের জন্য ফিল্টার করা ডেটা পুনরুদ্ধার করতে।
  • প্যারামিটার ব্যবহার করে একটি IAM ভূমিকা পাস করার পরামর্শ দেওয়া হয় aws_iam_role Amazon EMR বা AWS Glue-এ আপনার Apache Spark অ্যাপ্লিকেশন থেকে Amazon Redshift প্রমাণীকরণের জন্য। এই ব্লগের "Apache Spark অ্যাপ্লিকেশনে Apache Spark এর জন্য Amazon Redshift ইন্টিগ্রেশনের উদাহরণ" বিভাগে দেখানো হিসাবে Amazon Redshift-এ প্রমাণীকরণের জন্য অস্থায়ী IAM শংসাপত্রগুলি পুনরুদ্ধার করার জন্য IAM ভূমিকার প্রয়োজনীয় অনুমতি থাকা উচিত।
  • এই বৈশিষ্ট্যটির সাথে, আপনাকে গোপন ম্যানেজার এবং অ্যামাজন রেডশিফ্ট ডাটাবেসে আপনার Amazon Redshift ব্যবহারকারীর নাম এবং পাসওয়ার্ড বজায় রাখতে হবে না।
  • Amazon Redshift UNLOAD SQL স্টেটমেন্ট ব্যবহার করে Amazon S3 তে এই অস্থায়ী ডেটা সঞ্চয় করে। Apache Spark অ্যাপ্লিকেশনটি অস্থায়ী ডিরেক্টরি থেকে ফলাফল পুনরুদ্ধার করে (Parquet ফাইল বিন্যাসে সংরক্ষিত)। Amazon S3-তে এই অস্থায়ী ডিরেক্টরিটি স্বয়ংক্রিয়ভাবে পরিষ্কার হয় না, এবং তাই অতিরিক্ত খরচ যোগ করতে পারে। আমরা ব্যবহার করার পরামর্শ দিই Amazon S3 জীবনচক্র নীতি S3 বালতির জন্য ধরে রাখার নিয়ম সংজ্ঞায়িত করতে।
  • এটি চালু করার পরামর্শ দেওয়া হচ্ছে আমাজন রেডশিফ্ট অডিট লগিং আপনার ডাটাবেসে সংযোগ এবং ব্যবহারকারীর কার্যকলাপ সম্পর্কে তথ্য লগ করতে।
  • এটি চালু করার পরামর্শ দেওয়া হচ্ছে অ্যামাজন রেডশিফ্ট অ্যাট-রেস্ট এনক্রিপশন আপনার ডেটা এনক্রিপ্ট করতে যেমন অ্যামাজন রেডশিফ্ট এটিকে তার ডেটা সেন্টারে লিখে এবং আপনি যখন এটি অ্যাক্সেস করেন তখন এটি আপনার জন্য ডিক্রিপ্ট করে৷
  • Apache Spark এর জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করতে AWS Glue v4.0 এবং তার উপরে আপগ্রেড করার পরামর্শ দেওয়া হচ্ছে, যা বাক্সের বাইরে পাওয়া যায়। AWS Glue-এর এই সংস্করণে আপগ্রেড করা স্বয়ংক্রিয়ভাবে এই বৈশিষ্ট্যটি ব্যবহার করবে।
  • Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করতে Amazon EMR v6.9.0 এবং তার উপরে আপগ্রেড করার পরামর্শ দেওয়া হচ্ছে। আপনাকে স্পষ্টভাবে কোনো ড্রাইভার বা JAR ফাইল পরিচালনা করতে হবে না।
  • আপনার Apache Spark অ্যাপ্লিকেশনে আপনার Amazon Redshift ডেটার সাথে ইন্টারঅ্যাক্ট করতে Amazon EMR স্টুডিও নোটবুক ব্যবহার করার কথা বিবেচনা করুন।
  • একটি ভিজ্যুয়াল ইন্টারফেস ব্যবহার করে Apache Spark কাজ তৈরি করতে AWS Glue Studio ব্যবহার করার কথা বিবেচনা করুন। এছাড়াও আপনি AWS Glue Studio-এর মধ্যে Scala বা PySpark-এ Apache Spark কোড লিখতেও যেতে পারেন।

পরিষ্কার কর

ক্লাউডফরমেশন টেমপ্লেটের একটি অংশ হিসাবে তৈরি করা সংস্থানগুলি পরিষ্কার করার জন্য নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন যাতে আপনি সংস্থানগুলির জন্য আর ব্যবহার না করলে আপনাকে বিল করা হবে না:

  1. অ্যামাজন ইএমআর সার্ভারলেস অ্যাপ্লিকেশন বন্ধ করুন:
    • কীটির জন্য ক্লাউডফরমেশন স্ট্যাক আউটপুটগুলিতে প্রদত্ত লিঙ্কটি বেছে বা অনুলিপি করে Amazon EMR স্টুডিও অ্যাক্সেস করুন EMRStudioURL.
    • বেছে নিন অ্যাপ্লিকেশন অধীনে Serverless নেভিগেশন ফলকে।

আপনি নামের সাথে CloudFormation স্ট্যাক দ্বারা তৈরি একটি EMR অ্যাপ্লিকেশন পাবেন emr-spark-redshift.

    • যদি অ্যাপ্লিকেশান স্ট্যাটাস স্টপড হিসাবে দেখায়, আপনি পরবর্তী ধাপে যেতে পারেন। তবে, যদি অ্যাপ্লিকেশন স্ট্যাটাস শুরু হয়, তবে অ্যাপ্লিকেশনের নাম নির্বাচন করুন, তারপরে নির্বাচন করুন আবেদন বন্ধ করুন এবং আবেদন বন্ধ করুন আবার নিশ্চিত করতে
  1. অ্যামাজন ইএমআর স্টুডিও ওয়ার্কস্পেস মুছুন:
    • কীটির জন্য ক্লাউডফরমেশন স্ট্যাক আউটপুটগুলিতে প্রদত্ত লিঙ্কটি বেছে বা অনুলিপি করে Amazon EMR স্টুডিও অ্যাক্সেস করুন EMRStudioURL.
    • বেছে নিন ওয়ার্কস্পেস নেভিগেশন ফলকে।
    • আপনার তৈরি করা ওয়ার্কস্পেস নির্বাচন করুন এবং নির্বাচন করুন মুছে ফেলা, তাহলে বেছে নাও মুছে ফেলা আবার নিশ্চিত করতে
  2. CloudFormation স্ট্যাক মুছুন:
    • AWS ক্লাউডফর্মেশন কনসোলে, আপনি আগে তৈরি করা স্ট্যাকে নেভিগেট করুন।
    • স্ট্যাকের নাম নির্বাচন করুন এবং তারপর নির্বাচন করুন মুছে ফেলা স্ট্যাকটি সরাতে এবং এই পোস্টের একটি অংশ হিসাবে তৈরি সংস্থানগুলি মুছতে।
    • নিশ্চিতকরণ স্ক্রিনে, নির্বাচন করুন স্ট্যাক মুছুন.

উপসংহার

এই পোস্টে, আমরা ব্যাখ্যা করেছি কিভাবে আপনি Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করে Amazon EMR-এর সাথে Amazon EC2, Amazon EMR Serverless, এবং AWS Glue ব্যবহার করতে পারেন যাতে ডেটার জন্য ক্যোয়ারী পারফরম্যান্স অপ্টিমাইজ করার জন্য স্বয়ংক্রিয়ভাবে predicate এবং ক্যোয়ারী পুশডাউন প্রয়োগ করা যায়। অ্যামাজন রেডশিফ্টে। আপনার Amazon EMR বা AWS Glue থেকে Amazon Redshift-এর সাথে নিরবচ্ছিন্ন এবং নিরাপদ সংযোগের জন্য Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশন ব্যবহার করার জন্য এটি অত্যন্ত বাঞ্ছনীয়।

অ্যাপাচি স্পার্কের জন্য অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশন সম্পর্কে আমাদের কিছু গ্রাহকদের যা বলার আছে তা এখানে:

“আমরা আমাদের ইঞ্জিনিয়ারদের পাইথন এবং স্কালা ব্যবহার করে অ্যাপাচি স্পার্কের সাথে তাদের ডেটা পাইপলাইন এবং অ্যাপ্লিকেশন তৈরি করার ক্ষমতা দিই। আমরা একটি উপযোগী সমাধান চেয়েছিলাম যা আমাদের ক্লায়েন্টদের জন্য ক্রিয়াকলাপগুলিকে সহজ করে এবং দ্রুততর এবং আরও দক্ষতার সাথে বিতরণ করে এবং এটিই আমরা অ্যাপাচি স্পার্কের জন্য নতুন অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশনের সাথে পাই৷

-হুরন কনসাল্টিং

“GE Aerospace AWS বিশ্লেষণ এবং Amazon Redshift ব্যবহার করে সমালোচনামূলক ব্যবসার অন্তর্দৃষ্টি সক্ষম করতে যা গুরুত্বপূর্ণ ব্যবসায়িক সিদ্ধান্তগুলিকে চালিত করে। Amazon S3 থেকে স্বয়ংক্রিয় অনুলিপির জন্য সমর্থন সহ, আমরা Amazon S3 থেকে Amazon Redshift-এ ডেটা সরানোর জন্য সহজ ডেটা পাইপলাইন তৈরি করতে পারি। এটি আমাদের ডেটা পণ্য টিমের ডেটা অ্যাক্সেস করার এবং শেষ ব্যবহারকারীদের কাছে অন্তর্দৃষ্টি দেওয়ার ক্ষমতাকে ত্বরান্বিত করে। আমরা ডেটার মাধ্যমে মান যোগ করতে বেশি সময় ব্যয় করি এবং একীকরণে কম সময় ব্যয় করি।"

-জিই এরোস্পেস

“আমাদের ফোকাস গোল্ডম্যান শ্যাসে আমাদের সমস্ত ব্যবহারকারীদের জন্য ডেটাতে স্ব-পরিষেবা অ্যাক্সেস প্রদানের উপর। লিজেন্ড, আমাদের ওপেন-সোর্স ডেটা ম্যানেজমেন্ট এবং গভর্নেন্স প্ল্যাটফর্মের মাধ্যমে, আমরা ব্যবহারকারীদের ডেটা-কেন্দ্রিক অ্যাপ্লিকেশনগুলি বিকাশ করতে এবং ডেটা-চালিত অন্তর্দৃষ্টি অর্জন করতে সক্ষম করি কারণ আমরা আর্থিক পরিষেবা শিল্প জুড়ে সহযোগিতা করি। Apache Spark-এর জন্য Amazon Redshift ইন্টিগ্রেশনের মাধ্যমে, আমাদের ডেটা প্ল্যাটফর্ম টিম ন্যূনতম ম্যানুয়াল পদক্ষেপের সাথে Amazon Redshift ডেটা অ্যাক্সেস করতে সক্ষম হবে, শূন্য-কোড ETL-এর অনুমতি দেবে যা ইঞ্জিনিয়ারদের জন্য তাদের কর্মপ্রবাহকে নিখুঁত করার উপর ফোকাস করা সহজ করার ক্ষমতা বাড়াবে। তারা সম্পূর্ণ এবং সময়োপযোগী তথ্য সংগ্রহ করে। আমরা আশা করি অ্যাপ্লিকেশনের পারফরম্যান্সের উন্নতি এবং উন্নত সুরক্ষা দেখতে পাব কারণ আমাদের ব্যবহারকারীরা এখন সহজেই অ্যামাজন রেডশিফ্টে সর্বশেষ ডেটা অ্যাক্সেস করতে পারবেন।”

-গোল্ডম্যান শ্যাস


লেখক সম্পর্কে

গগন ব্রাহ্মী আমাজন ওয়েব সার্ভিসেস-এ বড় ডেটা অ্যানালিটিক্স এবং AI/ML প্ল্যাটফর্মের উপর দৃষ্টি নিবদ্ধ করে একজন সিনিয়র স্পেশালিস্ট সলিউশন আর্কিটেক্ট। তথ্য প্রযুক্তিতে গগনের 18 বছরেরও বেশি অভিজ্ঞতা রয়েছে। তিনি গ্রাহকদের আর্কিটেক্ট করতে এবং AWS-এ অত্যন্ত মাপযোগ্য, পারফরম্যান্ট এবং সুরক্ষিত ক্লাউড-ভিত্তিক সমাধান তৈরি করতে সহায়তা করেন। তার অবসর সময়ে, তিনি তার পরিবারের সাথে সময় কাটান এবং নতুন জায়গা ঘুরে দেখেন।

বিবেক গৌতম এডব্লিউএস প্রফেশনাল সার্ভিসেস-এ ডেটা লেকে বিশেষায়িত একজন ডেটা আর্কিটেক্ট। তিনি এন্টারপ্রাইজ গ্রাহকদের সাথে কাজ করে ডেটা পণ্য, বিশ্লেষণ প্ল্যাটফর্ম এবং AWS-এ সমাধান তৈরি করে। ডেটা লেক তৈরি এবং ডিজাইন না করার সময়, বিবেক একজন খাদ্য উত্সাহী যিনি নতুন ভ্রমণ গন্তব্যগুলি অন্বেষণ করতে এবং হাইকে যেতে পছন্দ করেন৷

নরেশ গৌতম তিনি 20 বছরের অভিজ্ঞতার সাথে AWS-এর একজন ডেটা অ্যানালিটিক্স এবং AI/ML নেতা, যিনি গ্রাহকদের ডেটা-চালিত সিদ্ধান্ত গ্রহণের ক্ষমতায়নের জন্য অত্যন্ত উপলব্ধ, উচ্চ-কার্যক্ষমতা, এবং খরচ-কার্যকর ডেটা বিশ্লেষণ এবং AI/ML সমাধানগুলিকে আর্কিটেক্ট করতে সাহায্য করেন। . তার অবসর সময়ে, তিনি ধ্যান এবং রান্না উপভোগ করেন।

বেয়াক্স শরিফী অ্যামাজন রেডশিফ্ট ড্রাইভারদের দলের একজন সফ্টওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার যেখানে তিনি অ্যাপাচি স্পার্ক সংযোগকারীর সাথে অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশনের উন্নয়নে নেতৃত্ব দেন। একাধিক শিল্পে ডেটা-চালিত প্ল্যাটফর্ম তৈরি করার 20 বছরেরও বেশি অভিজ্ঞতা রয়েছে তার। তার অবসর সময়ে, তিনি তার পরিবারের সাথে সময় কাটাতে এবং সার্ফিং উপভোগ করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস বিগ ডেটা

রেডশিফ্ট টেস্ট ড্রাইভ ব্যবহার করে আপনার কাজের চাপের জন্য সেরা অ্যামাজন রেডশিফ্ট কনফিগারেশন খুঁজুন আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 2788635
সময় স্ট্যাম্প: জুলাই 27, 2023