Apache Spark - Plato AiStream V2.1 کے لیے Amazon Redshift Integration کے ساتھ Amazon Redshift ڈیٹا پر Apache Spark ایپلی کیشنز کو آسان اور تیز کریں

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

صارفین استعمال کرتے ہیں ایمیزون ریڈ شفٹ سٹرکچرڈ اور نیم سٹرکچرڈ ڈیٹا کے پیٹا بائٹس پر اپنے کاروباری تنقیدی تجزیات کو چلانے کے لیے۔ Apache Spark ایک مقبول فریم ورک ہے جسے آپ ETL (ایکسٹریکٹ، ٹرانسفارم، اور لوڈ)، انٹرایکٹو اینالیٹکس، اور مشین لرننگ (ML) جیسے استعمال کے معاملات کے لیے ایپلی کیشنز بنانے کے لیے استعمال کر سکتے ہیں۔ Apache Spark آپ کو اپنے Amazon Redshift ڈیٹا گودام میں ڈیٹا تک رسائی حاصل کر کے مختلف زبانوں، جیسے Java، Scala، اور Python میں ایپلیکیشنز بنانے کے قابل بناتا ہے۔

Apache Spark کے لیے Amazon Redshift کا انضمام ڈویلپرز کو بغیر کسی رکاوٹ کے Amazon Redshift ڈیٹا پر Apache Spark ایپلی کیشنز بنانے اور چلانے میں مدد کرتا ہے۔ ڈویلپرز AWS analytics اور ML خدمات جیسے کہ استعمال کر سکتے ہیں۔ ایمیزون ای ایم آر, AWS گلو، اور ایمیزون سیج میکر آسانی سے Apache Spark ایپلی کیشنز بنانے کے لیے جو ان کے Amazon Redshift ڈیٹا گودام سے پڑھتے اور لکھتے ہیں۔ آپ اپنی ایپلیکیشنز کی کارکردگی یا اپنے ڈیٹا کی لین دین کی مستقل مزاجی پر سمجھوتہ کیے بغیر ایسا کر سکتے ہیں۔

اس پوسٹ میں، ہم اس بات پر تبادلہ خیال کرتے ہیں کہ اپاچی اسپارک کے لیے ایمیزون ریڈ شفٹ کا انضمام تجزیہ اور ایم ایل کے لیے کیوں اہم اور موثر ہے۔ اس کے علاوہ، ہم استعمال کے معاملات پر تبادلہ خیال کرتے ہیں جو کاروباری اثرات کو بڑھانے کے لیے Apache Spark کے ساتھ Amazon Redshift انضمام کا استعمال کرتے ہیں۔ آخر میں، ہم آپ کو مرحلہ وار مثالوں سے آگاہ کرتے ہیں کہ Apache Spark ایپلی کیشن میں اس آفیشل AWS کنیکٹر کو کیسے استعمال کیا جائے۔

Apache Spark کے لیے Amazon Redshift انضمام

اپاچی اسپارک کے لیے ایمیزون ریڈ شفٹ انضمام ایک چنگاری ریڈ شفٹ کنیکٹر قائم کرنے کے بوجھل اور اکثر دستی عمل کو کم کرتا ہے۔کمیونٹی ورژن) اور تجزیات اور ایم ایل کاموں کی تیاری کے لیے درکار وقت کو کم کرتا ہے۔ آپ کو صرف اپنے ڈیٹا گودام سے کنکشن بتانے کی ضرورت ہے، اور آپ منٹوں میں اپنی Apache Spark پر مبنی ایپلی کیشنز سے Amazon Redshift ڈیٹا کے ساتھ کام کرنا شروع کر سکتے ہیں۔

آپ چھانٹ، مجموعی، حد، جوائن، اور اسکیلر فنکشنز جیسے آپریشنز کے لیے کئی پش ڈاؤن صلاحیتیں استعمال کر سکتے ہیں تاکہ صرف متعلقہ ڈیٹا کو آپ کے Amazon Redshift ڈیٹا گودام سے استعمال کرنے والی Apache Spark ایپلیکیشن میں منتقل کیا جائے۔ یہ آپ کو اپنی ایپلی کیشنز کی کارکردگی کو بہتر بنانے کی اجازت دیتا ہے۔ Amazon Redshift منتظم آسانی سے Spark پر مبنی ایپلی کیشنز سے تیار کردہ SQL کی شناخت کر سکتے ہیں۔ اس پوسٹ میں، ہم دکھاتے ہیں کہ آپ Apache Spark جاب کے ذریعے تیار کردہ SQL کو کیسے تلاش کر سکتے ہیں۔

مزید برآں، Apache Spark کے لیے Amazon Redshift انٹیگریشن ایک عارضی ڈائرکٹری میں ڈیٹا کو اسٹیج کرتے وقت Parquet فائل فارمیٹ کا استعمال کرتا ہے۔ Amazon Redshift اس عارضی ڈیٹا کو اسٹور کرنے کے لیے UNLOAD SQL اسٹیٹمنٹ کا استعمال کرتا ہے۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)۔ اپاچی اسپارک ایپلیکیشن عارضی ڈائریکٹری (پارکیٹ فائل فارمیٹ میں محفوظ) سے نتائج حاصل کرتی ہے، جس سے کارکردگی بہتر ہوتی ہے۔

آپ استعمال کر کے اپنی ایپلیکیشنز کو مزید محفوظ بنانے میں بھی مدد کر سکتے ہیں۔ AWS شناخت اور رسائی کا انتظام Amazon Redshift سے منسلک ہونے کے لیے (IAM) اسناد۔

Apache Spark کے لیے Amazon Redshift انضمام چنگاری-redshift کنیکٹر کے اوپر بنایا گیا ہے (کمیونٹی ورژن) اور اسے کارکردگی اور سیکیورٹی کے لیے بڑھاتا ہے، جس سے آپ کو 10 گنا تیز ایپلیکیشن کی کارکردگی حاصل کرنے میں مدد ملتی ہے۔

Apache Spark کے ساتھ Amazon Redshift کے انضمام کے لیے کیسز استعمال کریں۔

ہمارے استعمال کے معاملے کے لیے، پروڈکٹ پر مبنی کمپنی کی قیادت متعدد مارکیٹوں میں ہر پروڈکٹ کی فروخت جاننا چاہتی ہے۔ چونکہ کمپنی کی فروخت متحرک طور پر اتار چڑھاؤ آتی ہے، قیادت کے لیے متعدد مارکیٹوں میں سیلز کو ٹریک کرنا ایک چیلنج بن گیا ہے۔ تاہم، مجموعی فروخت میں کمی آ رہی ہے، اور کمپنی کی قیادت یہ جاننا چاہتی ہے کہ کون سی مارکیٹیں کارکردگی نہیں دکھا رہی ہیں تاکہ وہ ان مارکیٹوں کو پروموشن مہمات کے لیے ہدف بنا سکیں۔

متعدد بازاروں میں فروخت کے لیے، مصنوعات کی فروخت کا ڈیٹا جیسا کہ آرڈرز، لین دین، اور شپمنٹ ڈیٹا ڈیٹا لیک میں Amazon S3 پر دستیاب ہے۔ ڈیٹا انجینئرنگ ٹیم Amazon S3 میں اس ڈیٹا کا تجزیہ کرنے کے لیے Amazon EMR یا AWS Glue کے ساتھ Apache Spark استعمال کر سکتی ہے۔

انوینٹری کا ڈیٹا Amazon Redshift میں دستیاب ہے۔ اسی طرح، ڈیٹا انجینئرنگ ٹیم Apache Spark کے ساتھ Amazon EMR یا AWS Glue جاب کا استعمال کرتے ہوئے Apache Spark کے لیے Amazon Redshift انٹیگریشن کو جمع کرنے اور تبدیلیاں کرنے کے لیے اس ڈیٹا کا تجزیہ کر سکتی ہے۔ Apache Spark کے لیے Amazon Redshift انٹیگریشن کا استعمال کرتے ہوئے مجموعی اور تبدیل شدہ ڈیٹا سیٹ کو Amazon Redshift میں واپس اسٹور کیا جا سکتا ہے۔

Apache Spark کے لیے Amazon Redshift کے انضمام کے ساتھ Apache Spark جیسے تقسیم شدہ فریم ورک کا استعمال ڈیٹا لیک اور ڈیٹا گودام میں فروخت کی بصیرت پیدا کرنے کے لیے مرئیت فراہم کر سکتا ہے۔ یہ بصیرتیں کاروباری اسٹیک ہولڈرز اور Amazon Redshift میں کاروباری صارفین کے لیے دستیاب کرائی جا سکتی ہیں تاکہ کم آمدنی والے بازار کے حصوں کے لیے ہدفی پروموشنز کو چلانے کے لیے باخبر فیصلے کر سکیں۔

مزید برآں، ہم مندرجہ ذیل استعمال کے معاملات میں Apache Spark کے ساتھ Amazon Redshift انضمام کا استعمال کر سکتے ہیں:

Apache Spark جابز چلانے والا ایک Amazon EMR یا AWS Glue کسٹمر ڈیٹا کو تبدیل کرنا چاہتا ہے اور اسے اپنی ETL پائپ لائن کے ایک حصے کے طور پر Amazon Redshift میں لکھنا چاہتا ہے۔
ایک ایم ایل صارف ایمیزون ریڈ شفٹ میں ڈیٹا تک رسائی اور تبدیلی کے لیے فیچر انجینئرنگ کے لیے SageMaker کے ساتھ Apache Spark کا استعمال کرتا ہے۔
ایک Amazon EMR، AWS Glue، یا SageMaker صارف نوٹ بک سے Amazon Redshift پر ڈیٹا کے ساتھ انٹرایکٹو ڈیٹا تجزیہ کے لیے Apache Spark کا استعمال کرتا ہے۔

Apache Spark ایپلی کیشن میں Apache Spark کے لیے Amazon Redshift کے انضمام کی مثالیں۔

اس پوسٹ میں، ہم Amazon EMR آن سے Amazon Redshift کو مربوط کرنے کے اقدامات دکھاتے ہیں۔ ایمیزون لچکدار کمپیوٹ کلاؤڈ (ایمیزون ای سی 2)، ایمیزون EMR سرور لیس، اور AWS Glue ایک عام اسکرپٹ کا استعمال کرتے ہوئے۔ مندرجہ ذیل نمونے کے کوڈ میں، ہم سال 2008 کی سہ ماہی فروخت کو ظاہر کرنے والی ایک رپورٹ تیار کرتے ہیں۔ ایسا کرنے کے لیے، ہم Apache Spark DataFrame کا استعمال کرتے ہوئے دو Amazon Redshift ٹیبلز میں شامل ہوتے ہیں، ایک predicate pushdown چلاتے ہیں، ڈیٹا کو اکٹھا کرتے ہیں اور ترتیب دیتے ہیں، اور لکھتے ہیں۔ ڈیٹا واپس ایمیزون ریڈ شفٹ پر۔ اسکرپٹ PySpark کا استعمال کرتی ہے۔

اسکرپٹ استعمال کرتا ہے۔ Amazon Redshift کے لیے IAM پر مبنی توثیق. Amazon EMR اور AWS Glue کے ذریعے استعمال ہونے والے IAM کرداروں میں Amazon Redshift کی توثیق کرنے کے لیے مناسب اجازتیں ہونی چاہئیں، اور عارضی ڈیٹا اسٹوریج کے لیے S3 بالٹی تک رسائی ہونی چاہیے۔

درج ذیل مثال کی پالیسی IAM رول کو کال کرنے کی اجازت دیتی ہے۔ GetClusterCredentials آپریشنز:

{ "Version": "2012-10-17", "Statement": { "Effect": "Allow", "Action": "redshift:GetClusterCredentials", "Resource": "arn:aws:redshift:<aws_region_name>:xxxxxxxxxxxx:dbuser:*/temp_*" }
}

درج ذیل مثال کی پالیسی عارضی ڈیٹا اسٹوریج کے لیے S3 بالٹی تک رسائی کی اجازت دیتی ہے۔

{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:ListBucket" ], "Resource": "arn:aws:s3:::<s3_bucket_name>" } ]
}

مکمل اسکرپٹ درج ذیل ہے:

from pyspark.sql import SparkSession
from pyspark.sql.functions import col # Initiate Apache Spark session
spark = SparkSession .builder .appName("SparkRedshiftConnector") .enableHiveSupport() .getOrCreate() # Set connection options for Amazon Redshift
jdbc_iam_url = "jdbc:redshift:iam://redshift-spark-connector-1.xxxxxxxxxxx.<aws_region_name>.redshift.amazonaws.com:5439/sample_data_dev"
temp_dir = 's3://<s3_bucket_name>/redshift-temp-dir/'
aws_role = 'arn:aws:iam::xxxxxxxxxxxx:role/redshift-s3' # Set query group for the query. More details on Amazon Redshift WLM https://docs.aws.amazon.com/redshift/latest/dg/cm-c-executing-queries.html
queryGroup = "emr-redshift"
jdbc_iam_url_withQueryGroup = jdbc_iam_url+'?queryGroup='+queryGroup # Set User name for the query
userName = 'awsuser'
jdbc_iam_url_withUserName = jdbc_iam_url_withQueryGroup+';user='+userName # Define the Amazon Redshift context
redshiftOptions = { "url": jdbc_iam_url_withUserName, "tempdir": temp_dir, "aws_iam_role" : aws_role
} # Create the sales DataFrame from Amazon Redshift table using io.github.spark_redshift_community.spark.redshift class
sales_df = ( spark.read .format("io.github.spark_redshift_community.spark.redshift") .options(**redshiftOptions) .option("dbtable", "tickit.sales") .load()
) # Create the date Data Frame from Amazon Redshift table
date_df = ( spark.read .format("io.github.spark_redshift_community.spark.redshift") .options(**redshiftOptions) .option("dbtable", "tickit.date") .load()
) # Assign a Data Frame to the above output which will be written back to Amazon Redshift
output_df= sales_df.join(date_df, sales_df.dateid == date_df.dateid, 'inner').where( col("year") == 2008).groupBy("qtr").sum("qtysold").select( col("qtr"), col("sum(qtysold)")).sort(["qtr"], ascending=[1]).withColumnRenamed("sum(qtysold)","total_quantity_sold") # Display the output
output_df.show() ## Lets drop the queryGroup for easy validation of push down queries
# Set User name for the query
userName = 'awsuser'
jdbc_iam_url_withUserName = jdbc_iam_url+'?user='+userName # Define the Amazon Redshift context
redshiftWriteOptions = { "url": jdbc_iam_url_withUserName, "tempdir": temp_dir, "aws_iam_role" : aws_role
} # Write the Data Frame back to Amazon Redshift
output_df.write .format("io.github.spark_redshift_community.spark.redshift") .mode("overwrite") .options(**redshiftWriteOptions) .option("dbtable", "tickit.test") .save()

اگر آپ اپنے ماحول میں سابقہ اسکرپٹ کو استعمال کرنے کا ارادہ رکھتے ہیں، تو یقینی بنائیں کہ آپ درج ذیل متغیرات کی قدروں کو اپنے ماحول کے لیے مناسب قدروں سے بدل دیں: jdbc_iam_url, temp_dir، اور aws_role.

اگلے حصے میں، ہم اس اسکرپٹ کو چلانے کے لیے ایک نمونہ ڈیٹاسیٹ کو جمع کرنے کے لیے اقدامات کرتے ہیں جو Amazon Redshift میں دستیاب ہے۔

شرائط

اس سے پہلے کہ ہم شروع کریں، یقینی بنائیں کہ درج ذیل شرائط پوری ہوئی ہیں:

AWS CloudFormation کا استعمال کرتے ہوئے وسائل تعینات کریں۔

CloudFormation اسٹیک کو تعینات کرنے کے لیے درج ذیل اقدامات کو مکمل کریں:

میں سائن ان کریں AWS مینجمنٹ کنسول، پھر CloudFormation اسٹیک لانچ کریں:

آپ یہ بھی کر سکتے ہیں CloudFormation ٹیمپلیٹ ڈاؤن لوڈ کریں۔ اس پوسٹ میں ذکر کردہ وسائل کو بنیادی ڈھانچے کے ذریعے بطور کوڈ (IaC) بنانے کے لیے۔ نیا CloudFormation اسٹیک لانچ کرتے وقت اس ٹیمپلیٹ کا استعمال کریں۔

منتخب کرنے کے لیے صفحہ کے نیچے تک سکرول کریں۔ میں تسلیم کرتا ہوں کہ AWS CloudFormation IAM وسائل پیدا کر سکتا ہے۔ کے تحت صلاحیتوں، پھر منتخب کریں اسٹیک بنائیں.

اسٹیک بنانے کے عمل کو مکمل ہونے میں 15-20 منٹ لگتے ہیں۔ CloudFormation ٹیمپلیٹ درج ذیل وسائل تخلیق کرتا ہے:

- ایک Amazon VPC جس میں ضروری سب نیٹس، روٹ ٹیبلز، اور NAT گیٹ وے ہیں۔
- نام کے ساتھ ایک S3 بالٹی redshift-spark-databucket-xxxxxxx (نوٹ کریں کہ xxxxxxx بالٹی کے نام کو منفرد بنانے کے لیے ایک بے ترتیب تار ہے)
- ڈیٹا بیس کے اندر بھرا ہوا نمونہ ڈیٹا کے ساتھ ایک Amazon Redshift کلسٹر dev اور بنیادی صارف redshiftmasteruser. اس بلاگ پوسٹ کے مقصد کے لیے، redshiftmasteruser انتظامی اجازت کے ساتھ استعمال کیا جاتا ہے۔ تاہم، یہ تجویز کیا جاتا ہے کہ پیداواری ماحول میں ٹھیک دانے دار رسائی کنٹرول والے صارف کو استعمال کریں۔
- Amazon Redshift کے لیے Amazon Redshift کلسٹر کے dev ڈیٹا بیس سے عارضی اسناد کی درخواست کرنے کی اہلیت کے ساتھ IAM کا کردار
- ایمیزون EMR اسٹوڈیو مطلوبہ IAM کرداروں کے ساتھ
- ایمیزون EMR کا ورژن 6.9.0 ایک EC2 کلسٹر پر ضروری IAM کرداروں کے ساتھ جاری کرتا ہے۔
- ایک Amazon EMR سرور لیس ایپلیکیشن ریلیز ورژن 6.9.0
- AWS Glue کنکشن اور AWS Glue جاب ورژن 4.0
- A Jupyter نوٹ بک EC2 کلسٹر پر Amazon EMR کا استعمال کرتے ہوئے Amazon EMR اسٹوڈیو کو چلانے کے لیے
- Amazon EMR اسٹوڈیو اور Amazon EMR سرور لیس کا استعمال کرتے ہوئے چلانے کے لیے ایک PySpark اسکرپٹ

اسٹیک بنانے کے مکمل ہونے کے بعد، اسٹیک کا نام منتخب کریں۔ redshift-spark اور پر جائیں۔ نتائج

ہم ان آؤٹ پٹ ویلیوز کو بعد میں اس پوسٹ میں استعمال کرتے ہیں۔

اگلے حصوں میں، ہم Amazon EC2، Amazon EMR Serverless، اور AWS Glue پر Amazon EMR سے Apache Spark کے لیے Amazon Redshift کے انضمام کے اقدامات دکھاتے ہیں۔

EC2 پر Amazon EMR پر Apache Spark کے ساتھ Amazon Redshift انضمام کا استعمال کریں۔

Amazon EMR ریلیز ورژن 6.9.0 اور اس سے اوپر سے شروع کرتے ہوئے، Apache Spark اور Amazon Redshift JDBC ڈرائیور کے لیے Amazon Redshift انٹیگریشن کا استعمال کرنے والا کنیکٹر Amazon EMR پر مقامی طور پر دستیاب ہے۔ یہ فائلیں کے نیچے واقع ہیں۔ /usr/share/aws/redshift/ ڈائریکٹری تاہم، ایمیزون EMR کے پچھلے ورژن میں، کمیونٹی کے ورژن spark-redshift کنیکٹر دستیاب ہے.

مندرجہ ذیل مثال سے پتہ چلتا ہے کہ PySpark کرنل کا استعمال کرتے ہوئے Amazon Redshift کو ایک کے ذریعے کیسے جوڑنا ہے۔ ایمیزون EMR اسٹوڈیو کاپی. CloudFormation اسٹیک نے Amazon EMR اسٹوڈیو، EC2 کلسٹر پر Amazon EMR، اور چلانے کے لیے دستیاب ایک Jupyter نوٹ بک بنائی۔ اس مثال سے گزرنے کے لیے، درج ذیل مراحل کو مکمل کریں:

آپ کے لیے S3 بالٹی میں دستیاب Jupyter نوٹ بک ڈاؤن لوڈ کریں:
- کلاؤڈ فارمیشن اسٹیک آؤٹ پٹس میں، اس کی قدر تلاش کریں۔ EMRStudioNotebook، جس کی طرف اشارہ کرنا چاہئے۔ redshift-spark-emr.ipynb نوٹ بک S3 بالٹی میں دستیاب ہے۔
- لنک کا انتخاب کریں یا نوٹ بک کے لیے یو آر ایل کاپی کرکے لنک کو نئے ٹیب میں کھولیں۔
- لنک کھولنے کے بعد، منتخب کرکے نوٹ بک ڈاؤن لوڈ کریں۔ لوڈ، جو فائل کو مقامی طور پر آپ کے کمپیوٹر پر محفوظ کرے گا۔

کلید کے لیے CloudFormation اسٹیک آؤٹ پٹس میں فراہم کردہ لنک کو منتخب یا کاپی کرکے Amazon EMR اسٹوڈیو تک رسائی حاصل کریں۔ EMRStudioURL.
نیویگیشن پین میں، منتخب کریں۔ ورکشاپ.
میں سے انتخاب کریں ورک اسپیس بنائیں.
مثال کے طور پر، ورک اسپیس کے لیے ایک نام فراہم کریں۔ redshift-spark.
پھیلائیں اعلی درجے کی ترتیب سیکشن اور منتخب کریں ورک اسپیس کو EMR کلسٹر سے منسلک کریں۔.
کے تحت EMR کلسٹر سے منسلک کریں۔، نام کے ساتھ EMR کلسٹر کا انتخاب کریں۔ emrCluster-Redshift-Spark.
میں سے انتخاب کریں ورک اسپیس بنائیں.
ایمیزون EMR اسٹوڈیو ورک اسپیس بننے کے بعد اور منسلک حالت میں، آپ ورک اسپیس کا نام منتخب کرکے ورک اسپیس تک رسائی حاصل کرسکتے ہیں۔

اس سے ورک اسپیس کو ایک نئے ٹیب میں کھلنا چاہیے۔ نوٹ کریں کہ اگر آپ کے پاس پاپ اپ بلاکر ہے، تو آپ کو ورک اسپیس کو پاپ اپ بلاکر کو کھولنے یا غیر فعال کرنے کی اجازت دینی پڑ سکتی ہے۔

Amazon EMR اسٹوڈیو ورک اسپیس میں، اب ہم Jupyter نوٹ بک اپ لوڈ کرتے ہیں جسے ہم نے پہلے ڈاؤن لوڈ کیا تھا۔

میں سے انتخاب کریں اپ لوڈ کریں اپنے مقامی فائل سسٹم کو براؤز کرنے اور Jupyter نوٹ بک اپ لوڈ کرنے کے لیے (redshift-spark-emr.ipynb).
کو منتخب کریں (ڈبل کلک کریں) redshift-spark-emr.ipynb نوٹ بک کو کھولنے کے لیے ورک اسپیس کے اندر موجود نوٹ بک۔

نوٹ بک مختلف کاموں کی تفصیلات فراہم کرتی ہے جو یہ انجام دیتا ہے۔ اس سیکشن میں نوٹ کریں۔ Amazon Redshift کلسٹر سے مربوط ہونے کے لیے متغیرات کی وضاحت کریں۔، آپ کو اقدار کو اپ ڈیٹ کرنے کی ضرورت نہیں ہے۔ jdbc_iam_url, temp_dir، اور aws_role کیونکہ یہ آپ کے لیے AWS CloudFormation کے ذریعے اپ ڈیٹ کیے گئے ہیں۔ AWS CloudFormation نے ان اقدامات کو بھی انجام دیا ہے جن کا ذکر کیا گیا ہے۔ شرائط نوٹ بک کے حصے.

اب آپ نوٹ بک چلانا شروع کر سکتے ہیں۔

انفرادی خلیات کو منتخب کرکے اور پھر منتخب کرکے چلائیں۔ کھیلیں.

آپ کا کلیدی امتزاج بھی استعمال کر سکتے ہیں۔ شفٹ + درج کریں or شفٹ+واپسی. متبادل طور پر، آپ تمام خلیات کو منتخب کرکے چلا سکتے ہیں۔ تمام سیل چلائیں۔ پر رن مینو.

Apache Spark کے لیے Amazon Redshift انٹیگریشن کے ذریعے Amazon Redshift کلسٹر پر کیے جانے والے پریڈیکیٹ پش ڈاؤن آپریشن کو تلاش کریں۔

ہم Amazon S3 پر محفوظ کردہ عارضی ڈیٹا کو آپٹمائزڈ Parquet فارمیٹ میں بھی دیکھ سکتے ہیں۔ آؤٹ پٹ کو سیکشن میں سیل چلانے سے دیکھا جا سکتا ہے۔ ایمیزون ریڈ شفٹ پر آخری استفسار حاصل کریں۔.

Amazon EC2 پر Amazon EMR سے جاب کے ذریعے تخلیق کردہ ٹیبل کی توثیق کرنے کے لیے، Amazon Redshift کنسول پر جائیں اور کلسٹر کا انتخاب کریں۔ redshift-spark-redshift-cluster پر فراہم کردہ کلسٹرز ڈیش بورڈ صفحہ.
کلسٹر کی تفصیلات میں، پر ڈیٹا سے استفسار کریں۔ مینو، منتخب کریں استفسار ایڈیٹر v2 میں سوال.
نیویگیشن پین میں کلسٹر کا انتخاب کریں اور ایمیزون ریڈ شفٹ کلسٹر سے جڑیں جب وہ تصدیق کی درخواست کرے۔
منتخب کریں عارضی اسناد.
کے لئے ڈیٹا بیس، داخل کریں dev.
کے لئے صارف کا نام، داخل کریں redshiftmasteruser.
میں سے انتخاب کریں محفوظ کریں.
نیویگیشن پین میں، کلسٹر کو پھیلائیں۔ redshift-spark-redshift-cluster، دیو ڈیٹا بیس کو پھیلائیں، پھیلائیں۔ tickit، اور پھیلائیں۔ میزیں اسکیما کے اندر موجود تمام ٹیبلز کی فہرست بنانے کے لیے tickit.

آپ کو میز تلاش کرنا چاہئے۔ test_emr.

ٹیبل کو منتخب کریں (دائیں کلک کریں) test_emr، پھر منتخب کریں ٹیبل منتخب کریں ٹیبل سے استفسار کرنے کے لیے۔
میں سے انتخاب کریں رن ایس کیو ایل اسٹیٹمنٹ کو چلانے کے لیے۔

Amazon EMR Serverless پر Apache Spark کے ساتھ Amazon Redshift انضمام کا استعمال کریں۔

Amazon EMR ریلیز ورژن 6.9.0 اور اس سے اوپر کا Apache Spark JARs (Amazon Redshift کے زیر انتظام) اور Amazon Redshift JDBC JARs کے لیے Amazon Redshift کا انضمام مقامی طور پر Amazon EMR سرور لیس پر بھی فراہم کرتا ہے۔ یہ فائلیں کے نیچے واقع ہیں۔ /usr/share/aws/redshift/ ڈائریکٹری مندرجہ ذیل مثال میں، ہم Python اسکرپٹ کا استعمال کرتے ہیں جو S3 بالٹی میں دستیاب کلاؤڈ فارمیشن اسٹیک کے ذریعے ہم نے پہلے بنایا تھا۔

کلاؤڈ فارمیشن اسٹیک آؤٹ پٹس میں، کے لیے قدر کا ایک نوٹ بنائیں EMRServerlessExecutionScript، جو S3 بالٹی میں Python اسکرپٹ کا مقام ہے۔
کی قدر بھی نوٹ کریں۔ EMRServerlessJobExecutionRole، جو ایمیزون EMR سرور لیس جاب چلانے کے ساتھ استعمال ہونے والا IAM کردار ہے۔
کلید کے لیے CloudFormation اسٹیک آؤٹ پٹس میں فراہم کردہ لنک کو منتخب یا کاپی کرکے Amazon EMR اسٹوڈیو تک رسائی حاصل کریں۔ EMRStudioURL.
میں سے انتخاب کریں درخواستیں کے تحت بے سرور نیوی گیشن پین میں.

آپ کو ایک EMR ایپلیکیشن ملے گی جسے کلاؤڈ فارمیشن اسٹیک نے نام کے ساتھ بنایا ہے۔ emr-spark-redshift.

نوکری جمع کرانے کے لیے درخواست کا نام منتخب کریں۔
میں سے انتخاب کریں نوکری جمع کروائیں۔.
کے تحت ملازمت کی تفصیلات، کے لئے نام، نوکری کے لیے ایک قابل شناخت نام درج کریں۔
کے لئے رن ٹائم کردار, IAM رول کا انتخاب کریں جو آپ نے پہلے CloudFormation اسٹیک آؤٹ پٹ سے نوٹ کیا تھا۔
کے لئے اسکرپٹ کا مقام، Python اسکرپٹ کا راستہ فراہم کریں جسے آپ نے پہلے CloudFormation اسٹیک آؤٹ پٹ سے نوٹ کیا تھا۔
سیکشن کو وسعت دیں۔ چنگاری کی خصوصیات اور منتخب کریں متن میں ترمیم کریں۔

ٹیکسٹ باکس میں درج ذیل قدر درج کریں، جو کہ کو راستہ فراہم کرتا ہے۔ redshift-connector, Amazon Redshift JDBC ڈرائیور، spark-avro JAR، اور minimal-json JAR فائلیں:

--jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar

میں سے انتخاب کریں نوکری جمع کروائیں۔.
کام مکمل ہونے اور رن اسٹیٹس کے بطور ظاہر ہونے کا انتظار کریں۔ کامیابی.
یہ دیکھنے کے لیے Amazon Redshift استفسار ایڈیٹر پر جائیں کہ آیا ٹیبل کامیابی کے ساتھ بنایا گیا ہے۔
Amazon Redshift استفسار گروپ کے لیے چلائے جانے والے پش ڈاؤن سوالات کو چیک کریں۔ emr-serverless-redshift. آپ ڈیٹا بیس کے خلاف درج ذیل SQL بیان چلا سکتے ہیں۔ dev:
```
SELECT query_text FROM SYS_QUERY_HISTORY WHERE query_label = 'emr-serverless-redshift' ORDER BY start_time DESC LIMIT 1
```

آپ دیکھ سکتے ہیں کہ پش ڈاؤن استفسار اور واپسی کے نتائج Amazon S3 پر Parquet فائل فارمیٹ میں محفوظ ہیں۔

AWS Glue پر Apache Spark کے ساتھ Amazon Redshift انضمام کا استعمال کریں۔

AWS Glue ورژن 4.0 اور اس سے اوپر کے ساتھ شروع کرتے ہوئے، Amazon Redshift سے جڑنے والی Apache Spark جابز Apache Spark اور Amazon Redshift JDBC ڈرائیور کے لیے Amazon Redshift انٹیگریشن کا استعمال کر سکتی ہیں۔ موجودہ AWS Glue جابز جو پہلے سے ہی Amazon Redshift کو بطور ذریعہ یا ہدف استعمال کرتی ہیں اس نئے کنیکٹر سے فائدہ اٹھانے کے لیے AWS Glue 4.0 میں اپ گریڈ کیا جا سکتا ہے۔ اس پوسٹ کے ساتھ فراہم کردہ CloudFormation ٹیمپلیٹ درج ذیل AWS Glue وسائل تخلیق کرتا ہے:

Amazon Redshift کے لیے AWS Glue کنکشن - Apache Spark کے لیے Amazon Redshift انضمام کا استعمال کرتے ہوئے AWS Glue سے Amazon Redshift تک کنکشن قائم کرنے کا کنکشن
AWS Glue جاب سے منسلک IAM کردار - AWS Glue جاب کو چلانے کے لیے اجازتوں کا انتظام کرنے کے لیے IAM کا کردار
AWS گلو کام - اپاچی اسپارک کے لیے ایمیزون ریڈ شفٹ انٹیگریشن کا استعمال کرتے ہوئے تبدیلیوں اور مجموعوں کو انجام دینے والی AWS Glue جاب کے لیے اسکرپٹ

مندرجہ ذیل مثال PySpark کے ساتھ AWS Glue جاب سے منسلک AWS Glue کنکشن کا استعمال کرتی ہے اور اس میں درج ذیل اقدامات شامل ہیں:

AWS Glue کنسول پر، منتخب کریں۔ کنکشن نیوی گیشن پین میں.
کے تحت کنکشن، CloudFormation ٹیمپلیٹ کے ذریعہ تخلیق کردہ Amazon Redshift کے لئے AWS Glue کنکشن کا انتخاب کریں۔
کنکشن کی تفصیلات کی تصدیق کریں۔

اب آپ اس کنکشن کو نوکری کے اندر یا متعدد جاب میں دوبارہ استعمال کر سکتے ہیں۔

پر کنیکٹر صفحہ، CloudFormation اسٹیک کے تحت تخلیق کردہ AWS Glue جاب کا انتخاب کریں۔ آپ کی نوکریاں، یا کلید کے لیے فراہم کردہ یو آر ایل کا استعمال کرکے AWS Glue جاب تک رسائی حاصل کریں۔ GlueJob کلاؤڈ فارمیشن اسٹیک آؤٹ پٹ میں۔
AWS Glue جاب کے لیے اسکرپٹ تک رسائی اور تصدیق کریں۔
پر ملازمت کی تفصیلات ٹیب، اس بات کو یقینی بنائیں گلو ورژن کرنے کے لئے مقرر کیا گیا ہے گلو 4.0.

یہ یقینی بناتا ہے کہ کام تازہ ترین استعمال کرتا ہے۔ redshift-spark کنیکٹر.

توسیع اعلی درجے کی خصوصیات اور میں کنکشن سیکشن، تصدیق کریں کہ CloudFormation اسٹیک کے ذریعے بنایا گیا کنکشن منسلک ہے۔
AWS Glue جاب کے لیے شامل کیے گئے جاب کے پیرامیٹرز کی تصدیق کریں۔ یہ قدریں CloudFormation اسٹیک کے آؤٹ پٹ میں بھی دستیاب ہیں۔
میں سے انتخاب کریں محفوظ کریں اور پھر رن.

آپ اس پر چلنے والی نوکری کی حیثیت دیکھ سکتے ہیں۔ رن ٹیب.

جاب رن کامیابی سے مکمل ہونے کے بعد، آپ AWS Glue جاب کے ذریعے بنائے گئے ٹیبل ٹیسٹ-گلو کے آؤٹ پٹ کی تصدیق کر سکتے ہیں۔
ہم Amazon Redshift استفسار گروپ کے لیے چلائے جانے والے پش ڈاؤن سوالات کو چیک کرتے ہیں۔ glue-redshift. آپ ڈیٹا بیس کے خلاف درج ذیل SQL بیان چلا سکتے ہیں۔ dev:
```
SELECT query_text FROM SYS_QUERY_HISTORY WHERE query_label = 'glue-redshift' ORDER BY start_time DESC LIMIT 1
```

بہترین طریقوں

درج ذیل بہترین طریقوں کو ذہن میں رکھیں:

Apache Spark کے لیے Amazon EMR استعمال کرنے کے بجائے Amazon Redshift انضمام کو استعمال کرنے پر غور کریں۔ redshift-spark آپ کی نئی اپاچی اسپارک جابز کے لیے کنیکٹر (کمیونٹی ورژن)۔
اگر آپ کے پاس اپاچی اسپارک کی موجودہ ملازمتیں ہیں۔ redshift-spark کنیکٹر (کمیونٹی ورژن)، اپاچی اسپارک کے لیے Amazon Redshift انضمام کو استعمال کرنے کے لیے انہیں اپ گریڈ کرنے پر غور کریں۔
Apache Spark کے لیے Amazon Redshift کا انضمام کارکردگی کو بہتر بنانے کے لیے خود بخود predicate اور query pushdown کا اطلاق کرتا ہے۔ ہم سپورٹڈ فنکشن استعمال کرنے کی تجویز کرتے ہیں (autopushdown) آپ کے استفسار میں۔ Apache Spark کے لیے Amazon Redshift انضمام فنکشن کو SQL استفسار میں بدل دے گا اور Amazon Redshift میں استفسار کو چلائے گا۔ اس اصلاح کے نتیجے میں مطلوبہ ڈیٹا کی بازیافت ہوتی ہے، اس لیے اپاچی اسپارک کم ڈیٹا پر کارروائی کر سکتا ہے اور بہتر کارکردگی کا حامل ہے۔
- ایگریگیٹ پش ڈاون فنکشن جیسے استعمال کرنے پر غور کریں۔ avg, count, max, min، اور sum ڈیٹا پروسیسنگ کے لیے فلٹر شدہ ڈیٹا کو بازیافت کرنے کے لیے۔
- بولین پش ڈاؤن آپریٹرز جیسے استعمال کرنے پر غور کریں۔ in, isnull, isnotnull, contains, endswith، اور startswith ڈیٹا پروسیسنگ کے لیے فلٹر شدہ ڈیٹا کو بازیافت کرنے کے لیے۔
- منطقی پش ڈاؤن آپریٹرز جیسے استعمال کرنے پر غور کریں۔ and, or، اور not (یا !) ڈیٹا پروسیسنگ کے لیے فلٹر شدہ ڈیٹا کو بازیافت کرنا۔
پیرامیٹر کا استعمال کرتے ہوئے IAM رول پاس کرنے کی سفارش کی جاتی ہے۔ aws_iam_role Amazon EMR یا AWS Glue پر آپ کی Apache Spark ایپلیکیشن سے Amazon Redshift کی توثیق کے لیے۔ IAM کے کردار کے پاس Amazon Redshift کی توثیق کرنے کے لیے عارضی IAM اسناد کی بازیافت کے لیے ضروری اجازتیں ہونی چاہئیں جیسا کہ اس بلاگ کے "Apache Spark ایپلی کیشن میں Apache Spark کے لیے Amazon Redshift کے انضمام کی مثالیں" سیکشن میں دکھایا گیا ہے۔
اس خصوصیت کے ساتھ، آپ کو سیکرٹ مینیجر اور ایمیزون ریڈ شفٹ ڈیٹا بیس میں اپنا ایمیزون ریڈ شفٹ صارف نام اور پاس ورڈ برقرار رکھنے کی ضرورت نہیں ہے۔
Amazon Redshift اس عارضی ڈیٹا کو Amazon S3 پر ذخیرہ کرنے کے لیے UNLOAD SQL بیان کا استعمال کرتا ہے۔ اپاچی اسپارک ایپلیکیشن عارضی ڈائریکٹری (پارکیٹ فائل فارمیٹ میں محفوظ) سے نتائج حاصل کرتی ہے۔ Amazon S3 پر یہ عارضی ڈائرکٹری خود بخود صاف نہیں ہوتی ہے، اور اس وجہ سے اضافی لاگت کا اضافہ ہو سکتا ہے۔ ہم استعمال کرنے کی سفارش کرتے ہیں۔ Amazon S3 لائف سائیکل پالیسیاں S3 بالٹی کے لیے برقرار رکھنے کے قواعد کی وضاحت کرنے کے لیے۔
اسے آن کرنے کی سفارش کی جاتی ہے۔ ایمیزون ریڈ شفٹ آڈٹ لاگنگ اپنے ڈیٹا بیس میں کنکشن اور صارف کی سرگرمیوں کے بارے میں معلومات کو لاگ کرنے کے لیے۔
اسے آن کرنے کی سفارش کی جاتی ہے۔ ایمیزون ریڈ شفٹ اٹ ریسٹ انکرپشن اپنے ڈیٹا کو انکرپٹ کرنے کے لیے جیسا کہ Amazon Redshift اسے اپنے ڈیٹا سینٹرز میں لکھتا ہے اور جب آپ اس تک رسائی حاصل کرتے ہیں تو اسے آپ کے لیے ڈکرپٹ کریں۔
Apache Spark کے لیے Amazon Redshift انٹیگریشن کو استعمال کرنے کے لیے AWS Glue v4.0 اور اس سے اوپر میں اپ گریڈ کرنے کی سفارش کی جاتی ہے، جو باکس کے باہر دستیاب ہے۔ AWS Glue کے اس ورژن میں اپ گریڈ کرنے سے یہ خصوصیت خود بخود استعمال ہو جائے گی۔
Apache Spark کے لیے Amazon Redshift انٹیگریشن کو استعمال کرنے کے لیے Amazon EMR v6.9.0 اور اس سے اوپر میں اپ گریڈ کرنے کی سفارش کی جاتی ہے۔ آپ کو کسی ڈرائیور یا JAR فائلوں کو واضح طور پر منظم کرنے کی ضرورت نہیں ہے۔
اپنی Apache Spark ایپلیکیشن میں اپنے Amazon Redshift ڈیٹا کے ساتھ تعامل کرنے کے لیے Amazon EMR اسٹوڈیو نوٹ بک استعمال کرنے پر غور کریں۔
بصری انٹرفیس کا استعمال کرتے ہوئے Apache Spark جابز بنانے کے لیے AWS Glue Studio استعمال کرنے پر غور کریں۔ آپ AWS Glue Studio کے اندر Scala یا PySpark میں Apache Spark کوڈ لکھنے پر بھی سوئچ کر سکتے ہیں۔

صاف کرو

CloudFormation ٹیمپلیٹ کے ایک حصے کے طور پر بنائے گئے وسائل کو صاف کرنے کے لیے درج ذیل اقدامات کو مکمل کریں تاکہ یہ یقینی بنایا جا سکے کہ اگر آپ ان وسائل کو مزید استعمال نہیں کر رہے ہوں گے تو آپ کو ان وسائل کے لیے بل نہیں دیا جائے گا:

ایمیزون EMR سرور لیس ایپلیکیشن کو روکیں:
- کلید کے لیے CloudFormation اسٹیک آؤٹ پٹس میں فراہم کردہ لنک کو منتخب یا کاپی کرکے Amazon EMR اسٹوڈیو تک رسائی حاصل کریں۔ EMRStudioURL.
- میں سے انتخاب کریں درخواستیں کے تحت بے سرور نیوی گیشن پین میں.

آپ کو ایک EMR ایپلیکیشن ملے گی جسے کلاؤڈ فارمیشن اسٹیک نے نام کے ساتھ بنایا ہے۔ emr-spark-redshift.

- اگر درخواست کی حیثیت رک گئی کے طور پر ظاہر ہوتی ہے، تو آپ اگلے مراحل پر جا سکتے ہیں۔ تاہم، اگر درخواست کی حیثیت شروع ہے، درخواست کا نام منتخب کریں، پھر منتخب کریں۔ ایپلی کیشن بند کریں۔ اور ایپلی کیشن بند کریں۔ دوبارہ تصدیق کرنے کے لئے.

ایمیزون EMR اسٹوڈیو ورک اسپیس کو حذف کریں:
- کلید کے لیے CloudFormation اسٹیک آؤٹ پٹس میں فراہم کردہ لنک کو منتخب یا کاپی کرکے Amazon EMR اسٹوڈیو تک رسائی حاصل کریں۔ EMRStudioURL.
- میں سے انتخاب کریں ورکشاپ نیوی گیشن پین میں.
- وہ ورک اسپیس منتخب کریں جسے آپ نے بنایا اور منتخب کریں۔ خارج کر دیں، پھر منتخب کریں خارج کر دیں دوبارہ تصدیق کرنے کے لئے.
CloudFormation اسٹیک کو حذف کریں:

- AWS CloudFormation کنسول پر، اس اسٹیک پر جائیں جو آپ نے پہلے بنایا تھا۔
- اسٹیک کا نام منتخب کریں اور پھر منتخب کریں۔ خارج کر دیں اسٹیک کو ہٹانے اور اس پوسٹ کے ایک حصے کے طور پر بنائے گئے وسائل کو حذف کرنے کے لیے۔
- تصدیقی اسکرین پر، منتخب کریں۔ اسٹیک کو حذف کریں۔.

نتیجہ

اس پوسٹ میں، ہم نے بتایا کہ آپ کس طرح اپاچی اسپارک کے لیے Amazon Redshift انضمام کا استعمال Amazon EMR کے ساتھ Amazon EC2، Amazon EMR Serverless، اور AWS Glue کے ساتھ ایپلی کیشنز بنانے اور تعینات کرنے کے لیے کر سکتے ہیں تاکہ ڈیٹا کے لیے استفسار کی کارکردگی کو بہتر بنانے کے لیے خود بخود predicate اور query pushdown لاگو کیا جا سکے۔ ایمیزون ریڈ شفٹ میں۔ آپ کے Amazon EMR یا AWS Glue سے Amazon Redshift سے ہموار اور محفوظ کنکشن کے لیے Apache Spark کے لیے Amazon Redshift انٹیگریشن کو استعمال کرنے کی انتہائی سفارش کی جاتی ہے۔

اپاچی اسپارک کے لیے ایمیزون ریڈ شفٹ انضمام کے بارے میں ہمارے کچھ صارفین کا یہ کہنا ہے:

"ہم اپنے انجینئرز کو Python اور Scala کا استعمال کرتے ہوئے Apache Spark کے ساتھ اپنی ڈیٹا پائپ لائنز اور ایپلیکیشنز بنانے کا اختیار دیتے ہیں۔ ہم ایک ایسا حل چاہتے تھے جس نے آپریشنز کو آسان بنایا اور ہمارے کلائنٹس کے لیے تیز اور زیادہ موثر طریقے سے ڈیلیور کیا، اور یہی چیز ہمیں اپاچی اسپارک کے لیے نئے ایمیزون ریڈ شفٹ انضمام کے ساتھ ملتی ہے۔

- ہورون کنسلٹنگ

"GE Aerospace اہم کاروباری بصیرت کو فعال کرنے کے لیے AWS analytics اور Amazon Redshift کا استعمال کرتا ہے جو اہم کاروباری فیصلوں کو آگے بڑھاتا ہے۔ Amazon S3 سے آٹو کاپی کے لیے تعاون کے ساتھ، ہم ڈیٹا کو Amazon S3 سے Amazon Redshift میں منتقل کرنے کے لیے آسان ڈیٹا پائپ لائن بنا سکتے ہیں۔ یہ ہماری ڈیٹا پروڈکٹ ٹیموں کی ڈیٹا تک رسائی اور اختتامی صارفین کو بصیرت فراہم کرنے کی صلاحیت کو تیز کرتا ہے۔ ہم ڈیٹا کے ذریعے ویلیو ایڈ کرنے میں زیادہ اور انضمام پر کم وقت صرف کرتے ہیں۔

جی ای ایرو اسپیس

"ہماری توجہ گولڈمین سیکس میں اپنے تمام صارفین کے لیے ڈیٹا تک سیلف سروس تک رسائی فراہم کرنے پر ہے۔ Legend کے ذریعے، ہمارے اوپن سورس ڈیٹا مینجمنٹ اور گورننس پلیٹ فارم، ہم صارفین کو ڈیٹا سینٹرک ایپلی کیشنز تیار کرنے اور ڈیٹا پر مبنی بصیرت حاصل کرنے کے قابل بناتے ہیں کیونکہ ہم مالیاتی خدمات کی صنعت میں تعاون کرتے ہیں۔ Apache Spark کے لیے Amazon Redshift انضمام کے ساتھ، ہماری ڈیٹا پلیٹ فارم ٹیم Amazon Redshift ڈیٹا تک کم سے کم دستی اقدامات کے ساتھ رسائی حاصل کر سکے گی، جس سے صفر کوڈ ETL کی اجازت ہو گی جو انجینئرز کے لیے اپنے ورک فلو کو مکمل کرنے پر توجہ مرکوز کرنے کی ہماری صلاحیت کو بڑھا دے گی۔ وہ مکمل اور بروقت معلومات اکٹھا کرتے ہیں۔ ہم ایپلی کیشنز کی کارکردگی میں بہتری اور سیکیورٹی میں بہتری دیکھنے کی توقع رکھتے ہیں کیونکہ ہمارے صارفین اب ایمیزون ریڈ شفٹ میں تازہ ترین ڈیٹا تک آسانی سے رسائی حاصل کر سکتے ہیں۔

- گولڈمین سیکس

مصنفین کے بارے میں

گگن براہمی ایمیزون ویب سروسز پر بڑے ڈیٹا اینالیٹکس اور AI/ML پلیٹ فارم پر توجہ مرکوز کرنے والا ایک سینئر اسپیشلسٹ سولیوشن آرکیٹیکٹ ہے۔ گگن کو انفارمیشن ٹیکنالوجی میں 18 سال سے زیادہ کا تجربہ ہے۔ وہ صارفین کو آرکیٹیکٹ بنانے اور AWS پر انتہائی قابل توسیع، پرفارمنس، اور محفوظ کلاؤڈ بیسڈ حل بنانے میں مدد کرتا ہے۔ اپنے فارغ وقت میں، وہ اپنے خاندان کے ساتھ وقت گزارتا ہے اور نئی جگہوں کی تلاش کرتا ہے۔

وویک گوتم اے ڈبلیو ایس پروفیشنل سروسز میں ڈیٹا لیکس میں مہارت کے ساتھ ڈیٹا آرکیٹیکٹ ہے۔ وہ AWS پر ڈیٹا پروڈکٹس، اینالیٹکس پلیٹ فارمز اور حل بنانے والے انٹرپرائز صارفین کے ساتھ کام کرتا ہے۔ ڈیٹا لیکس بنانے اور ڈیزائن نہ کرنے پر، ویویک کھانے کے شوقین ہیں جو نئے سفری مقامات کو تلاش کرنا اور پیدل سفر کرنا بھی پسند کرتے ہیں۔

نریش گوتم AWS میں 20 سال کے تجربے کے ساتھ ڈیٹا اینالیٹکس اور AI/ML لیڈر ہے، جو صارفین کو ڈیٹا پر مبنی فیصلہ سازی کے ساتھ بااختیار بنانے کے لیے انتہائی دستیاب، اعلیٰ کارکردگی، اور لاگت سے موثر ڈیٹا اینالیٹکس اور AI/ML سلوشنز کے معمار کی مدد سے لطف اندوز ہوتا ہے۔ . اپنے فارغ وقت میں، وہ مراقبہ اور کھانا پکانے سے لطف اندوز ہوتا ہے۔

بیوکس شریفی۔ Amazon Redshift ڈرائیوروں کی ٹیم میں ایک سافٹ ویئر ڈویلپمنٹ انجینئر ہے جہاں وہ Apache Spark کنیکٹر کے ساتھ Amazon Redshift Integration کی ترقی کی رہنمائی کرتا ہے۔ اس کے پاس متعدد صنعتوں میں ڈیٹا پر مبنی پلیٹ فارم بنانے کا 20 سال سے زیادہ کا تجربہ ہے۔ اپنے فارغ وقت میں، وہ اپنے خاندان کے ساتھ وقت گزارنے اور سرفنگ سے لطف اندوز ہوتا ہے۔