अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण के साथ अमेज़ॅन रेडशिफ्ट डेटा पर अपाचे स्पार्क एप्लिकेशन को सरल और तेज करें

अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण के साथ अमेज़ॅन रेडशिफ्ट डेटा पर अपाचे स्पार्क एप्लिकेशन को सरल और तेज करें

स्रोत नोड: 2597866

ग्राहक उपयोग करते हैं अमेज़न रेडशिफ्ट संरचित और अर्ध-संरचित डेटा के पेटाबाइट्स पर अपने व्यापार-महत्वपूर्ण विश्लेषण चलाने के लिए। अपाचे स्पार्क एक लोकप्रिय ढांचा है जिसका उपयोग आप ईटीएल (एक्सट्रैक्ट, ट्रांसफॉर्म और लोड), इंटरएक्टिव एनालिटिक्स और मशीन लर्निंग (एमएल) जैसे उपयोग के मामलों के लिए एप्लिकेशन बनाने के लिए कर सकते हैं। अपाचे स्पार्क आपको अपने अमेज़ॅन रेडशिफ्ट डेटा वेयरहाउस में डेटा एक्सेस करके जावा, स्काला और पायथन जैसी विभिन्न भाषाओं में एप्लिकेशन बनाने में सक्षम बनाता है।

अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण डेवलपर्स को अमेज़ॅन रेडशिफ्ट डेटा पर अपाचे स्पार्क अनुप्रयोगों को मूल रूप से बनाने और चलाने में मदद करता है। डेवलपर AWS एनालिटिक्स और ML सेवाओं का उपयोग कर सकते हैं जैसे अमेज़ॅन ईएमआर, एडब्ल्यूएस गोंद, तथा अमेज़न SageMaker अनायास Apache Spark अनुप्रयोगों का निर्माण करने के लिए जो उनके Amazon Redshift डेटा वेयरहाउस से पढ़ते और लिखते हैं। आप अपने एप्लिकेशन के प्रदर्शन या अपने डेटा की लेन-देन की स्थिरता से समझौता किए बिना ऐसा कर सकते हैं।

इस पोस्ट में, हम चर्चा करते हैं कि क्यों अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण विश्लेषिकी और एमएल के लिए महत्वपूर्ण और कुशल है। इसके अलावा, हम उन मामलों पर चर्चा करते हैं जो व्यावसायिक प्रभाव को चलाने के लिए अपाचे स्पार्क के साथ अमेज़ॅन रेडशिफ्ट एकीकरण का उपयोग करते हैं। अंत में, हम आपको अपाचे स्पार्क एप्लिकेशन में इस आधिकारिक एडब्ल्यूएस कनेक्टर का उपयोग करने के तरीके के चरण-दर-चरण उदाहरणों के माध्यम से चलते हैं।

Apache Spark के लिए Amazon Redshift एकीकरण

अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण स्पार्क-रेडशिफ्ट कनेक्टर स्थापित करने की बोझिल और अक्सर मैन्युअल प्रक्रिया को कम करता है (सामुदायिक संस्करण) और विश्लेषिकी और एमएल कार्यों की तैयारी के लिए आवश्यक समय को कम करता है। आपको केवल अपने डेटा वेयरहाउस से कनेक्शन निर्दिष्ट करने की आवश्यकता है, और आप मिनटों के भीतर अपने अपाचे स्पार्क-आधारित एप्लिकेशन से अमेज़ॅन रेडशिफ्ट डेटा के साथ काम करना शुरू कर सकते हैं।

आप संचालन के लिए कई पुशडाउन क्षमताओं का उपयोग कर सकते हैं जैसे कि सॉर्ट, एग्रीगेट, लिमिट, जॉइन और स्केलर फ़ंक्शंस ताकि केवल प्रासंगिक डेटा आपके अमेज़ॅन रेडशिफ्ट डेटा वेयरहाउस से उपभोग करने वाले अपाचे स्पार्क एप्लिकेशन में ले जाया जा सके। यह आपको अपने अनुप्रयोगों के प्रदर्शन में सुधार करने की अनुमति देता है। अमेज़ॅन रेडशिफ्ट व्यवस्थापक आसानी से स्पार्क-आधारित अनुप्रयोगों से उत्पन्न SQL की पहचान कर सकते हैं। इस पोस्ट में, हम दिखाते हैं कि आप Apache Spark जॉब द्वारा उत्पन्न SQL का पता कैसे लगा सकते हैं।

इसके अलावा, अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण एक अस्थायी निर्देशिका में डेटा का मंचन करते समय Parquet फ़ाइल स्वरूप का उपयोग करता है। Amazon Redshift इस अस्थायी डेटा को स्टोर करने के लिए UNLOAD SQL स्टेटमेंट का उपयोग करता है अमेज़न सरल भंडारण सेवा (अमेज़न एस 3)। Apache Spark एप्लिकेशन अस्थायी निर्देशिका (Parquet फ़ाइल स्वरूप में संग्रहीत) से परिणाम प्राप्त करता है, जिससे प्रदर्शन में सुधार होता है।

आप उपयोग करके अपने एप्लिकेशन को अधिक सुरक्षित बनाने में भी मदद कर सकते हैं AWS पहचान और अभिगम प्रबंधन (आईएएम) अमेज़ॅन रेडशिफ्ट से जुड़ने के लिए क्रेडेंशियल्स।

अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण स्पार्क-रेडशिफ्ट कनेक्टर के शीर्ष पर बनाया गया है (सामुदायिक संस्करण) और इसे प्रदर्शन और सुरक्षा के लिए बढ़ाता है, जिससे आपको 10 गुना तेज एप्लिकेशन प्रदर्शन हासिल करने में मदद मिलती है।

अपाचे स्पार्क के साथ अमेज़ॅन रेडशिफ्ट एकीकरण के लिए केस का उपयोग करें

हमारे उपयोग के मामले में, उत्पाद-आधारित कंपनी का नेतृत्व प्रत्येक उत्पाद के लिए कई बाजारों में बिक्री जानना चाहता है। चूंकि कंपनी की बिक्री में गतिशील रूप से उतार-चढ़ाव होता है, इसलिए कई बाजारों में बिक्री को ट्रैक करना नेतृत्व के लिए एक चुनौती बन गया है। हालांकि, समग्र बिक्री में गिरावट आ रही है, और कंपनी नेतृत्व यह पता लगाना चाहता है कि कौन से बाज़ार प्रदर्शन नहीं कर रहे हैं ताकि वे प्रचार अभियानों के लिए इन बाज़ारों को लक्षित कर सकें।

कई बाजारों में बिक्री के लिए, उत्पाद बिक्री डेटा जैसे ऑर्डर, लेनदेन और शिपमेंट डेटा अमेज़न S3 पर डेटा लेक में उपलब्ध है। Amazon S3 में इस डेटा का विश्लेषण करने के लिए डेटा इंजीनियरिंग टीम Amazon EMR या AWS Glue के साथ Apache Spark का उपयोग कर सकती है।

इन्वेंट्री डेटा अमेज़न रेडशिफ्ट में उपलब्ध है। इसी तरह, डेटा इंजीनियरिंग टीम एकत्रीकरण और परिवर्तन करने के लिए अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण का उपयोग करके अमेज़ॅन ईएमआर या एडब्ल्यूएस ग्लू जॉब का उपयोग करके अपाचे स्पार्क के साथ इस डेटा का विश्लेषण कर सकती है। अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण का उपयोग करके एकत्रित और रूपांतरित डेटासेट को अमेज़ॅन रेडशिफ्ट में वापस संग्रहीत किया जा सकता है।

अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण के साथ अपाचे स्पार्क जैसे वितरित ढांचे का उपयोग बिक्री अंतर्दृष्टि उत्पन्न करने के लिए डेटा लेक और डेटा वेयरहाउस में दृश्यता प्रदान कर सकता है। कम राजस्व वाले बाजार क्षेत्रों के लिए लक्षित प्रचार चलाने के लिए सूचित निर्णय लेने के लिए इन जानकारियों को अमेज़ॅन रेडशिफ्ट में व्यावसायिक हितधारकों और व्यावसायिक उपयोगकर्ताओं की पंक्ति के लिए उपलब्ध कराया जा सकता है।

इसके अतिरिक्त, हम निम्नलिखित उपयोग मामलों में अपाचे स्पार्क के साथ अमेज़ॅन रेडशिफ्ट एकीकरण का उपयोग कर सकते हैं:

  • Apache Spark जॉब चलाने वाला Amazon EMR या AWS Glue ग्राहक अपने ETL पाइपलाइन के एक भाग के रूप में डेटा को बदलना और उसे Amazon Redshift में लिखना चाहता है
  • एक एमएल ग्राहक अमेज़ॅन रेडशिफ्ट में डेटा तक पहुँचने और बदलने के लिए फीचर इंजीनियरिंग के लिए सैजमेकर के साथ अपाचे स्पार्क का उपयोग करता है
  • Amazon EMR, AWS Glue, या SageMaker ग्राहक नोटबुक से Amazon Redshift पर डेटा के साथ इंटरैक्टिव डेटा विश्लेषण के लिए Apache Spark का उपयोग करता है

अपाचे स्पार्क एप्लिकेशन में अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण के उदाहरण

इस पोस्ट में, हम अमेज़न रेडशिफ्ट को अमेज़न ईएमआर से कनेक्ट करने के चरणों को दिखाते हैं अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन ईसी 2), अमेज़ॅन ईएमआर सर्वर रहित, और AWS ग्लू एक सामान्य स्क्रिप्ट का उपयोग करते हुए। निम्नलिखित नमूना कोड में, हम वर्ष 2008 के लिए त्रैमासिक बिक्री दिखाते हुए एक रिपोर्ट तैयार करते हैं। ऐसा करने के लिए, हम Apache Spark DataFrame का उपयोग करके दो Amazon Redshift तालिकाओं में शामिल होते हैं, एक प्रेडिकेट पुशडाउन चलाते हैं, डेटा एकत्र करते हैं और डेटा को सॉर्ट करते हैं, और रूपांतरित लिखते हैं अमेज़ॅन रेडशिफ्ट पर वापस डेटा। स्क्रिप्ट PySpark का उपयोग करती है

स्क्रिप्ट का उपयोग करता है Amazon Redshift के लिए IAM-आधारित प्रमाणीकरण. Amazon EMR और AWS Glue द्वारा उपयोग की जाने वाली IAM भूमिकाओं के पास Amazon Redshift को प्रमाणित करने और अस्थायी डेटा संग्रहण के लिए S3 बकेट तक पहुंच के लिए उपयुक्त अनुमतियाँ होनी चाहिए।

निम्न उदाहरण नीति IAM भूमिका को कॉल करने की अनुमति देती है GetClusterCredentials संचालन:

{ "Version": "2012-10-17", "Statement": { "Effect": "Allow", "Action": "redshift:GetClusterCredentials", "Resource": "arn:aws:redshift:<aws_region_name>:xxxxxxxxxxxx:dbuser:*/temp_*" }
}

निम्न उदाहरण नीति अस्थायी डेटा संग्रहण के लिए S3 बकेट तक पहुँच की अनुमति देती है:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:ListBucket" ], "Resource": "arn:aws:s3:::<s3_bucket_name>" } ]
}

पूरी स्क्रिप्ट इस प्रकार है:

from pyspark.sql import SparkSession
from pyspark.sql.functions import col # Initiate Apache Spark session
spark = SparkSession .builder .appName("SparkRedshiftConnector") .enableHiveSupport() .getOrCreate() # Set connection options for Amazon Redshift
jdbc_iam_url = "jdbc:redshift:iam://redshift-spark-connector-1.xxxxxxxxxxx.<aws_region_name>.redshift.amazonaws.com:5439/sample_data_dev"
temp_dir = 's3://<s3_bucket_name>/redshift-temp-dir/'
aws_role = 'arn:aws:iam::xxxxxxxxxxxx:role/redshift-s3' # Set query group for the query. More details on Amazon Redshift WLM https://docs.aws.amazon.com/redshift/latest/dg/cm-c-executing-queries.html
queryGroup = "emr-redshift"
jdbc_iam_url_withQueryGroup = jdbc_iam_url+'?queryGroup='+queryGroup # Set User name for the query
userName = 'awsuser'
jdbc_iam_url_withUserName = jdbc_iam_url_withQueryGroup+';user='+userName # Define the Amazon Redshift context
redshiftOptions = { "url": jdbc_iam_url_withUserName, "tempdir": temp_dir, "aws_iam_role" : aws_role
} # Create the sales DataFrame from Amazon Redshift table using io.github.spark_redshift_community.spark.redshift class
sales_df = ( spark.read .format("io.github.spark_redshift_community.spark.redshift") .options(**redshiftOptions) .option("dbtable", "tickit.sales") .load()
) # Create the date Data Frame from Amazon Redshift table
date_df = ( spark.read .format("io.github.spark_redshift_community.spark.redshift") .options(**redshiftOptions) .option("dbtable", "tickit.date") .load()
) # Assign a Data Frame to the above output which will be written back to Amazon Redshift
output_df= sales_df.join(date_df, sales_df.dateid == date_df.dateid, 'inner').where( col("year") == 2008).groupBy("qtr").sum("qtysold").select( col("qtr"), col("sum(qtysold)")).sort(["qtr"], ascending=[1]).withColumnRenamed("sum(qtysold)","total_quantity_sold") # Display the output
output_df.show() ## Lets drop the queryGroup for easy validation of push down queries
# Set User name for the query
userName = 'awsuser'
jdbc_iam_url_withUserName = jdbc_iam_url+'?user='+userName # Define the Amazon Redshift context
redshiftWriteOptions = { "url": jdbc_iam_url_withUserName, "tempdir": temp_dir, "aws_iam_role" : aws_role
} # Write the Data Frame back to Amazon Redshift
output_df.write .format("io.github.spark_redshift_community.spark.redshift") .mode("overwrite") .options(**redshiftWriteOptions) .option("dbtable", "tickit.test") .save()

यदि आप अपने परिवेश में पूर्ववर्ती स्क्रिप्ट का उपयोग करने की योजना बना रहे हैं, तो सुनिश्चित करें कि आप निम्न चरों के मानों को अपने परिवेश के लिए उपयुक्त मानों से प्रतिस्थापित करते हैं: jdbc_iam_url, temp_dir, तथा aws_role.

अगले भाग में, हम इस स्क्रिप्ट को चलाने के चरणों के माध्यम से एक नमूना डेटासेट एकत्र करने के लिए चलते हैं जो अमेज़ॅन रेडशिफ्ट में उपलब्ध कराया गया है।

.. पूर्वापेक्षाएँ

शुरू करने से पहले, सुनिश्चित करें कि निम्नलिखित पूर्वापेक्षाएँ पूरी हुई हैं:

AWS CloudFormation का उपयोग करके संसाधन परिनियोजित करें

CloudFormation स्टैक को परिनियोजित करने के लिए निम्न चरणों को पूरा करें:

  1. में साइन इन करें एडब्ल्यूएस प्रबंधन कंसोल, फिर CloudFormation स्टैक लॉन्च करें:
    BDB-2063-लॉन्च-क्लाउडफॉर्म-स्टैक

आप भी कर सकते हैं क्लाउडफॉर्मेशन टेम्पलेट डाउनलोड करें कोड (IaC) के रूप में बुनियादी ढांचे के माध्यम से इस पोस्ट में उल्लिखित संसाधनों को बनाने के लिए। नया क्लाउडफॉर्मेशन स्टैक लॉन्च करते समय इस टेम्पलेट का उपयोग करें।

  1. चयन करने के लिए पृष्ठ के नीचे स्क्रॉल करें मैं स्वीकार करता हूं कि AWS CloudFormation IAM संसाधन बना सकता है के अंतर्गत क्षमताओं, उसके बाद चुनो स्टैक बनाएँ.

स्टैक बनाने की प्रक्रिया को पूरा होने में 15-20 मिनट लगते हैं। CloudFormation टेम्प्लेट निम्नलिखित संसाधन बनाता है:

    • आवश्यक सबनेट, रूट टेबल और NAT गेटवे के साथ Amazon VPC
    • नाम के साथ एक S3 बकेट redshift-spark-databucket-xxxxxxx (ध्यान दें कि बकेट नाम को विशिष्ट बनाने के लिए xxxxxxx एक यादृच्छिक स्ट्रिंग है)
    • डेटाबेस के अंदर लोड किए गए नमूना डेटा के साथ एक अमेज़ॅन रेडशिफ्ट क्लस्टर dev और प्राथमिक उपयोगकर्ता redshiftmasteruser. इस ब्लॉग पोस्ट के प्रयोजन के लिए, redshiftmasteruser प्रशासनिक अनुमति के साथ प्रयोग किया जाता है। हालांकि, उत्पादन वातावरण में सूक्ष्म अभिगम नियंत्रण वाले उपयोगकर्ता का उपयोग करने की अनुशंसा की जाती है।
    • अमेज़ॅन रेडशिफ्ट क्लस्टर के देव डेटाबेस से अस्थायी क्रेडेंशियल्स का अनुरोध करने की क्षमता के साथ अमेज़ॅन रेडशिफ्ट के लिए उपयोग की जाने वाली एक आईएएम भूमिका
    • अमेज़न EMR स्टूडियो आवश्यक IAM भूमिकाओं के साथ
    • Amazon EMR ने आवश्यक IAM भूमिकाओं के साथ EC6.9.0 क्लस्टर पर संस्करण 2 जारी किया
    • Amazon EMR सर्वर रहित एप्लिकेशन रिलीज़ संस्करण 6.9.0
    • AWS ग्लू कनेक्शन और AWS ग्लू जॉब संस्करण 4.0
    • A ज्यूपिटर नोटबुक EC2 क्लस्टर पर Amazon EMR का उपयोग करके Amazon EMR स्टूडियो का उपयोग करके चलाने के लिए
    • अमेज़ॅन ईएमआर स्टूडियो और अमेज़ॅन ईएमआर सर्वरलेस का उपयोग करके चलाने के लिए एक पायस्पार्क स्क्रिप्ट
  1. स्टैक निर्माण पूरा होने के बाद, स्टैक का नाम चुनें redshift-spark और नेविगेट करने के लिए आउटपुट

हम बाद में इस पोस्ट में इन आउटपुट वैल्यू का उपयोग करते हैं।

अगले खंडों में, हम Amazon EC2, Amazon EMR सर्वरलेस और AWS Glue पर Amazon EMR से Apache Spark के लिए Amazon Redshift एकीकरण के चरण दिखाते हैं।

EC2 पर Amazon EMR पर Apache Spark के साथ Amazon Redshift एकीकरण का उपयोग करें

अमेज़ॅन ईएमआर रिलीज संस्करण 6.9.0 और ऊपर से शुरू होकर, अपाचे स्पार्क और अमेज़ॅन रेडशिफ्ट जेडीबीसी ड्राइवर के लिए अमेज़ॅन रेडशिफ्ट एकीकरण का उपयोग करने वाला कनेक्टर स्थानीय रूप से अमेज़ॅन ईएमआर पर उपलब्ध है। ये फ़ाइलें के अंतर्गत स्थित हैं /usr/share/aws/redshift/ निर्देशिका। हालाँकि, Amazon EMR के पिछले संस्करणों में, समुदाय के संस्करण spark-redshift संबंधक उपलब्ध है.

निम्न उदाहरण दिखाता है कि कैसे एक PySpark कर्नेल का उपयोग करके Amazon Redshift को एक के माध्यम से जोड़ा जाए अमेज़न EMR स्टूडियो स्मरण पुस्तक। CloudFormation स्टैक ने Amazon EMR स्टूडियो, EC2 क्लस्टर पर Amazon EMR और चलाने के लिए उपलब्ध ज्यूपिटर नोटबुक बनाया। इस उदाहरण के माध्यम से जाने के लिए, निम्न चरणों को पूरा करें:

  1. आपके लिए S3 बकेट में उपलब्ध कराई गई ज्यूपिटर नोटबुक डाउनलोड करें:
    • CloudFormation स्टैक आउटपुट में, के लिए मान देखें EMRStudioNotebook, जो की ओर इशारा करना चाहिए redshift-spark-emr.ipynb नोटबुक S3 बकेट में उपलब्ध है।
    • नोटबुक के लिए URL कॉपी करके लिंक चुनें या लिंक को एक नए टैब में खोलें।
    • लिंक खोलने के बाद, चुनकर नोटबुक डाउनलोड करें डाउनलोड, जो आपके कंप्यूटर पर फ़ाइल को स्थानीय रूप से सहेज लेगा।
  1. कुंजी के लिए CloudFormation स्टैक आउटपुट में दिए गए लिंक को चुनकर या कॉपी करके Amazon EMR स्टूडियो तक पहुँचें EMRStudioURL.
  2. नेविगेशन फलक में, चुनें कार्यस्थानों.
  3. चुनें कार्यक्षेत्र बनाएँ.
  4. उदाहरण के लिए, कार्यक्षेत्र के लिए एक नाम प्रदान करें redshift-spark.
  5. इसका विस्तार करें उन्नत विन्यास अनुभाग और चयन करें EMR क्लस्टर में कार्यक्षेत्र संलग्न करें.
  6. के अंतर्गत एक ईएमआर क्लस्टर से संलग्न करें, नाम के साथ EMR क्लस्टर चुनें emrCluster-Redshift-Spark.
  7. चुनें कार्यक्षेत्र बनाएँ.
  8. अमेज़ॅन ईएमआर स्टूडियो वर्कस्पेस बनने और संलग्न स्थिति में होने के बाद, आप वर्कस्पेस का नाम चुनकर वर्कस्पेस तक पहुंच सकते हैं।

यह कार्यक्षेत्र को एक नए टैब में खोलना चाहिए। ध्यान दें कि यदि आपके पास पॉप-अप ब्लॉकर है, तो आपको वर्कस्पेस को पॉप-अप ब्लॉकर को खोलने या अक्षम करने की अनुमति देनी पड़ सकती है।

Amazon EMR स्टूडियो वर्कस्पेस में, अब हम ज्यूपिटर नोटबुक अपलोड करते हैं जिसे हमने पहले डाउनलोड किया था।

  1. चुनें अपलोड अपने स्थानीय फ़ाइल सिस्टम को ब्राउज़ करने और ज्यूपिटर नोटबुक अपलोड करने के लिए (redshift-spark-emr.ipynb).
  2. चुनें (डबल-क्लिक करें)। redshift-spark-emr.ipynb नोटबुक खोलने के लिए कार्यक्षेत्र के भीतर नोटबुक।

नोटबुक अपने द्वारा किए जाने वाले विभिन्न कार्यों का विवरण प्रदान करती है। ध्यान दें कि खंड में अमेज़ॅन रेडशिफ्ट क्लस्टर से कनेक्ट करने के लिए चर परिभाषित करें, आपको इसके मानों को अपडेट करने की आवश्यकता नहीं है jdbc_iam_url, temp_dir, तथा aws_role क्योंकि ये आपके लिए AWS CloudFormation द्वारा अपडेट किए गए हैं। AWS CloudFormation ने भी इसमें बताए गए चरणों का पालन किया है .. पूर्वापेक्षाएँ नोटबुक का अनुभाग।

अब आप नोटबुक चलाना शुरू कर सकते हैं।

  1. अलग-अलग सेल को चुनकर और फिर चुनकर चलाएं प्ले.

आप के कुंजी संयोजन का भी उपयोग कर सकते हैं Shift + Enter or शिफ्ट + रिटर्न. वैकल्पिक रूप से, आप चुनकर सभी सेल चला सकते हैं सभी सेल चलाएं पर रन मेनू.

  1. अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण द्वारा अमेज़ॅन रेडशिफ्ट क्लस्टर पर किए गए प्रेडिकेट पुशडाउन ऑपरेशन का पता लगाएं।

हम अनुकूलित Parquet प्रारूप में Amazon S3 पर संग्रहीत अस्थायी डेटा भी देख सकते हैं। सेक्शन में सेल को चलाने से आउटपुट देखा जा सकता है Amazon Redshift पर निष्पादित अंतिम क्वेरी प्राप्त करें.

  1. अमेज़ॅन ईसी 2 पर अमेज़ॅन ईएमआर से नौकरी द्वारा बनाई गई तालिका को सत्यापित करने के लिए, अमेज़ॅन रेडशिफ्ट कंसोल पर नेविगेट करें और क्लस्टर चुनें redshift-spark-redshift-cluster पर प्रावधानित क्लस्टर डैशबोर्ड इस पृष्ठ पर ज़ूम कई वीडियो ट्यूटोरियल और अन्य साहायक साधन प्रदान करता है।
  2. क्लस्टर विवरण में, पर क्वेरी डेटा मेनू, चुनें क्वेरी संपादक v2 . में क्वेरी.
  3. नेविगेशन फलक में क्लस्टर चुनें और प्रमाणीकरण के लिए अनुरोध करने पर अमेज़ॅन रेडशिफ्ट क्लस्टर से कनेक्ट करें।
  4. चुनते हैं अस्थायी क्रेडेंशियल.
  5. के लिए डाटाबेस, दर्ज dev.
  6. के लिए यूज़र नेम, दर्ज redshiftmasteruser.
  7. चुनें सहेजें.
  8. नेविगेशन फलक में, क्लस्टर का विस्तार करें redshift-spark-redshift-cluster, देव डेटाबेस का विस्तार करें, विस्तार करें tickit, और विस्तार टेबल्स स्कीमा के अंदर सभी तालिकाओं को सूचीबद्ध करने के लिए tickit.

आपको तालिका मिलनी चाहिए test_emr.

  1. तालिका चुनें (राइट-क्लिक करें)। test_emr, उसके बाद चुनो तालिका चुनें तालिका क्वेरी करने के लिए।
  2. चुनें रन SQL कथन चलाने के लिए।

Amazon EMR Serverless पर Apache Spark के साथ Amazon Redshift एकीकरण का उपयोग करें

अमेज़ॅन ईएमआर रिलीज संस्करण 6.9.0 और इसके बाद के संस्करण अपाचे स्पार्क जेएआर (अमेज़ॅन रेडशिफ्ट द्वारा प्रबंधित) और अमेज़ॅन रेडशिफ्ट जेडीबीसी जेएआर के लिए स्थानीय रूप से अमेज़ॅन ईएमआर सर्वरलेस पर भी अमेज़ॅन रेडशिफ्ट एकीकरण प्रदान करता है। ये फ़ाइलें के अंतर्गत स्थित हैं /usr/share/aws/redshift/ निर्देशिका। निम्नलिखित उदाहरण में, हम पहले बनाए गए CloudFormation स्टैक द्वारा S3 बकेट में उपलब्ध कराई गई पायथन स्क्रिप्ट का उपयोग करते हैं।

  1. CloudFormation स्टैक आउटपुट में, के मान को नोट करें EMRServerlessExecutionScript, जो कि S3 बकेट में Python स्क्रिप्ट का स्थान है।
  2. का मान भी नोट करें EMRServerlessJobExecutionRole, जो Amazon EMR सर्वर रहित कार्य चलाने के लिए उपयोग की जाने वाली IAM भूमिका है।
  3. कुंजी के लिए CloudFormation स्टैक आउटपुट में दिए गए लिंक को चुनकर या कॉपी करके Amazon EMR स्टूडियो तक पहुँचें EMRStudioURL.
  4. चुनें अनुप्रयोगों के अंतर्गत serverless नेविगेशन फलक में

आपको नाम के साथ CloudFormation स्टैक द्वारा बनाया गया एक EMR एप्लिकेशन मिलेगा emr-spark-redshift.

  1. नौकरी सबमिट करने के लिए आवेदन का नाम चुनें।
  2. चुनें नौकरी जमा करें.
  3. के अंतर्गत नौकरी विवरणके लिए, नाम, कार्य के लिए पहचान योग्य नाम दर्ज करें.
  4. के लिए रनटाइम भूमिका, वह IAM भूमिका चुनें जिसे आपने पहले CloudFormation स्टैक आउटपुट से नोट किया था।
  5. के लिए स्क्रिप्ट स्थान, आपके द्वारा पहले नोट किए गए Python स्क्रिप्ट को CloudFormation स्टैक आउटपुट से पथ प्रदान करें।
  6. खंड का विस्तार करें स्पार्क गुण और चुनिए पाठ में संपादित करें
  7. पाठ बॉक्स में निम्न मान दर्ज करें, जो पथ प्रदान करता है redshift-connector, अमेज़न रेडशिफ्ट JDBC ड्राइवर, spark-avro जार, और minimal-json जार फ़ाइलें:
    --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar

  8. चुनें नौकरी जमा करें.
  9. कार्य पूरा होने की प्रतीक्षा करें और चलाने की स्थिति इस रूप में दिखाई दे सफलता.
  10. तालिका सफलतापूर्वक बनाई गई थी या नहीं यह देखने के लिए अमेज़ॅन रेडशिफ्ट क्वेरी संपादक पर नेविगेट करें।
  11. अमेज़ॅन रेडशिफ्ट क्वेरी समूह के लिए चलाए जा रहे पुशडाउन प्रश्नों की जाँच करें emr-serverless-redshift. आप डेटाबेस के विरुद्ध निम्न SQL कथन चला सकते हैं dev:
    SELECT query_text FROM SYS_QUERY_HISTORY WHERE query_label = 'emr-serverless-redshift' ORDER BY start_time DESC LIMIT 1

आप देख सकते हैं कि पुशडाउन क्वेरी और रिटर्न परिणाम Amazon S3 पर Parquet फ़ाइल स्वरूप में संग्रहीत हैं।

AWS Glue पर Apache Spark के साथ Amazon Redshift एकीकरण का उपयोग करें

एडब्ल्यूएस ग्लू संस्करण 4.0 और इसके बाद के संस्करण से शुरू होकर, अमेज़ॅन रेडशिफ्ट से जुड़ने वाली अपाचे स्पार्क नौकरियां अपाचे स्पार्क और अमेज़ॅन रेडशिफ्ट जेडीबीसी ड्राइवर के लिए अमेज़ॅन रेडशिफ्ट एकीकरण का उपयोग कर सकती हैं। मौजूदा एडब्ल्यूएस ग्लू जॉब्स जो पहले से ही अमेज़ॅन रेडशिफ्ट को स्रोत या लक्ष्य के रूप में उपयोग करते हैं, उन्हें इस नए कनेक्टर का लाभ उठाने के लिए एडब्ल्यूएस ग्लू 4.0 में अपग्रेड किया जा सकता है। इस पोस्ट के साथ प्रदान किया गया CloudFormation टेम्प्लेट निम्नलिखित AWS ग्लू संसाधन बनाता है:

  • अमेज़ॅन रेडशिफ्ट के लिए एडब्ल्यूएस गोंद कनेक्शन - अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण का उपयोग करके एडब्ल्यूएस गोंद से अमेज़ॅन रेडशिफ्ट तक कनेक्शन स्थापित करने के लिए कनेक्शन
  • AWS ग्लू जॉब से IAM की भूमिका जुड़ी हुई है - एडब्ल्यूएस गोंद नौकरी चलाने के लिए अनुमतियों को प्रबंधित करने के लिए आईएएम भूमिका
  • AWS गोंद नौकरी - अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण का उपयोग करके परिवर्तन और एकत्रीकरण करने वाले एडब्ल्यूएस ग्लू जॉब के लिए स्क्रिप्ट

निम्न उदाहरण PySpark के साथ AWS Glue जॉब से जुड़े AWS Glue कनेक्शन का उपयोग करता है और इसमें निम्नलिखित चरण शामिल हैं:

  1. एडब्ल्यूएस गोंद कंसोल पर, चुनें कनेक्शन नेविगेशन फलक में
  2. के अंतर्गत कनेक्शन, CloudFormation टेम्प्लेट द्वारा बनाए गए Amazon Redshift के लिए AWS Glue कनेक्शन चुनें।
  3. कनेक्शन विवरण सत्यापित करें।

अब आप इस कनेक्शन को नौकरी या कई नौकरियों में पुन: उपयोग कर सकते हैं।

  1. पर कनेक्टर्स पृष्ठ, के तहत CloudFormation स्टैक द्वारा बनाई गई AWS ग्लू जॉब चुनें आपकी नौकरियां, या कुंजी के लिए प्रदान किए गए URL का उपयोग करके AWS Glue जॉब तक पहुँचें GlueJob CloudFormation स्टैक आउटपुट में।
  2. एडब्ल्यूएस ग्लू जॉब के लिए स्क्रिप्ट को एक्सेस और सत्यापित करें।
  3. पर नौकरी विवरण टैब, सुनिश्चित करें गोंद संस्करण इसके लिए सेट है गोंद १.

यह सुनिश्चित करता है कि कार्य नवीनतम का उपयोग करता है redshift-spark कनेक्टर।

  1. विस्तार उन्नत गुण और में कनेक्शन अनुभाग, सत्यापित करें कि CloudFormation स्टैक द्वारा बनाया गया कनेक्शन संलग्न है।
  2. AWS Glue जॉब के लिए जोड़े गए जॉब पैरामीटर्स को सत्यापित करें। ये मान CloudFormation स्टैक के आउटपुट में भी उपलब्ध हैं।
  3. चुनें सहेजें और फिर रन.

आप पर चलने वाले कार्य की स्थिति देख सकते हैं रन टैब.

  1. जॉब रन सफलतापूर्वक पूरा होने के बाद, आप AWS ग्लू जॉब द्वारा बनाए गए टेबल टेस्ट-ग्लू के आउटपुट को सत्यापित कर सकते हैं।
  2. हम Amazon Redshift क्वेरी समूह के लिए चलाए जा रहे पुशडाउन प्रश्नों की जाँच करते हैं glue-redshift. आप डेटाबेस के विरुद्ध निम्न SQL कथन चला सकते हैं dev:
    SELECT query_text FROM SYS_QUERY_HISTORY WHERE query_label = 'glue-redshift' ORDER BY start_time DESC LIMIT 1

सर्वोत्तम प्रथाएं

निम्नलिखित सर्वोत्तम अभ्यासों को ध्यान में रखें:

  • का उपयोग करने के बजाय अमेज़ॅन ईएमआर से अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण का उपयोग करने पर विचार करें redshift-spark आपके नए Apache Spark जॉब के लिए कनेक्टर (सामुदायिक संस्करण)।
  • यदि आपके पास मौजूदा अपाचे स्पार्क जॉब्स का उपयोग कर रहे हैं redshift-spark कनेक्टर (सामुदायिक संस्करण), अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण का उपयोग करने के लिए उन्हें अपग्रेड करने पर विचार करें
  • अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण स्वचालित रूप से प्रदर्शन के लिए अनुकूलित करने के लिए विधेय और क्वेरी पुशडाउन लागू करता है। हम समर्थित कार्यों का उपयोग करने की सलाह देते हैं (autopushdown) आपकी क्वेरी में। अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण फ़ंक्शन को एसक्यूएल क्वेरी में बदल देगा और अमेज़ॅन रेडशिफ्ट में क्वेरी चलाएगा। इस अनुकूलन के परिणामस्वरूप आवश्यक डेटा पुनर्प्राप्त किया जा रहा है, इसलिए Apache Spark कम डेटा संसाधित कर सकता है और बेहतर प्रदर्शन कर सकता है।
    • कुल पुशडाउन फ़ंक्शंस का उपयोग करने पर विचार करें avg, count, max, min, तथा sum डेटा प्रोसेसिंग के लिए फ़िल्टर किए गए डेटा को पुनः प्राप्त करने के लिए।
    • बूलियन पुशडाउन ऑपरेटरों जैसे उपयोग करने पर विचार करें in, isnull, isnotnull, contains, endswith, तथा startswith डेटा प्रोसेसिंग के लिए फ़िल्टर किए गए डेटा को पुनः प्राप्त करने के लिए।
    • जैसे तार्किक पुशडाउन ऑपरेटरों का उपयोग करने पर विचार करें and, or, तथा not (या !) डेटा प्रोसेसिंग के लिए फ़िल्टर किए गए डेटा को पुनः प्राप्त करने के लिए।
  • पैरामीटर का उपयोग करके IAM भूमिका पास करने की अनुशंसा की जाती है aws_iam_role Amazon EMR या AWS Glue पर अपने Apache Spark एप्लिकेशन से Amazon Redshift प्रमाणीकरण के लिए। IAM भूमिका के पास Amazon Redshift को प्रमाणित करने के लिए अस्थायी IAM क्रेडेंशियल्स को पुनः प्राप्त करने के लिए आवश्यक अनुमतियाँ होनी चाहिए, जैसा कि इस ब्लॉग के "Apache Spark एप्लिकेशन में Apache Spark के लिए Amazon Redshift एकीकरण के उदाहरण" अनुभाग में दिखाया गया है।
  • इस सुविधा के साथ, आपको अपने Amazon Redshift उपयोगकर्ता नाम और पासवर्ड को गुप्त प्रबंधक और Amazon Redshift डेटाबेस में बनाए रखने की आवश्यकता नहीं है।
  • Amazon Redshift इस अस्थायी डेटा को Amazon S3 पर संग्रहीत करने के लिए UNLOAD SQL कथन का उपयोग करता है। Apache Spark एप्लिकेशन अस्थायी निर्देशिका (Parquet फ़ाइल स्वरूप में संग्रहीत) से परिणाम प्राप्त करता है। अमेज़ॅन एस 3 पर यह अस्थायी निर्देशिका स्वचालित रूप से साफ नहीं होती है, और इसलिए अतिरिक्त लागत जोड़ सकती है। हम उपयोग करने की सलाह देते हैं अमेज़न S3 जीवनचक्र नीतियां S3 बकेट के लिए अवधारण नियमों को परिभाषित करने के लिए।
  • इसे चालू करने की अनुशंसा की जाती है अमेज़ॅन रेडशिफ्ट ऑडिट लॉगिंग अपने डेटाबेस में कनेक्शन और उपयोगकर्ता गतिविधियों के बारे में जानकारी लॉग करने के लिए।
  • इसे चालू करने की अनुशंसा की जाती है अमेज़ॅन रेडशिफ्ट एट-रेस्ट एन्क्रिप्शन अपने डेटा को एन्क्रिप्ट करने के लिए अमेज़ॅन रेडशिफ्ट इसे अपने डेटा केंद्रों में लिखता है और जब आप इसे एक्सेस करते हैं तो इसे आपके लिए डिक्रिप्ट करते हैं।
  • Apache Spark के लिए Amazon Redshift एकीकरण का उपयोग करने के लिए AWS Glue v4.0 और इसके बाद के संस्करण में अपग्रेड करने की अनुशंसा की जाती है, जो बॉक्स से बाहर उपलब्ध है। एडब्ल्यूएस ग्लू के इस संस्करण में अपग्रेड करने से स्वचालित रूप से इस सुविधा का उपयोग होगा।
  • Apache Spark के लिए Amazon Redshift एकीकरण का उपयोग करने के लिए Amazon EMR v6.9.0 और इसके बाद के संस्करण में अपग्रेड करने की अनुशंसा की जाती है। आपको किसी ड्राइवर या JAR फ़ाइल को स्पष्ट रूप से प्रबंधित करने की आवश्यकता नहीं है।
  • अपने अपाचे स्पार्क एप्लिकेशन में अपने अमेज़ॅन रेडशिफ्ट डेटा के साथ बातचीत करने के लिए अमेज़ॅन ईएमआर स्टूडियो नोटबुक का उपयोग करने पर विचार करें।
  • विज़ुअल इंटरफ़ेस का उपयोग करके Apache Spark जॉब बनाने के लिए AWS Glue Studio का उपयोग करने पर विचार करें। आप AWS Glue Studio के भीतर Scala या PySpark में Apache Spark कोड लिखने के लिए भी स्विच कर सकते हैं।

क्लीन अप

CloudFormation टेम्प्लेट के एक भाग के रूप में बनाए गए संसाधनों को साफ करने के लिए निम्नलिखित चरणों को पूरा करें ताकि यह सुनिश्चित हो सके कि यदि आप संसाधनों का उपयोग नहीं कर रहे हैं तो आपको बिल नहीं भेजा जाएगा:

  1. Amazon EMR सर्वर रहित एप्लिकेशन बंद करें:
    • कुंजी के लिए CloudFormation स्टैक आउटपुट में दिए गए लिंक को चुनकर या कॉपी करके Amazon EMR स्टूडियो तक पहुँचें EMRStudioURL.
    • चुनें अनुप्रयोगों के अंतर्गत serverless नेविगेशन फलक में

आपको नाम के साथ CloudFormation स्टैक द्वारा बनाया गया एक EMR एप्लिकेशन मिलेगा emr-spark-redshift.

    • यदि एप्लिकेशन की स्थिति रुकी हुई के रूप में दिखाई देती है, तो आप अगले चरणों पर जा सकते हैं। हालांकि, अगर आवेदन की स्थिति शुरू हो गई है, तो आवेदन का नाम चुनें, फिर चुनें आवेदन बंद करो और आवेदन बंद करो फिर पुष्टि करने के लिए
  1. Amazon EMR स्टूडियो कार्यक्षेत्र हटाएं:
    • कुंजी के लिए CloudFormation स्टैक आउटपुट में दिए गए लिंक को चुनकर या कॉपी करके Amazon EMR स्टूडियो तक पहुँचें EMRStudioURL.
    • चुनें कार्यस्थानों नेविगेशन फलक में
    • आपके द्वारा बनाए गए कार्यक्षेत्र का चयन करें और चुनें मिटाना, उसके बाद चुनो मिटाना फिर पुष्टि करने के लिए
  2. क्लाउडफॉर्मेशन स्टैक हटाएं:
    • AWS CloudFormation कंसोल पर, आपके द्वारा पहले बनाए गए स्टैक पर नेविगेट करें।
    • स्टैक नाम चुनें और फिर चुनें मिटाना स्टैक को हटाने और इस पोस्ट के हिस्से के रूप में बनाए गए संसाधनों को हटाने के लिए।
    • पुष्टिकरण स्क्रीन पर, चुनें स्टैक हटाएं.

निष्कर्ष

इस पोस्ट में, हमने समझाया कि कैसे आप Amazon EC2 पर Amazon EMR के साथ एप्लिकेशन बनाने और तैनात करने के लिए Apache Spark के लिए Amazon Redshift एकीकरण का उपयोग कर सकते हैं, Amazon EMR Serverless, और AWS Glue डेटा के लिए क्वेरी प्रदर्शन को अनुकूलित करने के लिए स्वचालित रूप से प्रेडिकेट और क्वेरी पुशडाउन लागू करने के लिए अमेज़न रेडशिफ्ट में। अपने Amazon EMR या AWS Glue से Amazon Redshift के सहज और सुरक्षित कनेक्शन के लिए Apache Spark के लिए Amazon Redshift एकीकरण का उपयोग करने की अत्यधिक अनुशंसा की जाती है।

अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण के बारे में हमारे कुछ ग्राहकों का क्या कहना है:

"हम अपने इंजीनियरों को पायथन और स्काला का उपयोग करके अपाचे स्पार्क के साथ अपनी डेटा पाइपलाइन और एप्लिकेशन बनाने के लिए सशक्त बनाते हैं। हम एक अनुरूप समाधान चाहते थे जो संचालन को सरल करे और हमारे ग्राहकों के लिए तेजी से और अधिक कुशलता से वितरित हो, और अपाचे स्पार्क के लिए नए अमेज़ॅन रेडशिफ्ट एकीकरण के साथ हमें यही मिलता है।

-ह्यूरॉन कंसल्टिंग

“जीई एयरोस्पेस महत्वपूर्ण व्यावसायिक अंतर्दृष्टि को सक्षम करने के लिए एडब्ल्यूएस एनालिटिक्स और अमेज़ॅन रेडशिफ्ट का उपयोग करता है जो महत्वपूर्ण व्यावसायिक निर्णयों को संचालित करता है। Amazon S3 से ऑटो-कॉपी के समर्थन के साथ, हम Amazon S3 से Amazon Redshift में डेटा ले जाने के लिए सरल डेटा पाइपलाइन बना सकते हैं। यह हमारी डेटा उत्पाद टीमों की डेटा तक पहुँचने और अंतिम उपयोगकर्ताओं को अंतर्दृष्टि प्रदान करने की क्षमता को तेज करता है। हम डेटा के माध्यम से मूल्य जोड़ने में अधिक समय लगाते हैं और एकीकरण पर कम समय लगाते हैं।

-जीई एयरोस्पेस

“हमारा ध्यान Goldman Sachs में हमारे सभी उपयोगकर्ताओं के लिए डेटा तक स्वयं-सेवा पहुँच प्रदान करने पर है। लेजेंड, हमारे ओपन-सोर्स डेटा प्रबंधन और गवर्नेंस प्लेटफॉर्म के माध्यम से, हम उपयोगकर्ताओं को डेटा-केंद्रित एप्लिकेशन विकसित करने और डेटा-संचालित अंतर्दृष्टि प्राप्त करने में सक्षम बनाते हैं क्योंकि हम वित्तीय सेवा उद्योग में सहयोग करते हैं। अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण के साथ, हमारी डेटा प्लेटफ़ॉर्म टीम न्यूनतम मैन्युअल चरणों के साथ अमेज़ॅन रेडशिफ्ट डेटा तक पहुंचने में सक्षम होगी, जिससे शून्य-कोड ईटीएल की अनुमति मिलेगी जो इंजीनियरों के लिए अपने वर्कफ़्लो को पूरा करने पर ध्यान केंद्रित करना आसान बनाने की हमारी क्षमता को बढ़ाएगी। वे पूरी और समय पर जानकारी एकत्र करते हैं। हम एप्लिकेशन के प्रदर्शन में सुधार और बेहतर सुरक्षा देखने की उम्मीद करते हैं क्योंकि हमारे उपयोगकर्ता अब अमेज़ॅन रेडशिफ्ट में नवीनतम डेटा तक आसानी से पहुंच सकते हैं।

-गोल्डमैन साच्स


लेखक के बारे में

गगन ब्राह्मी Amazon Web Services पर बिग डेटा एनालिटिक्स और AI/ML प्लेटफॉर्म पर केंद्रित एक सीनियर स्पेशलिस्ट सॉल्यूशन आर्किटेक्ट है। गगन को सूचना प्रौद्योगिकी में 18 वर्षों से अधिक का अनुभव है। वह AWS पर ग्राहकों को अत्यधिक स्केलेबल, प्रदर्शन करने वाले और सुरक्षित क्लाउड-आधारित समाधान बनाने में मदद करता है। अपने खाली समय में, वह अपने परिवार के साथ समय बिताते हैं और नई जगहों की खोज करते हैं।

विवेक गौतम AWS प्रोफेशनल सर्विसेज में डेटा झीलों में विशेषज्ञता के साथ एक डेटा आर्किटेक्ट है। वह AWS पर डेटा उत्पाद, एनालिटिक्स प्लेटफ़ॉर्म और समाधान बनाने वाले एंटरप्राइज़ ग्राहकों के साथ काम करता है। डेटा झीलों का निर्माण और डिजाइन नहीं करते समय, विवेक एक भोजन उत्साही है जो नए यात्रा स्थलों का पता लगाना और लंबी पैदल यात्रा करना पसंद करता है।

नरेश गौतम 20 वर्षों के अनुभव के साथ एडब्ल्यूएस में एक डेटा एनालिटिक्स और एआई/एमएल लीडर है, जो ग्राहकों को डेटा-संचालित निर्णय लेने के साथ ग्राहकों को सशक्त बनाने के लिए अत्यधिक उपलब्ध, उच्च-प्रदर्शन, और लागत प्रभावी डेटा एनालिटिक्स और एआई/एमएल समाधान बनाने में मदद करता है। . अपने खाली समय में, वह ध्यान और खाना पकाने का आनंद लेते हैं।

बेक्स शरीफी अमेज़ॅन रेडशिफ्ट ड्राइवरों की टीम के भीतर एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है जहां वह अपाचे स्पार्क कनेक्टर के साथ अमेज़ॅन रेडशिफ्ट इंटीग्रेशन के विकास का नेतृत्व करता है। उनके पास कई उद्योगों में डेटा-संचालित प्लेटफॉर्म बनाने का 20 से अधिक वर्षों का अनुभव है। अपने खाली समय में, वह अपने परिवार के साथ समय बिताना और सर्फिंग करना पसंद करते हैं।

समय टिकट:

से अधिक एडब्ल्यूएस बिग डेटा

रेडशिफ्ट टेस्ट ड्राइव | का उपयोग करके अपने कार्यभार के लिए सर्वोत्तम अमेज़ॅन रेडशिफ्ट कॉन्फ़िगरेशन ढूंढें अमेज़न वेब सेवाएँ

स्रोत नोड: 2788635
समय टिकट: जुलाई 27, 2023