في عصر البيانات الضخمة هذا، تبحث المؤسسات في جميع أنحاء العالم باستمرار عن طرق مبتكرة لاستخلاص القيمة والرؤى من مجموعات البيانات الضخمة الخاصة بها. أباتشي سبارك يوفر قابلية التوسع والسرعة اللازمة لمعالجة كميات كبيرة من البيانات بكفاءة.
أمازون EMR هو حل البيانات الضخمة السحابية الرائد في الصناعة لمعالجة البيانات على نطاق بيتابايت، والتحليلات التفاعلية، والتعلم الآلي (ML) باستخدام أطر عمل مفتوحة المصدر مثل Apache Spark، اباتشي خليةو مقطع موسيقي سريع. Amazon EMR هو أفضل مكان لتشغيل Apache Spark. يمكنك إنشاء مجموعات Spark المُدارة بسرعة ودون عناء من وحدة تحكم إدارة AWS, واجهة سطر الأوامر AWS (AWS CLI)، أو Amazon EMR API. يمكنك أيضًا استخدام ميزات Amazon EMR الإضافية، بما في ذلك السرعة خدمة تخزين أمازون البسيطة (Amazon S3) الاتصال باستخدام نظام ملفات Amazon EMR (EMRFS)، والتكامل مع موقع أمازون EC2 السوق و غراء AWS كتالوج البيانات والقياس المُدار بواسطة EMR لإضافة أو إزالة المثيلات من مجموعتك. ستوديو أمازون إي إم آر هي بيئة تطوير متكاملة (IDE) تسهل على علماء البيانات ومهندسي البيانات تطوير وتصور وتصحيح تطبيقات هندسة البيانات وعلوم البيانات المكتوبة بلغات R وPython وScala وPySpark. يوفر EMR Studio دفاتر ملاحظات Jupyter مُدارة بالكامل وأدوات مثل Spark UI وYARN Timeline Service لتبسيط عملية تصحيح الأخطاء.
ولإطلاق العنان للإمكانات المخفية داخل كنوز البيانات، من الضروري تجاوز التحليلات التقليدية. أدخل الذكاء الاصطناعي التوليدي، وهو تقنية متطورة تجمع بين التعلم الآلي والإبداع لإنشاء نصوص وفنون وحتى أكواد برمجية شبيهة بالإنسان. أمازون بيدروك هي الطريقة الأكثر مباشرة لبناء وتوسيع نطاق تطبيقات الذكاء الاصطناعي التوليدية باستخدام النماذج الأساسية (FMs). Amazon Bedrock هي خدمة مُدارة بالكامل تجعل FMs من Amazon وشركات الذكاء الاصطناعي الرائدة متاحة من خلال واجهة برمجة التطبيقات (API)، بحيث يمكنك تجربة مجموعة متنوعة من FMs بسرعة في الملعب، واستخدام واجهة برمجة تطبيقات واحدة للاستدلال بغض النظر عن النماذج التي تختارها، مما يوفر لديك المرونة في استخدام FMs من موفري خدمات مختلفين ومواكبة أحدث إصدارات الطرازات مع الحد الأدنى من تغييرات التعليمات البرمجية.
في هذا المنشور، نستكشف كيف يمكنك تعزيز تحليلات بياناتك باستخدام الذكاء الاصطناعي التوليدي باستخدام Amazon EMR، وAmazon Bedrock، و pyspark-ai مكتبة. مكتبة pyspark-ai هي حزمة SDK باللغة الإنجليزية لـ Apache Spark. يأخذ التعليمات باللغة الإنجليزية ويجمعها في كائنات PySpark مثل DataFrames. وهذا يجعل العمل مع Spark أمرًا سهلاً، مما يسمح لك بالتركيز على استخلاص القيمة من بياناتك.
حل نظرة عامة
يوضح الرسم البياني التالي بنية استخدام الذكاء الاصطناعي التوليدي مع Amazon EMR وAmazon Bedrock.
EMR Studio عبارة عن بيئة تطوير متكاملة (IDE) مستندة إلى الويب لأجهزة الكمبيوتر المحمولة Jupyter المُدارة بالكامل والتي تعمل على مجموعات EMR. نحن نتفاعل مع مساحات عمل EMR Studio المتصلة بمجموعة EMR قيد التشغيل ونقوم بتشغيل دفتر الملاحظات المقدم كجزء من هذا المنشور. نحن نستخدم ال مدينة نيويورك تاكسي البيانات للحصول على رؤى حول رحلات سيارات الأجرة المختلفة التي يقوم بها المستخدمون. نطرح الأسئلة باللغة الطبيعية فوق البيانات المحملة في Spark DataFrame. تستخدم مكتبة pyspark-ai بعد ذلك Amazon Titan Text FM من Amazon Bedrock لإنشاء استعلام SQL بناءً على سؤال اللغة الطبيعية. تأخذ مكتبة pyspark-ai استعلام SQL، وتقوم بتشغيله باستخدام Spark SQL، وتقدم النتائج مرة أخرى إلى المستخدم.
في هذا الحل، يمكنك إنشاء الموارد المطلوبة وتكوينها في حساب AWS الخاص بك باستخدام تكوين سحابة AWS نموذج. يقوم القالب بإنشاء غراء AWS قاعدة البيانات والجداول، ودلو S3، وVPC، وغيرها إدارة الهوية والوصول AWS (IAM) الموارد المستخدمة في الحل.
تم تصميم القالب لتوضيح كيفية استخدام EMR Studio مع حزمة pyspark-ai وAmazon Bedrock، وهو غير مخصص للاستخدام في الإنتاج دون تعديل. بالإضافة إلى ذلك، يستخدم القالب us-east-1
المنطقة ولا يجوز العمل في مناطق أخرى دون تعديل. يقوم القالب بإنشاء الموارد التي تتكبد تكاليف أثناء استخدامها. اتبع خطوات التنظيف الموجودة في نهاية هذا المنشور لحذف الموارد وتجنب الرسوم غير الضرورية.
المتطلبات الأساسية المسبقة
قبل تشغيل مكدس CloudFormation، تأكد من أن لديك ما يلي:
- حساب AWS يوفر الوصول إلى خدمات AWS
- مستخدم IAM لديه مفتاح وصول ومفتاح سري لتكوين AWS CLI، وأذونات لإنشاء دور IAM، وسياسات IAM، والمجموعات في AWS CloudFormation
- نموذج Titan Text G1 – Express قيد المعاينة حاليًا، لذا تحتاج إلى الوصول للمعاينة لاستخدامه كجزء من هذا المنشور
أنشئ موارد باستخدام AWS CloudFormation
يقوم CloudFormation بإنشاء موارد AWS التالية:
- مكدس VPC مع شبكات فرعية خاصة وعامة لاستخدامها مع EMR Studio وجداول التوجيه وبوابة NAT.
- مجموعة EMR مع تثبيت Python 3.9. نحن نستخدم إجراء bootstrap لتثبيت Python 3.9 والحزم الأخرى ذات الصلة مثل تبعيات pyspark-ai وAmazon Bedrock. (لمزيد من المعلومات، راجع البرنامج النصي التمهيد.)
- حاوية S3 لمساحة عمل EMR Studio وتخزين الكمبيوتر المحمول.
- أدوار وسياسات IAM لإعداد EMR Studio والوصول إلى Amazon Bedrock وتشغيل دفاتر الملاحظات
للبدء ، أكمل الخطوات التالية:
يستغرق اكتمال مكدس CloudFormation ما بين 20 إلى 30 دقيقة تقريبًا. يمكنك مراقبة تقدمه على وحدة تحكم AWS CloudFormation. عندما يقرأ حالته CREATE_COMPLETE
، سيتوفر لحساب AWS الخاص بك الموارد اللازمة لتنفيذ هذا الحل.
إنشاء استوديو EMR
يمكنك الآن إنشاء EMR Studio ومساحة العمل للعمل مع رمز دفتر الملاحظات. أكمل الخطوات التالية:
- في وحدة تحكم استوديو EMR ، اختر إنشاء استوديو.
- أدخل اسم الاستوديو as
GenAI-EMR-Studio
وتقديم وصف. - في مجلة الشبكات والأمن القسم، حدد ما يلي:
- في حالة VPC، اختر VPC الذي قمت بإنشائه كجزء من حزمة CloudFormation التي قمت بنشرها. احصل على معرف VPC باستخدام مخرجات CloudFormation لمفتاح VPCID.
- في حالة الشبكات الفرعية، اختر جميع الشبكات الفرعية الأربع.
- في حالة الأمن والوصول، حدد مجموعة الأمان المخصصة.
- في حالة مجموعة أمان الكتلة/نقطة النهاية، اختر
EMRSparkAI-Cluster-Endpoint-SG
. - في حالة مجموعة أمان مساحة العمل، اختر
EMRSparkAI-Workspace-SG
.
- في مجلة دور خدمة الاستوديو القسم، حدد ما يلي:
- في حالة التحقّق من المُستخدم ، حدد إدارة الهوية والوصول (IAM) AWS.
- في حالة دور خدمة AWS IAM، اختر
EMRSparkAI-StudioServiceRole
.
- في مجلة تخزين مساحة العمل قسم، تصفح واختر مجموعة S3 للتخزين بدءًا من
emr-sparkai-<account-id>
. - اختار إنشاء الاستوديو.
- عند إنشاء EMR Studio، اختر الرابط الموجود أسفل عنوان URL للوصول إلى الاستوديو للوصول إلى الاستوديو.
- عندما تكون في الاستوديو، اختر قم بإنشاء مساحة عمل.
- أضف
emr-genai
كاسم لمساحة العمل واختر قم بإنشاء مساحة عمل. - عند إنشاء مساحة العمل، اختر اسمها لتشغيل مساحة العمل (تأكد من تعطيل أي أدوات حظر النوافذ المنبثقة).
تحليلات البيانات الضخمة باستخدام Apache Spark مع Amazon EMR والذكاء الاصطناعي التوليدي
الآن بعد أن أكملنا الإعداد المطلوب، يمكننا البدء في إجراء تحليلات البيانات الضخمة باستخدام Apache Spark مع Amazon EMR والذكاء الاصطناعي التوليدي.
كخطوة أولى، نقوم بتحميل دفتر ملاحظات يحتوي على الكود والأمثلة المطلوبة للعمل مع حالة الاستخدام. نحن نستخدم مجموعة بيانات NY Taxi، التي تحتوي على تفاصيل حول رحلات سيارات الأجرة.
- قم بتنزيل ملف دفتر الملاحظات NYTaxi.ipynb وقم بتحميله إلى مساحة العمل الخاصة بك عن طريق اختيار أيقونة التحميل.
- بعد استيراد دفتر الملاحظات، افتح دفتر الملاحظات واختر
PySpark
كالنواة.
باي سبارك الذكاء الاصطناعي بشكل افتراضي يستخدم ChatGPT4.0 الخاص بـ OpenAI كنموذج LLM، ولكن يمكنك أيضًا توصيل النماذج من Amazon Bedrock، أمازون سيج ميكر جومب ستارتونماذج الطرف الثالث الأخرى. في هذا المنشور، نعرض كيفية دمج نموذج Amazon Bedrock Titan لإنشاء استعلام SQL وتشغيله باستخدام Apache Spark في Amazon EMR.
- لبدء استخدام دفتر الملاحظات، يتعين عليك ربط مساحة العمل بطبقة حسابية. للقيام بذلك، اختر إحصاء في جزء التنقل واختر مجموعة EMR التي تم إنشاؤها بواسطة مكدس CloudFormation.
- قم بتكوين معلمات Python لاستخدام حزمة Python 3.9 المحدثة مع Amazon EMR:
- استيراد المكتبات اللازمة:
- بعد استيراد المكتبات، يمكنك تحديد نموذج LLM من Amazon Bedrock. في هذه الحالة، نستخدم amazon.titan-text-express-v1. يتعين عليك إدخال عنوان URL الخاص بالمنطقة ونقطة نهاية Amazon Bedrock بناءً على وصولك للمعاينة لنموذج Titan Text G1 – Express.
- قم بتوصيل Spark AI بنموذج Amazon Bedrock LLM لإنشاء استعلام SQL بناءً على الأسئلة باللغة الطبيعية:
هنا، قمنا بتهيئة Spark AI باستخدام Verbose=False؛ يمكنك أيضًا تعيين Verbose=True لرؤية المزيد من التفاصيل.
يمكنك الآن قراءة بيانات NYC Taxi في Spark DataFrame واستخدام قوة الذكاء الاصطناعي التوليدي في Spark.
- على سبيل المثال، يمكنك السؤال عن عدد السجلات في مجموعة البيانات:
حصلنا على الرد التالي:
يستخدم Spark AI داخليًا لانجشين وسلسلة SQL، والتي تخفي التعقيد عن المستخدمين النهائيين الذين يعملون مع الاستعلامات في Spark.
يحتوي الكمبيوتر الدفتري على بعض الأمثلة الإضافية للسيناريوهات لاستكشاف قوة الذكاء الاصطناعي التوليدي مع Apache Spark وAmazon EMR.
تنظيف
قم بإفراغ محتويات حاوية S3 emr-sparkai-<account-id>
، واحذف مساحة عمل EMR Studio التي تم إنشاؤها كجزء من هذا المنشور، ثم احذف مكدس CloudFormation الذي قمت بنشره.
وفي الختام
أظهر هذا المنشور كيف يمكنك تحسين تحليلات البيانات الضخمة لديك بمساعدة Apache Spark مع Amazon EMR وAmazon Bedrock. تتيح لك حزمة PySpark AI استخلاص رؤى مفيدة من بياناتك. فهو يساعد على تقليل وقت التطوير والتحليل، مما يقلل الوقت اللازم لكتابة الاستعلامات اليدوية ويسمح لك بالتركيز على حالة استخدام عملك.
حول المؤلف
سوراب بوتاني هو مهندس الحلول المتخصص الرئيسي في التحليلات في AWS. إنه متحمس للتقنيات الجديدة. انضم إلى AWS في عام 2019 ويعمل مع العملاء لتوفير التوجيه المعماري لتشغيل حالات استخدام الذكاء الاصطناعي التوليدي وحلول التحليلات القابلة للتطوير وبنيات شبكة البيانات باستخدام خدمات AWS مثل Amazon Bedrock وAmazon SageMaker وAmazon EMR وAmazon Athena وAWS Glue وAWS Lake Formation. وأمازون داتا زون.
قاسية فاردهان هو أحد كبار مهندسي الحلول في AWS، وهو متخصص في التحليلات. يتمتع بخبرة تزيد عن 8 سنوات في العمل في مجال البيانات الضخمة وعلوم البيانات. إنه متحمس لمساعدة العملاء على تبني أفضل الممارسات واكتشاف الرؤى من بياناتهم.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/
- :لديها
- :يكون
- :ليس
- $ UP
- 1
- 10
- 100
- 107
- 11
- 20
- 200
- 2019
- 320
- 500
- 521
- 7
- 8
- 9
- 990
- a
- من نحن
- الوصول
- ادارة الوصول
- حسابي
- نقر
- اكشن
- تضيف
- إضافي
- وبالإضافة إلى ذلك
- تبنى
- AI
- حالات استخدام ai
- الكل
- السماح
- يسمح
- أيضا
- أمازون
- أمازون أثينا
- أمازون EMR
- الأمازون SageMaker
- أمازون ويب سيرفيسز
- المبالغ
- an
- تحليل
- تحليلات
- و
- إجابة
- أي وقت
- أباتشي
- أباتشي سبارك
- API
- التطبيقات
- ما يقرب من
- معماري
- هندسة معمارية
- هي
- فنـون
- AS
- تطلب
- محام
- At
- متاح
- تجنب
- AWS
- تكوين سحابة AWS
- غراء AWS
- تكوين بحيرة AWS
- الى الخلف
- على أساس
- أفضل
- أفضل الممارسات
- Beyond
- كبير
- البيانات الكبيرة
- التمهيد
- نساعدك في بناء
- الأعمال
- لكن
- زر
- by
- CAN
- حقيبة
- الحالات
- الأقسام
- سلسلة
- التغييرات
- اسعارنا محددة من قبل وزارة العمل
- اختار
- اختيار
- المدينة
- سحابة
- البيانات السحابية الكبيرة
- كتلة
- الكود
- يجمع بين
- الشركات
- إكمال
- الطلب مكتمل
- تعقيد
- إحصاء
- متصل
- الإتصال
- كنسولات
- باستمرار
- يحتوي
- محتويات
- التكاليف
- خلق
- خلق
- يخلق
- الإبداع
- حاليا
- العملاء
- المتطور والحديث
- البيانات
- تحليلات البيانات
- معالجة المعلومات
- علم البيانات
- قاعدة البيانات
- قواعد البيانات
- التاريخ
- الترتيب
- حدد
- شرح
- التبعيات
- نشر
- استخلاص
- وصف
- تصميم
- تفاصيل
- تطوير
- التطوير التجاري
- مختلف
- معاق
- اكتشف
- do
- بكفاءة
- جهد
- النهاية
- نقطة النهاية
- الهندسة
- المهندسين
- انجليزي
- ضمان
- أدخل
- الدخول
- البيئة
- عصر
- أساسي
- الأثير (ETH)
- حتى
- مثال
- أمثلة
- الخبره في مجال الغطس
- تجربة
- اكتشف
- التعبير
- استخراج
- FAST
- المميزات
- قليل
- حقل
- قم بتقديم
- نهائي
- الاسم الأول
- مرونة
- تركز
- اتباع
- متابعيك
- في حالة
- تشكيل
- دورة تأسيسية
- أربعة
- الأطر
- تبدأ من
- تماما
- g1
- دخر
- بوابة
- توليد
- جيل
- توليدي
- الذكاء الاصطناعي التوليدي
- دولار فقط واحصل على خصم XNUMX% على جميع
- إعطاء
- Go
- توجيه
- يملك
- he
- مساعدة
- مساعدة
- يساعد
- مخفي
- إخفاء
- كيفية
- كيفية
- HTTP
- HTTPS
- i
- IAM
- اي كون
- ID
- هوية
- إدارة الهوية والوصول
- يوضح
- تنفيذ
- استيراد
- in
- في أخرى
- بما فيه
- الرائدة في صناعة
- معلومات
- مبتكرة
- إدخال
- رؤى
- تثبيت
- حالات
- تعليمات
- دمج
- المتكاملة
- التكامل
- معد
- تفاعل
- التفاعلية
- داخليا
- إلى
- IT
- انها
- انضم
- JPG
- احتفظ
- القفل
- علم
- بحيرة
- لغة
- كبير
- آخر
- إطلاق
- طبقة
- قيادة
- تعلم
- المكتبات
- المكتبة
- مثل
- خط
- LINK
- تحميل
- آلة
- آلة التعلم
- جعل
- يصنع
- تمكن
- إدارة
- كتيب
- تجارة
- مايو..
- ذات مغزى
- عيون
- أدنى
- دقائق
- ML
- نموذج
- عارضات ازياء
- مراقبة
- الأكثر من ذلك
- أكثر
- الاسم
- طبيعي
- اللغة الطبيعية
- قائمة الإختيارات
- ضروري
- حاجة
- بحاجة
- الشبكات
- جديد
- التكنولوجيات الجديدة
- مفكرة
- أجهزة الكمبيوتر المحمولة
- الآن
- عدد
- NY
- مدينة نيويورك
- الأجسام
- ملاحظة
- of
- عروض
- on
- جاكيت
- المصدر المفتوح
- or
- المنظمات
- أخرى
- النتائج
- على مدى
- نظرة عامة
- صفقة
- حزم
- خبز
- المعلمات
- جزء
- عاطفي
- أداء
- أذونات
- المكان
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- ملعب
- قابس
- سياسات الخصوصية والبيع
- المنبثقة
- منشور
- محتمل
- قوة
- الممارسات
- أرسال
- رئيسي
- خاص
- عملية المعالجة
- معالجة
- الإنتــاج
- التقدّم
- تزود
- المقدمة
- مقدمي
- ويوفر
- جمهور
- بايثون
- الاستفسارات
- سؤال
- الأسئلة المتكررة
- بسرعة
- R
- عرض
- تسجيل
- تخفيض
- تقليص
- الرجوع
- بغض النظر
- منطقة
- المناطق
- ذات الصلة
- إزالة
- مطلوب
- الموارد
- استجابة
- النتائج
- ركوب الخيل
- النوع
- الأدوار
- طريق
- يجري
- تشغيل
- يدير
- sagemaker
- سكالا
- التدرجية
- تحجيم
- حجم
- التحجيم
- سيناريوهات
- علوم
- العلماء
- الإستراحة
- البحث
- سيكريت
- أمن
- انظر تعريف
- حدد
- كبير
- الخدمة
- خدماتنا
- طقم
- الإعداد
- إظهار
- أظهرت
- الاشارات
- تبسيط
- عزباء
- So
- حل
- الحلول
- مصدر
- شرارة
- متخصص
- متخصصة
- سرعة
- SQL
- كومة
- كومات
- بداية
- بدأت
- ابتداء
- الحالة
- خطوة
- خطوات
- تخزين
- صريح
- ستوديو
- الشبكات الفرعية
- هذه
- أدائنا
- بالتأكيد
- نظام
- جدول
- اتخذت
- يأخذ
- التكنولوجيا
- تكنولوجيا
- قالب
- نص
- أن
- •
- من مشاركة
- منهم
- then
- هم
- طرف ثالث
- فكر
- عبر
- الوقت
- الجدول الزمني
- عملاق
- إلى
- أدوات
- تيشرت
- تقليدي
- ui
- مع
- فتح
- تحديث
- URL
- تستخدم
- حالة الاستخدام
- مستعمل
- مستخدم
- المستخدمين
- يستخدم
- استخدام
- قيمنا
- تشكيلة
- مختلف
- كبير
- تصور
- طريق..
- طرق
- we
- الويب
- خدمات ويب
- على شبكة الإنترنت
- متى
- التي
- في حين
- سوف
- مع
- في غضون
- بدون
- للعمل
- عامل
- أعمال
- في جميع أنحاء العالم
- اكتب
- مكتوب
- سنوات
- نيويورك
- لصحتك!
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت