در این دوره از داده های بزرگ، سازمان ها در سراسر جهان به طور مداوم به دنبال راه های نوآورانه برای استخراج ارزش و بینش از مجموعه داده های گسترده خود هستند. جرقه آپاچی مقیاس پذیری و سرعت مورد نیاز برای پردازش حجم زیادی از داده ها را ارائه می دهد.
آمازون EMR راه حل ابر داده های بزرگ پیشرو در صنعت برای پردازش داده در مقیاس پتابایت، تجزیه و تحلیل تعاملی و یادگیری ماشین (ML) با استفاده از چارچوب های منبع باز مانند Apache Spark است. آپاچی کندوو تند. آمازون EMR بهترین مکان برای اجرای آپاچی اسپارک است. شما می توانید به سرعت و بدون زحمت، خوشه های Spark مدیریت شده را از کنسول مدیریت AWS, رابط خط فرمان AWS (AWS CLI)، یا Amazon EMR API. همچنین میتوانید از ویژگیهای اضافی آمازون EMR از جمله سریع استفاده کنید سرویس ذخیره سازی ساده آمازون اتصال (Amazon S3) با استفاده از سیستم فایل آمازون EMR (EMRFS)، ادغام با آمازون EC2 Spot بازار و چسب AWS کاتالوگ داده و مقیاسگذاری مدیریتشده EMR برای افزودن یا حذف نمونههایی از خوشهتان. Amazon EMR Studio یک محیط توسعه یکپارچه (IDE) است که توسعه، تجسم، و اشکال زدایی برنامه های مهندسی داده و علم داده را که در R، Python، Scala و PySpark نوشته شده اند، برای دانشمندان داده و مهندسان داده ساده می کند. EMR Studio نوتبوکهای Jupyter و ابزارهایی مانند Spark UI و YARN Timeline Service را برای سادهسازی اشکالزدایی ارائه میکند.
برای باز کردن پتانسیل پنهان در انبارهای داده، فراتر از تجزیه و تحلیل سنتی ضروری است. هوش مصنوعی مولد را وارد کنید، یک فناوری پیشرفته که ML را با خلاقیت ترکیب میکند تا متن، هنر و حتی کد شبیه انسان تولید کند. بستر آمازون سادهترین راه برای ساخت و مقیاسسازی برنامههای هوش مصنوعی مولد با مدلهای پایه (FM) است. Amazon Bedrock یک سرویس کاملاً مدیریت شده است که FM های آمازون و شرکت های پیشرو هوش مصنوعی را از طریق یک API در دسترس قرار می دهد، بنابراین می توانید به سرعت با انواع FM ها در زمین بازی آزمایش کنید و بدون توجه به مدل هایی که انتخاب می کنید، از یک API برای استنباط استفاده کنید. انعطاف پذیری برای استفاده از FM های ارائه دهندگان مختلف و به روز نگه داشتن آخرین نسخه های مدل با حداقل تغییرات کد.
در این پست، ما بررسی می کنیم که چگونه می توانید تجزیه و تحلیل داده های خود را با هوش مصنوعی با استفاده از Amazon EMR، Amazon Bedrock و pyspark-ai کتابخانه کتابخانه pyspark-ai یک SDK انگلیسی برای Apache Spark است. دستورات را به زبان انگلیسی می گیرد و آنها را در اشیاء PySpark مانند DataFrames کامپایل می کند. این کار کار با Spark را ساده می کند و به شما امکان می دهد بر استخراج ارزش از داده های خود تمرکز کنید.
بررسی اجمالی راه حل
نمودار زیر معماری استفاده از هوش مصنوعی مولد با Amazon EMR و Amazon Bedrock را نشان می دهد.
EMR Studio یک IDE مبتنی بر وب برای نوت بوک های Jupyter کاملاً مدیریت شده است که روی خوشه های EMR اجرا می شوند. ما با فضاهای کاری EMR Studio متصل به یک خوشه EMR در حال اجرا تعامل داریم و نوت بوک ارائه شده به عنوان بخشی از این پست را اجرا می کنیم. ما استفاده می کنیم تاکسی شهر نیویورک داده هایی برای به دست آوردن بینش در مورد تاکسی سواری های مختلف توسط کاربران. ما سوالات را به زبان طبیعی در بالای دادههای بارگذاری شده در Spark DataFrame میپرسیم. کتابخانه pyspark-ai سپس از Amazon Titan Text FM از Amazon Bedrock برای ایجاد پرس و جوی SQL بر اساس سوال زبان طبیعی استفاده می کند. کتابخانه pyspark-ai کوئری SQL را می گیرد، آن را با استفاده از Spark SQL اجرا می کند و نتایج را به کاربر ارائه می دهد.
در این راه حل، می توانید منابع مورد نیاز را در حساب AWS خود با یک ایجاد و پیکربندی کنید AWS CloudFormation قالب. الگو ایجاد می کند چسب AWS پایگاه داده و جداول، سطل S3، VPC، و غیره هویت AWS و مدیریت دسترسی (IAM) منابعی که در راه حل استفاده می شوند.
این الگو برای نشان دادن نحوه استفاده از EMR Studio با بسته pyspark-ai و Amazon Bedrock طراحی شده است و برای استفاده در تولید بدون تغییر در نظر گرفته نشده است. علاوه بر این، الگو از us-east-1
منطقه و ممکن است در مناطق دیگر بدون تغییر کار نکند. این الگو منابعی را ایجاد می کند که هزینه هایی را در حین استفاده از آنها متحمل می شود. مراحل پاکسازی انتهای این پست را برای حذف منابع و جلوگیری از هزینه های غیر ضروری دنبال کنید.
پیش نیازها
قبل از راه اندازی پشته CloudFormation، مطمئن شوید که موارد زیر را دارید:
- یک حساب AWS که دسترسی به خدمات AWS را فراهم می کند
- یک کاربر IAM با یک کلید دسترسی و کلید مخفی برای پیکربندی AWS CLI و مجوز برای ایجاد نقش IAM، خطمشیهای IAM و پشتهها در AWS CloudFormation.
- مدل Titan Text G1 – Express در حال حاضر در پیش نمایش است، بنابراین برای استفاده از آن به عنوان بخشی از این پست، باید دسترسی پیش نمایش داشته باشید.
با AWS CloudFormation منابع ایجاد کنید
CloudFormation منابع AWS زیر را ایجاد می کند:
- یک پشته VPC با زیرشبکه های خصوصی و عمومی برای استفاده با EMR Studio، جداول مسیر، و دروازه NAT.
- یک خوشه EMR با پایتون 3.9 نصب شده است. ما از یک عمل بوت استرپ برای نصب پایتون 3.9 و سایر بستههای مرتبط مانند وابستگیهای pyspark-ai و Amazon Bedrock استفاده میکنیم. (برای اطلاعات بیشتر به ادامه مطلب مراجعه کنید اسکریپت بوت استرپ.)
- یک سطل S3 برای فضای کاری EMR Studio و ذخیره سازی نوت بوک.
- نقشها و خطمشیهای IAM برای راهاندازی EMR Studio، دسترسی Amazon Bedrock و نوتبوکهای در حال اجرا
برای شروع مراحل زیر را انجام دهید:
- را انتخاب کنید راه اندازی پشته:
- انتخاب کنید من تصدیق می کنم که این الگو ممکن است منابع IAM را ایجاد کند.
پشته CloudFormation تقریباً 20 تا 30 دقیقه طول می کشد تا تکمیل شود. می توانید پیشرفت آن را در کنسول AWS CloudFormation نظارت کنید. وقتی وضعیتش خوانده می شود CREATE_COMPLETE
، حساب AWS شما منابع لازم برای اجرای این راه حل را خواهد داشت.
EMR Studio را ایجاد کنید
اکنون می توانید یک EMR Studio و Workspace برای کار با کد نوت بوک ایجاد کنید. مراحل زیر را کامل کنید:
- در کنسول EMR Studio، را انتخاب کنید استودیو ایجاد کنید.
- را وارد کنید نام استودیو as
GenAI-EMR-Studio
و توضیحات ارائه کنید. - در شبکه و امنیت بخش، موارد زیر را مشخص کنید:
- برای VPC، VPC را که ایجاد کرده اید به عنوان بخشی از پشته CloudFormation که مستقر کرده اید انتخاب کنید. شناسه VPC را با استفاده از خروجی های CloudFormation برای کلید VPCID دریافت کنید.
- برای زیرشبکه ها، هر چهار زیرشبکه را انتخاب کنید.
- برای امنیت و دسترسی، انتخاب کنید گروه امنیتی سفارشی.
- برای گروه امنیتی خوشه/نقطه پایانی، انتخاب کنید
EMRSparkAI-Cluster-Endpoint-SG
. - برای گروه امنیت فضای کاری، انتخاب کنید
EMRSparkAI-Workspace-SG
.
- در نقش سرویس استودیو بخش، موارد زیر را مشخص کنید:
- برای تصدیق، انتخاب کنید مدیریت هویت و دسترسی AWS (IAM).
- برای نقش سرویس AWS IAM، انتخاب کنید
EMRSparkAI-StudioServiceRole
.
- در ذخیره سازی فضای کاری بخش، فهرست و انتخاب سطل S3 برای ذخیره سازی با شروع
emr-sparkai-<account-id>
. - را انتخاب کنید استودیو ایجاد کنید.
- وقتی استودیو EMR ایجاد شد، پیوند زیر را انتخاب کنید URL دسترسی استودیو برای دسترسی به استودیو
- وقتی در استودیو هستید، انتخاب کنید فضای کاری ایجاد کنید.
- اضافه کردن
emr-genai
به عنوان نام فضای کاری و انتخاب کنید فضای کاری ایجاد کنید. - هنگامی که Workspace ایجاد شد، نام آن را برای راه اندازی Workspace انتخاب کنید (مطمئن شوید که مسدود کننده های پاپ آپ را غیرفعال کرده اید).
تجزیه و تحلیل داده های بزرگ با استفاده از آپاچی اسپارک با آمازون EMR و هوش مصنوعی مولد
اکنون که تنظیمات لازم را تکمیل کردهایم، میتوانیم تجزیه و تحلیل دادههای بزرگ را با استفاده از Apache Spark با Amazon EMR و هوش مصنوعی مولد شروع کنیم.
به عنوان اولین قدم، یک دفترچه یادداشت را بارگذاری می کنیم که کد و نمونه های مورد نیاز برای کار با case case را دارد. ما از مجموعه داده تاکسی نیویورک استفاده می کنیم که حاوی جزئیاتی در مورد تاکسی سواری است.
- فایل نوت بوک را دانلود کنید NYTaxi.ipynb و با انتخاب نماد آپلود آن را در Workspace خود آپلود کنید.
- پس از وارد شدن نوت بوک، نوت بوک را باز کرده و انتخاب کنید
PySpark
به عنوان هسته
PySpark AI به طور پیشفرض از ChatGPT4.0 OpenAI به عنوان مدل LLM استفاده میکند، اما میتوانید مدلهایی را از Amazon Bedrock نیز وصل کنید. Amazon SageMaker JumpStartو سایر مدل های شخص ثالث. برای این پست، نحوه ادغام مدل Amazon Bedrock Titan برای تولید پرس و جو SQL و اجرای آن با Apache Spark در Amazon EMR را نشان می دهیم.
- برای شروع کار با نوت بوک، باید Workspace را به یک لایه محاسباتی مرتبط کنید. برای انجام این کار، را انتخاب کنید محاسبه نماد را در پنجره ناوبری و خوشه EMR ایجاد شده توسط پشته CloudFormation را انتخاب کنید.
- پارامترهای پایتون را برای استفاده از بسته به روز شده Python 3.9 با آمازون EMR پیکربندی کنید:
- وارد کردن کتابخانه های لازم:
- پس از وارد شدن کتابخانه ها، می توانید مدل LLM را از Amazon Bedrock تعریف کنید. در این مورد از amazon.titan-text-express-v1 استفاده می کنیم. شما باید URL نقطه پایانی منطقه و Amazon Bedrock را بر اساس دسترسی پیش نمایش خود برای مدل Titan Text G1 – Express وارد کنید.
- Spark AI را به مدل Amazon Bedrock LLM برای تولید پرس و جو SQL بر اساس سوالات به زبان طبیعی متصل کنید:
در اینجا، Spark AI را با verbose=False مقداردهی اولیه کردیم. همچنین می توانید verbose=True را برای دیدن جزئیات بیشتر تنظیم کنید.
اکنون می توانید داده های تاکسی نیویورک را در Spark DataFrame بخوانید و از قدرت هوش مصنوعی مولد در Spark استفاده کنید.
- به عنوان مثال، می توانید تعداد رکوردهای موجود در مجموعه داده را بپرسید:
ما پاسخ زیر را دریافت می کنیم:
Spark AI در داخل استفاده می کند LangChain و زنجیره SQL، که پیچیدگی را از کاربران نهایی که با کوئری ها در Spark کار می کنند پنهان می کند.
این نوت بوک چند سناریو نمونه دیگر برای کشف قدرت هوش مصنوعی مولد با آپاچی اسپارک و آمازون EMR دارد.
پاک کردن
محتویات سطل S3 را خالی کنید emr-sparkai-<account-id>
، فضای کاری EMR Studio ایجاد شده به عنوان بخشی از این پست را حذف کنید و سپس پشته CloudFormation را که مستقر کرده اید حذف کنید.
نتیجه
این پست نشان داد که چگونه می توانید تجزیه و تحلیل داده های بزرگ خود را با کمک Apache Spark با Amazon EMR و Amazon Bedrock افزایش دهید. بسته هوش مصنوعی PySpark به شما این امکان را می دهد که از داده های خود بینش معنی داری بدست آورید. این به کاهش زمان توسعه و تجزیه و تحلیل کمک می کند، زمان نوشتن پرس و جوهای دستی را کاهش می دهد و به شما امکان می دهد بر روی مورد استفاده تجاری خود تمرکز کنید.
درباره نویسنده
سوراب بوتیانی یک معمار اصلی راه حل های متخصص تجزیه و تحلیل در AWS است. او علاقه زیادی به فناوری های جدید دارد. او در سال 2019 به AWS ملحق شد و با مشتریان برای ارائه راهنماییهای معماری برای اجرای موارد استفاده مولد هوش مصنوعی، راهحلهای تحلیل مقیاسپذیر و معماریهای مش داده با استفاده از خدمات AWS مانند Amazon Bedrock، Amazon SageMaker، Amazon EMR، Amazon Athena، AWS Glue، AWS Lake Formation، همکاری میکند. و Amazon DataZone.
هارش واردان یک معمار ارشد راه حل AWS، متخصص در تجزیه و تحلیل است. او بیش از 8 سال تجربه کار در زمینه داده های بزرگ و علم داده دارد. او مشتاق کمک به مشتریان در اتخاذ بهترین شیوه ها و کشف بینش از داده های آنها است.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/
- : دارد
- :است
- :نه
- $UP
- 1
- 10
- 100
- 107
- 11
- 20
- 200
- 2019
- 320
- 500
- 521
- 7
- 8
- 9
- 990
- a
- درباره ما
- دسترسی
- مدیریت دسترسی
- حساب
- اذعان
- عمل
- اضافه کردن
- اضافی
- علاوه بر این
- اتخاذ
- AI
- موارد استفاده ai
- معرفی
- اجازه دادن
- اجازه می دهد تا
- همچنین
- آمازون
- آمازون آتنا
- آمازون EMR
- آمازون SageMaker
- آمازون خدمات وب
- مقدار
- an
- تحلیل
- علم تجزیه و تحلیل
- و
- پاسخ
- هر
- آپاچی
- جرقه آپاچی
- API
- برنامه های کاربردی
- تقریبا
- معماری
- معماری
- هستند
- هنر
- AS
- پرسیدن
- وابسته
- At
- در دسترس
- اجتناب از
- AWS
- AWS CloudFormation
- چسب AWS
- سازند دریاچه AWS
- به عقب
- مستقر
- بهترین
- بهترین شیوه
- خارج از
- بزرگ
- بزرگ داده
- خود راه انداز
- ساختن
- کسب و کار
- اما
- دکمه
- by
- CAN
- مورد
- موارد
- کاتالوگ
- زنجیر
- تبادل
- بار
- را انتخاب کنید
- انتخاب
- شهر:
- ابر
- کلان داده های ابری
- خوشه
- رمز
- ترکیب
- شرکت
- کامل
- تکمیل شده
- پیچیدگی
- محاسبه
- متصل
- اتصال
- کنسول
- به طور مداوم
- شامل
- محتویات
- هزینه
- ایجاد
- ایجاد شده
- ایجاد
- خلاقیت
- در حال حاضر
- مشتریان
- لبه برش
- داده ها
- تجزیه و تحلیل داده ها
- پردازش داده ها
- علم اطلاعات
- پایگاه داده
- مجموعه داده ها
- تاریخ
- به طور پیش فرض
- تعريف كردن
- نشان دادن
- وابستگی
- مستقر
- استخراج
- شرح
- طراحی
- جزئیات
- توسعه
- پروژه
- مختلف
- غیر فعال
- كشف كردن
- do
- موثر
- زحمت
- پایان
- نقطه پایانی
- مهندسی
- مورد تأیید
- انگلیسی
- اطمینان حاصل شود
- وارد
- وارد شدن
- محیط
- عصر
- ضروری است
- اتر (ETH)
- حتی
- مثال
- مثال ها
- تجربه
- تجربه
- اکتشاف
- صریح
- عصاره
- FAST
- امکانات
- کمی از
- رشته
- پرونده
- نهایی
- نام خانوادگی
- انعطاف پذیری
- تمرکز
- به دنبال
- پیروی
- برای
- تشکیل
- پایه
- چهار
- چارچوب
- از جانب
- کاملا
- g1
- جمع کردن
- دروازه
- تولید می کنند
- نسل
- مولد
- هوش مصنوعی مولد
- دریافت کنید
- دادن
- Go
- راهنمایی
- آیا
- he
- کمک
- کمک
- کمک می کند
- پنهان
- پنهان شدن
- چگونه
- چگونه
- HTTP
- HTTPS
- i
- IAM
- ICON
- ID
- هویت
- هویت و مدیریت دسترسی
- نشان می دهد
- انجام
- واردات
- in
- در دیگر
- از جمله
- پیشرو در صنعت
- اطلاعات
- ابتکاری
- ورودی
- بینش
- نصب
- نمونه ها
- دستورالعمل
- ادغام
- یکپارچه
- ادغام
- مورد نظر
- تعامل
- تعاملی
- داخلی
- به
- IT
- ITS
- پیوست
- JPG
- نگاه داشتن
- کلید
- دانستن
- دریاچه
- زبان
- بزرگ
- آخرین
- راه اندازی
- لایه
- برجسته
- یادگیری
- کتابخانه ها
- کتابخانه
- پسندیدن
- لاین
- ارتباط دادن
- بار
- دستگاه
- فراگیری ماشین
- ساخت
- باعث می شود
- اداره می شود
- مدیریت
- کتابچه راهنمای
- بازار
- ممکن است..
- معنی دار
- مش
- حداقل
- دقیقه
- ML
- مدل
- مدل
- مانیتور
- بیش
- اکثر
- نام
- طبیعی
- زبان طبیعی
- جهت یابی
- لازم
- نیاز
- ضروری
- شبکه
- جدید
- فناوری های نوین
- دفتر یادداشت
- نوت بوک
- اکنون
- عدد
- NY
- نیویورک
- اشیاء
- مشاهده
- of
- پیشنهادات
- on
- باز کن
- منبع باز
- or
- سازمان های
- دیگر
- خروجی
- روی
- مروری
- بسته
- بسته
- قطعه
- پارامترهای
- بخش
- احساساتی
- انجام
- مجوز
- محل
- افلاطون
- هوش داده افلاطون
- PlatoData
- زمین بازی
- برق وصل کردن
- سیاست
- پاپ آپ
- پست
- پتانسیل
- قدرت
- شیوه های
- پیش نمایش
- اصلی
- خصوصی
- روند
- در حال پردازش
- تولید
- پیشرفت
- ارائه
- ارائه
- ارائه دهندگان
- فراهم می کند
- عمومی
- پــایتــون
- نمایش ها
- سوال
- سوالات
- به سرعت
- R
- خواندن
- سوابق
- كاهش دادن
- کاهش
- مراجعه
- بدون در نظر گرفتن
- منطقه
- مناطق
- مربوط
- برداشتن
- ضروری
- منابع
- پاسخ
- نتایج
- سواری
- نقش
- نقش
- مسیر
- دویدن
- در حال اجرا
- اجرا می شود
- حکیم ساز
- اسکالا
- مقیاس پذیری
- مقیاس پذیر
- مقیاس
- مقیاس گذاری
- سناریوها
- علم
- دانشمندان
- sdk
- جستجو
- راز
- تیم امنیت لاتاری
- دیدن
- را انتخاب کنید
- ارشد
- سرویس
- خدمات
- تنظیم
- برپایی
- نشان
- نشان داد
- ساده
- ساده کردن
- تنها
- So
- راه حل
- مزایا
- منبع
- جرقه
- متخصص
- متخصص
- سرعت
- SQL
- پشته
- پشته
- شروع
- آغاز شده
- راه افتادن
- وضعیت
- گام
- مراحل
- ذخیره سازی
- ساده
- استودیو
- زیرشبکه ها
- چنین
- لبریز شدن
- مطمئن
- سیستم
- جدول
- صورت گرفته
- طول می کشد
- فن آوری
- پیشرفته
- قالب
- متن
- که
- La
- شان
- آنها
- سپس
- آنها
- شخص ثالث
- این
- فکر
- از طریق
- زمان
- جدول زمانی
- تیتان
- به
- ابزار
- بالا
- سنتی
- ui
- زیر
- باز
- به روز شده
- URL
- استفاده کنید
- مورد استفاده
- استفاده
- کاربر
- کاربران
- استفاده
- با استفاده از
- ارزش
- تنوع
- مختلف
- وسیع
- تجسم
- مسیر..
- راه
- we
- وب
- خدمات وب
- مبتنی بر وب
- چه زمانی
- که
- در حین
- اراده
- با
- در داخل
- بدون
- مهاجرت کاری
- کارگر
- با این نسخهها کار
- در سرتاسر جهان
- نوشتن
- کتبی
- سال
- نیویورک
- شما
- شما
- زفیرنت