با استفاده از Amazon SageMaker Data Wrangler، کارهای پردازش را با چند کلیک راه اندازی کنید

گره منبع: 1600104

Amazon SageMaker Data Rangler برای دانشمندان و مهندسان داده سریع‌تر می‌شود تا داده‌ها را برای برنامه‌های یادگیری ماشین (ML) با استفاده از یک رابط بصری آماده کنند. قبلاً، زمانی که یک جریان داده Data Wrangler ایجاد می‌کردید، می‌توانید گزینه‌های مختلف صادرات را انتخاب کنید تا به راحتی آن جریان داده را در خط لوله پردازش داده خود ادغام کنید. Data Wrangler گزینه های صادراتی را ارائه می دهد سرویس ذخیره سازی ساده آمازون (Amazon S3) خطوط لوله SageMakerو فروشگاه ویژگی SageMaker، یا به عنوان کد پایتون. گزینه های صادرات یک نوت بوک Jupyter ایجاد می کنند و از شما می خواهند کد را برای شروع یک کار پردازشی که توسط آن تسهیل می شود، اجرا کنید پردازش SageMaker.

ما هیجان زده هستیم که انتشار عمومی گره های مقصد و ویژگی Create Job را در Data Wrangler اعلام کنیم. این ویژگی به شما این امکان را می‌دهد که تنها با چند کلیک تمام تغییراتی را که به یک مجموعه داده انجام داده‌اید به یک گره مقصد صادر کنید. این به شما امکان می دهد کارهای پردازش داده را ایجاد کنید و صرفاً از طریق رابط بصری بدون نیاز به تولید، اجرا یا مدیریت نوت بوک های Jupyter به Amazon S3 صادر کنید و در نتیجه تجربه کم کد را افزایش دهید. برای نشان دادن این ویژگی جدید، از مجموعه داده تایتانیک و نشان دهید که چگونه تبدیل های خود را به یک گره مقصد صادر کنید.

پیش نیازها

قبل از اینکه نحوه استفاده از گره های مقصد را با Data Wrangler یاد بگیریم، باید قبلاً نحوه استفاده از آن را بدانید دسترسی داشته باشید و با Data Wrangler شروع کنید. شما همچنین باید بدانید که یک گردش داده ها به این معنی است که با زمینه داده Wrangler و نحوه ایجاد یکی از آنها با وارد کردن داده های خود از منابع داده مختلف که Data Wrangler پشتیبانی می کند.

بررسی اجمالی راه حل

جریان داده زیر را با نام در نظر بگیرید example-titanic.flow:

  • این مجموعه داده تایتانیک را سه بار وارد می کند. شما می توانید این واردات های مختلف را به عنوان شاخه های جداگانه در جریان داده مشاهده کنید.
  • برای هر شاخه، مجموعه ای از تبدیل ها و تجسم ها را اعمال می کند.
  • این شاخه ها را با تمام تبدیل ها و تجسم ها به یک گره متصل می کند.

با این جریان، ممکن است بخواهید بخش هایی از داده های خود را در یک شعبه یا مکان خاص پردازش و ذخیره کنید.

در مراحل زیر نحوه ایجاد گره های مقصد، صادرات آنها به آمازون S3 و ایجاد و راه اندازی یک کار پردازشی را نشان می دهیم.

یک گره مقصد ایجاد کنید

می توانید از روش زیر برای ایجاد گره های مقصد و صادرات آنها به سطل S3 استفاده کنید:

  1. تعیین کنید که چه بخش هایی از فایل جریان (تبدیل) را می خواهید ذخیره کنید.
  2. علامت مثبت را در کنار گره هایی که نشان دهنده تبدیل هایی هستند که می خواهید صادر کنید، انتخاب کنید. (اگر یک گره جمع شده است، باید نماد گزینه ها (سه نقطه) را برای گره انتخاب کنید).
  3. شناور بیش از مقصد را اضافه کنید.
  4. را انتخاب کنید آمازون S3.
  5. همانطور که در تصویر زیر نشان داده شده است، فیلدها را مشخص کنید.
  6. برای دومین گره پیوستن، همان مراحل را دنبال کنید تا آمازون S3 را به عنوان مقصد اضافه کنید و فیلدها را مشخص کنید.

می توانید این مراحل را هر چند بار که نیاز دارید برای گره های مورد نظر خود در جریان داده خود تکرار کنید. بعداً، شما انتخاب می کنید که کدام گره های مقصد را در کار پردازشی خود بگنجانید.

یک کار پردازشی راه اندازی کنید

از روش زیر برای ایجاد یک کار پردازشی استفاده کنید و گره مقصدی را که می خواهید به آن صادر کنید انتخاب کنید:

  1. بر گردش داده ها برگه ، انتخاب کنید ایجاد شغل.
  2. برای اسم شغل¸ نام شغل صادراتی را وارد کنید.
  3. گره های مقصدی را که می خواهید صادر کنید انتخاب کنید.
  4. به صورت اختیاری، را مشخص کنید سرویس مدیریت کلید AWS (AWS KMS) کلید ARN.

کلید KMS یک کلید رمزنگاری است که می توانید از آن برای محافظت از داده های خود استفاده کنید. برای اطلاعات بیشتر در مورد کلیدهای KMS، به بخش مراجعه کنید راهنمای برنامه نویس کلید AWS.

  1. را انتخاب کنید بعد، 2. کار را پیکربندی کنید.
  2. به صورت اختیاری، می‌توانید کار را بر اساس نیاز خود با تغییر نوع یا تعداد نمونه، یا افزودن هر برچسبی برای مرتبط کردن با کار پیکربندی کنید.
  3. را انتخاب کنید دویدن برای اجرای کار

هنگامی که کار با موفقیت ایجاد شد، یک پیام موفقیت ظاهر می شود.

مشاهده داده های نهایی

در نهایت می توانید از مراحل زیر برای مشاهده داده های صادر شده استفاده کنید:

  1. پس از ایجاد کار، پیوند ارائه شده را انتخاب کنید.

یک برگه جدید باز می شود که کار پردازش را در کنسول SageMaker نشان می دهد.

  1. هنگامی که کار کامل شد، داده های صادر شده را در کنسول آمازون S3 بررسی کنید.

شما باید یک پوشه جدید با نام شغلی که انتخاب کرده اید ببینید.

  1. برای مشاهده یک فایل CSV (یا چندین فایل) با داده های نهایی، نام شغل را انتخاب کنید.

پاسخ به برخی سوالات مهم

در این بخش به چند سوال متداول در مورد این ویژگی جدید می پردازیم:

  • برگه صادرات چه شد؟ با این ویژگی جدید، ما آن را حذف کردیم صادرات برگه از Data Wrangler. همچنان می‌توانید عملکرد صادرات را از طریق نوت‌بوک‌های Jupyter ایجاد شده توسط Data Wrangler از هر گره‌ای که در جریان داده ایجاد کرده‌اید با مراحل زیر تسهیل کنید:
    1. علامت مثبت را در کنار گره ای که می خواهید صادر کنید انتخاب کنید.
    2. را انتخاب کنید صادرات به.
    3. را انتخاب کنید Amazon S3 (از طریق Jupyter Notebook).
    4. نوت بوک Jupyter را اجرا کنید.
  • چه تعداد گره مقصد را می توانم در یک کار قرار دهم؟ در هر کار پردازشی حداکثر 10 مقصد وجود دارد.
  • چند گره مقصد می توانم در یک فایل جریان داشته باشم؟ شما می توانید هر تعداد گره مقصد داشته باشید.
  • آیا می توانم بعد از گره های مقصد خود، تبدیل ها را اضافه کنم؟ نه، ایده این است که گره‌های مقصد، گره‌های پایانی هستند که بعد از آن هیچ گام دیگری ندارند.
  • منابع پشتیبانی شده ای که می توانم با گره های مقصد استفاده کنم چیست؟ از زمان نوشتن این مقاله، ما فقط از Amazon S3 به عنوان منبع مقصد پشتیبانی می کنیم. پشتیبانی از انواع منبع مقصد بیشتر در آینده اضافه خواهد شد. لطفاً اگر مورد خاصی وجود دارد که می خواهید ببینید، تماس بگیرید.

خلاصه

در این پست، نحوه استفاده از گره‌های مقصد تازه راه‌اندازی شده برای ایجاد کارهای پردازشی و ذخیره مجموعه داده‌های تبدیل شده خود را مستقیماً در Amazon S3 از طریق رابط بصری Data Wrangler نشان دادیم. با این ویژگی اضافی، تجربه کم‌کد مبتنی بر ابزار Data Wrangler را افزایش داده‌ایم.

به عنوان مراحل بعدی، توصیه می کنیم نمونه نشان داده شده در این پست را امتحان کنید. اگر سوالی دارید یا می خواهید بیشتر بدانید، ببینید صادرات یا در قسمت نظرات سوال بنویسید


درباره نویسنده

آلفونسو آستین ریورا یک مهندس Front End در Amazon SageMaker Data Wrangler است. او مشتاق ایجاد تجربیات کاربر بصری است که باعث شادی می شود. در اوقات فراغتش، می‌توانید او را در حال مبارزه با جاذبه در یک باشگاه صخره‌نوردی یا بیرون از خانه در حال پرواز با پهپاد خود بیابید.

پارسا شاهبداغی یک نویسنده فنی در AWS متخصص در یادگیری ماشین و هوش مصنوعی است. او مستندات فنی را برای Amazon SageMaker Data Wrangler و Amazon SageMaker Feature Store می نویسد. در اوقات فراغت از مدیتیشن، گوش دادن به کتاب های صوتی، وزنه برداری و تماشای استندآپ کمدی لذت می برد. او هرگز یک استندآپ کمدین نخواهد بود، اما حداقل مادرش فکر می کند که او بامزه است.

بالاجی توممالا مهندس توسعه نرم افزار در Amazon SageMaker است. او به پشتیبانی Amazon SageMaker Data Wrangler کمک می کند و علاقه زیادی به ساخت نرم افزارهای کارآمد و مقیاس پذیر دارد. در خارج از محل کار، او از خواندن داستان و بازی والیبال لذت می برد.

آرونپراسات شانکار یک معمار راه حل های تخصصی هوش مصنوعی و یادگیری ماشین (AI/ML) با AWS است که به مشتریان جهانی کمک می کند راه حل های هوش مصنوعی خود را به طور موثر و کارآمد در فضای ابری مقیاس کنند. آرون در اوقات فراغت خود از تماشای فیلم های علمی تخیلی و گوش دادن به موسیقی کلاسیک لذت می برد.

منبع: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

تمبر زمان:

بیشتر از وبلاگ یادگیری ماشین AWS