داده های JSON و ORC را با Amazon SageMaker Data Wrangler آماده و تجزیه و تحلیل کنید

گره منبع: 1600106

Amazon SageMaker Data Rangler یک قابلیت جدید از آمازون SageMaker این امر باعث می شود که دانشمندان و مهندسان داده سریعتر داده ها را برای برنامه های کاربردی یادگیری ماشین (ML) از طریق یک رابط بصری آماده کنند. آماده‌سازی داده‌ها مرحله‌ای حیاتی از چرخه حیات ML است و Data Wrangler راه‌حلی سرتاسری برای وارد کردن، آماده‌سازی، تبدیل، ویژه‌سازی و تجزیه و تحلیل داده‌ها برای ML در تجربه‌ای یکپارچه، بصری و کم‌کد ارائه می‌کند. این به شما امکان می دهد به راحتی و به سرعت به اجزای AWS مانند سرویس ذخیره سازی ساده آمازون (Amazon S3) آمازون آتنا, آمازون Redshiftو سازند دریاچه AWSو منابع خارجی مانند Snowflake. Data Wrangler همچنین از انواع داده های استاندارد مانند CSV و Parquet پشتیبانی می کند.

Data Wrangler اکنون علاوه بر این از ستون ردیف بهینه شده (CRO، فرمت های فایل علامت گذاری شی جاوا اسکریپت (JSON) و خطوط JSON (JSONL):

  • CRO - فرمت فایل ORC روشی بسیار کارآمد برای ذخیره داده های Hive فراهم می کند. این برای غلبه بر محدودیت های دیگر فرمت های فایل Hive طراحی شده است. هنگامی که Hive در حال خواندن، نوشتن و پردازش داده ها است، استفاده از فایل های ORC عملکرد را بهبود می بخشد. ORC به طور گسترده در اکوسیستم Hadoop استفاده می شود.
  • JSON - فرمت فایل JSON یک فرمت تبادل داده سبک و معمولی است.
  • JSONL – خطوط JSON که JSON با خط جدید نیز نامیده می‌شود، فرمتی مناسب برای ذخیره داده‌های ساختاریافته است که ممکن است در یک زمان یک رکورد پردازش شوند.

می‌توانید پیش‌نمایش داده‌های ORC، JSON، و JSONL را قبل از وارد کردن مجموعه داده‌ها به Data Wrangler مشاهده کنید. پس از وارد کردن داده‌ها، می‌توانید از یکی از ترانسفورماتورهای تازه راه‌اندازی شده نیز برای کار با ستون‌هایی استفاده کنید که حاوی رشته‌ها یا آرایه‌های JSON هستند که معمولاً در JSON‌های تودرتو یافت می‌شوند.

وارد کردن و تجزیه و تحلیل داده های ORC با Data Wrangler

وارد کردن داده‌های ORC در Data Wrangler آسان است و شبیه به وارد کردن فایل‌ها در هر فرمت پشتیبانی‌شده دیگری است. به فایل ORC خود در آمازون S3 و در جزئیات در هنگام وارد کردن، ORC را به عنوان نوع فایل انتخاب کنید.

اگر با Data Wrangler تازه کار هستید، بررسی کنید با Data Wrangler شروع کنید. همچنین مشاهده کنید وارد كردن برای آشنایی با گزینه های مختلف واردات.

داده های JSON را با Data Wrangler وارد و تجزیه و تحلیل کنید

حالا بیایید فایل ها را با فرمت JSON با Data Wrangler وارد کنیم و با ستون هایی کار کنیم که حاوی رشته ها یا آرایه های JSON هستند. ما همچنین نحوه برخورد با JSON های تودرتو را نشان می دهیم. با Data Wrangler، وارد کردن فایل‌های JSON از Amazon S3 یک فرآیند یکپارچه است. این شبیه به وارد کردن فایل ها در هر فرمت پشتیبانی شده دیگر است. پس از وارد کردن فایل ها، می توانید پیش نمایش فایل های JSON را همانطور که در تصویر زیر نشان داده شده است مشاهده کنید. مطمئن شوید که نوع فایل را روی JSON تنظیم کنید جزئیات پنجره

بعد، بیایید روی ستون‌های ساختاریافته در فایل JSON وارد شده کار کنیم.

برای مقابله با ستون های ساخت یافته در فایل های JSON، Data Wrangler دو تبدیل جدید را معرفی می کند: ستون ساختار یافته را صاف کنید و منفجر شدن ستون آرایه، که در زیر یافت می شود دسته ساخت ستون گزینه در TRANSFORM را اضافه کنید پنجره

بیایید با اعمال آن شروع کنیم منفجر شدن ستون آرایه تبدیل به یکی از ستون های داده های وارد شده ما شود. قبل از اعمال تبدیل، می توانیم ستون را ببینیم topping آرایه ای از اشیاء JSON با id و type کلیدها

پس از اعمال تبدیل، می‌توانیم ردیف‌های جدید اضافه شده را مشاهده کنیم. هر عنصر در آرایه اکنون یک ردیف جدید در DataFrame ایجاد شده است.

حالا بیایید آن را اعمال کنیم ستون ساختار یافته را صاف کنید تبدیل بر روی topping_flattened ستونی که در نتیجه ایجاد شد منفجر شدن ستون آرایه تبدیلی که در مرحله قبل اعمال کردیم.

قبل از اعمال تبدیل، می توانیم کلیدها را ببینیم id و type در topping_flattened ستون.

پس از اعمال تبدیل، اکنون می توانیم کلیدها را مشاهده کنیم id و type تحت topping_flattened ستون به عنوان ستون های جدید topping_flattened_id و topping_flattened_type، که در نتیجه دگرگونی ایجاد می شوند. شما همچنین می توانید با وارد کردن نام کلیدهای جدا شده با کاما، فقط کلیدهای خاصی را مسطح کنید کلیدهایی برای صاف کردن. اگر خالی بماند، تمام کلیدهای داخل رشته یا ساختار JSON صاف می شوند.

نتیجه

در این پست، نحوه وارد کردن فرمت های فایل در ORC و JSON را به راحتی با Data Wrangler نشان دادیم. ما همچنین از تبدیل‌های تازه راه‌اندازی شده استفاده کردیم که به ما امکان می‌دهد هر ستون ساختاریافته را در داده‌های JSON تبدیل کنیم. این باعث می‌شود کار با ستون‌هایی که دارای رشته‌ها یا آرایه‌های JSON هستند، یک تجربه یکپارچه باشد.

به عنوان مراحل بعدی، توصیه می کنیم نمونه های نشان داده شده را در رابط بصری Data Wrangler خود تکرار کنید. اگر سوالی در رابطه با Data Wrangler دارید، در قسمت نظرات مطرح کنید.


درباره نویسنده

بالاجی توممالا مهندس توسعه نرم افزار در Amazon SageMaker است. او به پشتیبانی Amazon SageMaker Data Wrangler کمک می کند و علاقه زیادی به ساخت نرم افزارهای کارآمد و مقیاس پذیر دارد. در خارج از محل کار، او از خواندن داستان و بازی والیبال لذت می برد.

آرونپراسات شانکار یک معمار راه حل های تخصصی هوش مصنوعی و یادگیری ماشین (AI/ML) با AWS است که به مشتریان جهانی کمک می کند راه حل های هوش مصنوعی خود را به طور موثر و کارآمد در فضای ابری مقیاس کنند. آرون در اوقات فراغت خود از تماشای فیلم های علمی تخیلی و گوش دادن به موسیقی کلاسیک لذت می برد.

منبع: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

تمبر زمان:

بیشتر از وبلاگ یادگیری ماشین AWS