Amazon SageMaker Data Rangler یک قابلیت جدید از آمازون SageMaker این امر باعث می شود که دانشمندان و مهندسان داده سریعتر داده ها را برای برنامه های کاربردی یادگیری ماشین (ML) از طریق یک رابط بصری آماده کنند. آمادهسازی دادهها مرحلهای حیاتی از چرخه حیات ML است و Data Wrangler راهحلی سرتاسری برای وارد کردن، آمادهسازی، تبدیل، ویژهسازی و تجزیه و تحلیل دادهها برای ML در تجربهای یکپارچه، بصری و کمکد ارائه میکند. این به شما امکان می دهد به راحتی و به سرعت به اجزای AWS مانند سرویس ذخیره سازی ساده آمازون (Amazon S3) آمازون آتنا, آمازون Redshiftو سازند دریاچه AWSو منابع خارجی مانند Snowflake. Data Wrangler همچنین از انواع داده های استاندارد مانند CSV و Parquet پشتیبانی می کند.
Data Wrangler اکنون علاوه بر این از ستون ردیف بهینه شده (CRO، فرمت های فایل علامت گذاری شی جاوا اسکریپت (JSON) و خطوط JSON (JSONL):
- CRO - فرمت فایل ORC روشی بسیار کارآمد برای ذخیره داده های Hive فراهم می کند. این برای غلبه بر محدودیت های دیگر فرمت های فایل Hive طراحی شده است. هنگامی که Hive در حال خواندن، نوشتن و پردازش داده ها است، استفاده از فایل های ORC عملکرد را بهبود می بخشد. ORC به طور گسترده در اکوسیستم Hadoop استفاده می شود.
- JSON - فرمت فایل JSON یک فرمت تبادل داده سبک و معمولی است.
- JSONL – خطوط JSON که JSON با خط جدید نیز نامیده میشود، فرمتی مناسب برای ذخیره دادههای ساختاریافته است که ممکن است در یک زمان یک رکورد پردازش شوند.
میتوانید پیشنمایش دادههای ORC، JSON، و JSONL را قبل از وارد کردن مجموعه دادهها به Data Wrangler مشاهده کنید. پس از وارد کردن دادهها، میتوانید از یکی از ترانسفورماتورهای تازه راهاندازی شده نیز برای کار با ستونهایی استفاده کنید که حاوی رشتهها یا آرایههای JSON هستند که معمولاً در JSONهای تودرتو یافت میشوند.
وارد کردن و تجزیه و تحلیل داده های ORC با Data Wrangler
وارد کردن دادههای ORC در Data Wrangler آسان است و شبیه به وارد کردن فایلها در هر فرمت پشتیبانیشده دیگری است. به فایل ORC خود در آمازون S3 و در جزئیات در هنگام وارد کردن، ORC را به عنوان نوع فایل انتخاب کنید.
اگر با Data Wrangler تازه کار هستید، بررسی کنید با Data Wrangler شروع کنید. همچنین مشاهده کنید وارد كردن برای آشنایی با گزینه های مختلف واردات.
داده های JSON را با Data Wrangler وارد و تجزیه و تحلیل کنید
حالا بیایید فایل ها را با فرمت JSON با Data Wrangler وارد کنیم و با ستون هایی کار کنیم که حاوی رشته ها یا آرایه های JSON هستند. ما همچنین نحوه برخورد با JSON های تودرتو را نشان می دهیم. با Data Wrangler، وارد کردن فایلهای JSON از Amazon S3 یک فرآیند یکپارچه است. این شبیه به وارد کردن فایل ها در هر فرمت پشتیبانی شده دیگر است. پس از وارد کردن فایل ها، می توانید پیش نمایش فایل های JSON را همانطور که در تصویر زیر نشان داده شده است مشاهده کنید. مطمئن شوید که نوع فایل را روی JSON تنظیم کنید جزئیات پنجره
بعد، بیایید روی ستونهای ساختاریافته در فایل JSON وارد شده کار کنیم.
برای مقابله با ستون های ساخت یافته در فایل های JSON، Data Wrangler دو تبدیل جدید را معرفی می کند: ستون ساختار یافته را صاف کنید و منفجر شدن ستون آرایه، که در زیر یافت می شود دسته ساخت ستون گزینه در TRANSFORM را اضافه کنید پنجره
بیایید با اعمال آن شروع کنیم منفجر شدن ستون آرایه تبدیل به یکی از ستون های داده های وارد شده ما شود. قبل از اعمال تبدیل، می توانیم ستون را ببینیم topping
آرایه ای از اشیاء JSON با id
و type
کلیدها
پس از اعمال تبدیل، میتوانیم ردیفهای جدید اضافه شده را مشاهده کنیم. هر عنصر در آرایه اکنون یک ردیف جدید در DataFrame ایجاد شده است.
حالا بیایید آن را اعمال کنیم ستون ساختار یافته را صاف کنید تبدیل بر روی topping_flattened
ستونی که در نتیجه ایجاد شد منفجر شدن ستون آرایه تبدیلی که در مرحله قبل اعمال کردیم.
قبل از اعمال تبدیل، می توانیم کلیدها را ببینیم id
و type
در topping_flattened
ستون.
پس از اعمال تبدیل، اکنون می توانیم کلیدها را مشاهده کنیم id
و type
تحت topping_flattened
ستون به عنوان ستون های جدید topping_flattened_id
و topping_flattened_type
، که در نتیجه دگرگونی ایجاد می شوند. شما همچنین می توانید با وارد کردن نام کلیدهای جدا شده با کاما، فقط کلیدهای خاصی را مسطح کنید کلیدهایی برای صاف کردن. اگر خالی بماند، تمام کلیدهای داخل رشته یا ساختار JSON صاف می شوند.
نتیجه
در این پست، نحوه وارد کردن فرمت های فایل در ORC و JSON را به راحتی با Data Wrangler نشان دادیم. ما همچنین از تبدیلهای تازه راهاندازی شده استفاده کردیم که به ما امکان میدهد هر ستون ساختاریافته را در دادههای JSON تبدیل کنیم. این باعث میشود کار با ستونهایی که دارای رشتهها یا آرایههای JSON هستند، یک تجربه یکپارچه باشد.
به عنوان مراحل بعدی، توصیه می کنیم نمونه های نشان داده شده را در رابط بصری Data Wrangler خود تکرار کنید. اگر سوالی در رابطه با Data Wrangler دارید، در قسمت نظرات مطرح کنید.
درباره نویسنده
بالاجی توممالا مهندس توسعه نرم افزار در Amazon SageMaker است. او به پشتیبانی Amazon SageMaker Data Wrangler کمک می کند و علاقه زیادی به ساخت نرم افزارهای کارآمد و مقیاس پذیر دارد. در خارج از محل کار، او از خواندن داستان و بازی والیبال لذت می برد.
آرونپراسات شانکار یک معمار راه حل های تخصصی هوش مصنوعی و یادگیری ماشین (AI/ML) با AWS است که به مشتریان جهانی کمک می کند راه حل های هوش مصنوعی خود را به طور موثر و کارآمد در فضای ابری مقیاس کنند. آرون در اوقات فراغت خود از تماشای فیلم های علمی تخیلی و گوش دادن به موسیقی کلاسیک لذت می برد.
- '
- 100
- درباره ما
- AI
- معرفی
- آمازون
- آمازون SageMaker
- آپاچی
- برنامه های کاربردی
- مصنوعی
- هوش مصنوعی
- هوش مصنوعی و یادگیری ماشین
- AWS
- بنا
- ابر
- ستون
- مشتریان
- داده ها
- مقدار
- پروژه
- در طی
- به آسانی
- اکوسیستم
- مهندس
- مورد تأیید
- تجربه
- سریعتر
- داستان
- قالب
- یافت
- رایگان
- جهانی
- هادوپ
- کمک می کند
- خیلی
- کندو
- چگونه
- چگونه
- HTTPS
- واردات
- اطلاعات
- IT
- جاوا اسکریپت
- کلید
- کلید
- یاد گرفتن
- یادگیری
- استماع
- فراگیری ماشین
- ML
- فیلم ها
- موسیقی
- نام
- گزینه
- گزینه
- دیگر
- کارایی
- پیش نمایش
- روند
- فراهم می کند
- مطالعه
- توصیه
- رکورد
- این فایل نقد می نویسید:
- حکیم ساز
- مقیاس پذیر
- مقیاس
- دانشمندان
- بدون درز
- تنظیم
- مشابه
- ساده
- نرم افزار
- توسعه نرم افزار
- مزایا
- شروع
- آغاز شده
- ذخیره سازی
- opbevare
- پشتیبانی
- پشتیبانی
- پشتیبانی از
- زمان
- دگرگون کردن
- دگرگونی
- us
- به طور گسترده ای
- مهاجرت کاری
- کارگر
- نوشته