Amazon SageMaker Autopilot کا استعمال کرتے ہوئے بڑے پارکیٹ ڈیٹاسیٹس کے ساتھ AutoML تجربات چلائیں۔

ماخذ نوڈ: 1596421

آج سے، آپ استعمال کر سکتے ہیں۔ ایمیزون سیج میکر آٹو پائلٹ 100 GB تک کے بڑے ڈیٹا سیٹس پر رجعت اور درجہ بندی کے کاموں سے نمٹنے کے لیے۔ مزید برآں، اب آپ اپنے ڈیٹا سیٹس کو CSV یا میں فراہم کر سکتے ہیں۔ اپاچی پارکیٹ مواد کی اقسام

کاروبار پہلے سے کہیں زیادہ ڈیٹا تیار کر رہے ہیں۔ کاروباری فیصلوں کی شکل دینے کے لیے ان بڑے ڈیٹا سیٹس سے بصیرت پیدا کرنے کے لیے اسی طرح کی مانگ بڑھ رہی ہے۔ تاہم، ان بڑے ڈیٹا سیٹس پر جدید ترین مشین لرننگ (ML) الگورتھم کو کامیابی سے تربیت دینا مشکل ہو سکتا ہے۔ آٹو پائلٹ اس عمل کو خودکار کرتا ہے اور 100 GB تک کے بڑے ڈیٹا سیٹس پر خودکار مشین لرننگ (AutoML) چلانے کے لیے ایک ہموار تجربہ فراہم کرتا ہے۔

آٹو پائلٹ آپ کے بڑے ڈیٹاسیٹس کو خود بخود ذیلی نمونے دیتا ہے تاکہ زیادہ سے زیادہ تائید شدہ حد تک فٹ ہو جائے جبکہ نایاب طبقے کو محفوظ رکھتے ہوئے طبقاتی عدم توازن. طبقاتی عدم توازن ایک اہم مسئلہ ہے جس کے بارے میں ML میں آگاہ ہونا ضروری ہے، خاص طور پر جب بڑے ڈیٹا سیٹس سے نمٹ رہے ہوں۔ دھوکہ دہی کا پتہ لگانے والے ڈیٹاسیٹ پر غور کریں جہاں لین دین کے صرف ایک چھوٹے سے حصے کے دھوکہ دہی کی توقع کی جاتی ہے۔ اس صورت میں، آٹو پائلٹ صرف اکثریتی طبقے، غیر فراڈ لین دین کے نمونے دیتا ہے، جبکہ نایاب طبقے کو محفوظ رکھتا ہے، دھوکہ دہی والے لین دین۔

جب آپ آٹو پائلٹ کا استعمال کرتے ہوئے آٹو ایم ایل جاب چلاتے ہیں تو سب سیمپلنگ کے لیے تمام متعلقہ معلومات اس میں محفوظ ہوجاتی ہیں۔ ایمیزون کلاؤڈ واچ. کے لیے لاگ گروپ پر جائیں۔ /aws/sagemaker/ProcessingJobs، اپنی آٹو ایم ایل جاب کا نام تلاش کریں، اور کلاؤڈ واچ لاگ اسٹریم کا انتخاب کریں جس میں شامل ہے۔ -db- اس کے نام پر

ہمارے بہت سے صارفین اپنے بڑے ڈیٹا سیٹس کو ذخیرہ کرنے کے لیے Parquet مواد کی قسم کو ترجیح دیتے ہیں۔ یہ عام طور پر اس کی کمپریسڈ نوعیت، اعلی درجے کے ڈیٹا ڈھانچے کے لیے تعاون، کارکردگی، اور کم لاگت والے آپریشنز کی وجہ سے ہوتا ہے۔ یہ ڈیٹا اکثر دسیوں یا یہاں تک کہ سینکڑوں GBs تک پہنچ سکتا ہے۔ اب، آپ ان پارکیٹ ڈیٹاسیٹس کو براہ راست آٹو پائلٹ پر لا سکتے ہیں۔ آپ یا تو ہمارا API استعمال کر سکتے ہیں یا نیویگیٹ کر سکتے ہیں۔ ایمیزون سیج میکر اسٹوڈیو چند کلکس کے ساتھ آٹو پائلٹ جاب بنانے کے لیے۔ آپ اپنے Parquet ڈیٹاسیٹ کے ان پٹ لوکیشن کو ایک فائل کے طور پر یا ایک سے زیادہ فائلوں کو ایک مینی فیسٹ فائل کے طور پر بتا سکتے ہیں۔ آٹو پائلٹ خود بخود آپ کے ڈیٹاسیٹ کے مواد کی قسم کا پتہ لگاتا ہے، اس کی تجزیہ کرتا ہے، معنی خیز خصوصیات نکالتا ہے، اور متعدد ML الگورتھم کو تربیت دیتا ہے۔

آپ ہمارا استعمال شروع کر سکتے ہیں۔ نمونہ نوٹ بک پارکیٹ ڈیٹاسیٹس پر آٹو پائلٹ کا استعمال کرتے ہوئے آٹو ایم ایل چلانے کے لیے۔


مصنفین کے بارے میں

H. Furkan Bozkurt، مشین لرننگ انجینئر، ایمیزون سیج میکر آٹو پائلٹ۔

ویلیریو پیرون، اپلائیڈ سائنس مینیجر، ایمیزون سیج میکر آٹو پائلٹ۔

ماخذ: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ بلاگ