Amazon SageMaker Autopilot ব্যবহার করে বৃহৎ parquet datasets সহ AutoML পরীক্ষা চালান

উত্স নোড: 1596421

আজ থেকে, আপনি ব্যবহার করতে পারেন অ্যামাজন সেজমেকার অটোপাইলট 100 GB পর্যন্ত বড় ডেটাসেটে রিগ্রেশন এবং শ্রেণীবিভাগের কাজগুলি মোকাবেলা করতে। উপরন্তু, আপনি এখন আপনার ডেটাসেটগুলি CSV বা তে প্রদান করতে পারেন৷ Apache Parquet বিষয়বস্তুর প্রকার।

ব্যবসা আগের চেয়ে বেশি ডেটা তৈরি করছে। ব্যবসায়িক সিদ্ধান্তগুলিকে আকার দিতে এই বৃহৎ ডেটাসেটগুলি থেকে অন্তর্দৃষ্টি তৈরি করার জন্য একটি অনুরূপ চাহিদা বাড়ছে৷ যাইহোক, এই বৃহৎ ডেটাসেটে অত্যাধুনিক মেশিন লার্নিং (ML) অ্যালগরিদমকে সফলভাবে প্রশিক্ষণ দেওয়া চ্যালেঞ্জিং হতে পারে। অটোপাইলট এই প্রক্রিয়াটিকে স্বয়ংক্রিয় করে এবং 100 GB পর্যন্ত বড় ডেটাসেটে স্বয়ংক্রিয় মেশিন লার্নিং (AutoML) চালানোর জন্য একটি বিরামহীন অভিজ্ঞতা প্রদান করে।

অটোপাইলট স্বয়ংক্রিয়ভাবে আপনার বৃহৎ ডেটাসেটের নমুনা দেয় যাতে বিরল শ্রেণী সংরক্ষণ করা হয় শ্রেণীর ভারসাম্যহীনতা. ক্লাস ভারসাম্যহীনতা ML-এ সচেতন হওয়া একটি গুরুত্বপূর্ণ সমস্যা, বিশেষ করে যখন বড় ডেটাসেটের সাথে কাজ করা হয়। একটি জালিয়াতি সনাক্তকরণ ডেটাসেট বিবেচনা করুন যেখানে লেনদেনের একটি ছোট ভগ্নাংশই প্রতারণামূলক বলে আশা করা হয়। এই ক্ষেত্রে, অটোপাইলট বিরল শ্রেণী, জালিয়াতিপূর্ণ লেনদেন সংরক্ষণ করার সময় শুধুমাত্র সংখ্যাগরিষ্ঠ শ্রেণীর, অ-প্রতারণামূলক লেনদেনের নমুনা দেয়।

আপনি যখন অটোপাইলট ব্যবহার করে একটি অটোএমএল কাজ চালান, তখন সাবস্যাম্পিংয়ের জন্য সমস্ত প্রাসঙ্গিক তথ্য সংরক্ষণ করা হয় অ্যামাজন ক্লাউডওয়াচ. এর জন্য লগ গ্রুপে নেভিগেট করুন /aws/sagemaker/ProcessingJobs, আপনার অটোএমএল কাজের নাম অনুসন্ধান করুন এবং ক্লাউডওয়াচ লগ স্ট্রীমটি বেছে নিন যা অন্তর্ভুক্ত রয়েছে -db- এর নামে

আমাদের অনেক গ্রাহক তাদের বড় ডেটাসেট সংরক্ষণ করতে Parquet বিষয়বস্তুর ধরন পছন্দ করেন। এটি সাধারণত এর সংকুচিত প্রকৃতি, উন্নত ডেটা স্ট্রাকচারের জন্য সমর্থন, দক্ষতা এবং কম খরচের অপারেশনগুলির কারণে হয়। এই ডেটা প্রায়ই দশ বা এমনকি শত শত GBs পর্যন্ত পৌঁছাতে পারে। এখন, আপনি সরাসরি অটোপাইলটে এই Parquet ডেটাসেটগুলি আনতে পারেন৷ আপনি হয় আমাদের API ব্যবহার করতে পারেন বা নেভিগেট করতে পারেন৷ অ্যামাজন সেজমেকার স্টুডিও কয়েক ক্লিকে একটি অটোপাইলট কাজ তৈরি করতে। আপনি একটি একক ফাইল বা একটি ম্যানিফেস্ট ফাইল হিসাবে নির্দিষ্ট করা একাধিক ফাইল হিসাবে আপনার Parquet ডেটাসেটের ইনপুট অবস্থান নির্দিষ্ট করতে পারেন৷ অটোপাইলট স্বয়ংক্রিয়ভাবে আপনার ডেটাসেটের বিষয়বস্তুর ধরন সনাক্ত করে, এটিকে পার্স করে, অর্থপূর্ণ বৈশিষ্ট্যগুলি বের করে এবং একাধিক ML অ্যালগরিদম প্রশিক্ষণ দেয়।

আপনি আমাদের ব্যবহার শুরু করতে পারেন নমুনা নোটবুক Parquet ডেটাসেটে Autopilot ব্যবহার করে AutoML চালানোর জন্য।


লেখক সম্পর্কে

H. Furkan Bozkurt, মেশিন লার্নিং ইঞ্জিনিয়ার, আমাজন সেজমেকার অটোপাইলট।

ভ্যালেরিও পেরোন, ফলিত বিজ্ঞান ম্যানেজার, আমাজন সেজমেকার অটোপাইলট।

সূত্র: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং ব্লগ

চাহিদার পূর্বাভাস থেকে অর্ডার করা পর্যন্ত - স্টকআউট, অতিরিক্ত ইনভেন্টরি এবং খরচ কমাতে অ্যামাজন পূর্বাভাসের সাথে একটি স্বয়ংক্রিয় মেশিন লার্নিং পদ্ধতি

উত্স নোড: 1204383
সময় স্ট্যাম্প: মার্চ 12, 2021

Amazon SageMaker-এ Hugging Face Transformers ব্যবহার করে প্রশ্ন-উত্তর দেওয়ার জন্য একটি BERT বড় মডেলের ফাইন-টিউনিং বিতরণ করা হয়েছে

উত্স নোড: 1885069
সময় স্ট্যাম্প: জানুয়ারী 20, 2022

পাইটর্চ ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং অ্যাপ্লিকেশনগুলির জন্য এডাব্লুএস ইনফেরেন্টিয়ায় বাইরের বাইরে 12x উচ্চতর থ্রুপুট এবং সর্বনিম্ন বিলম্ব অর্জন করুন

উত্স নোড: 837419
সময় স্ট্যাম্প: 4 পারে, 2021

Amazon Recognition কাস্টম লেবেল ব্যবহার করে একটি কম্পিউটার ভিশন মডেল তৈরি করুন এবং একটি কাস্টম প্রশিক্ষিত TensorFlow মডেলের সাথে ফলাফলের তুলনা করুন

উত্স নোড: 1576512
সময় স্ট্যাম্প: ডিসেম্বর 15, 2021