চ্যাটবট এবং ভার্চুয়াল সহকারী থেকে শুরু করে মেশিন অনুবাদ এবং পাঠ্য সংক্ষিপ্তকরণ পর্যন্ত বিস্তৃত ব্যবহারের ক্ষেত্রে প্রাকৃতিক ভাষা বোঝার প্রয়োগ করা হয়। এই অ্যাপ্লিকেশনগুলি কর্মক্ষমতার প্রত্যাশিত স্তরে চলছে তা নিশ্চিত করার জন্য, প্রশিক্ষণ এবং উত্পাদন পরিবেশে ডেটা একই বিতরণ থেকে আসা গুরুত্বপূর্ণ। যখন অনুমানের জন্য ব্যবহৃত ডেটা (উৎপাদন ডেটা) মডেল প্রশিক্ষণের সময় ব্যবহৃত ডেটা থেকে পৃথক হয়, তখন আমরা ডেটা ড্রিফ্ট নামে পরিচিত একটি ঘটনার সম্মুখীন হই। যখন ডেটা ড্রিফ্ট ঘটে, মডেলটি আর উৎপাদনে থাকা ডেটার সাথে প্রাসঙ্গিক থাকে না এবং সম্ভবত প্রত্যাশিত থেকে খারাপ কাজ করে। অনুমান ডেটা ক্রমাগত নিরীক্ষণ করা এবং প্রশিক্ষণের সময় ব্যবহৃত ডেটার সাথে তুলনা করা গুরুত্বপূর্ণ।
তুমি ব্যবহার করতে পার আমাজন সেজমেকার যেকোন স্কেলে মেশিন লার্নিং (ML) মডেল দ্রুত তৈরি, প্রশিক্ষণ এবং স্থাপন করতে। মডেল অবক্ষয়ের বিরুদ্ধে একটি সক্রিয় পরিমাপ হিসাবে, আপনি ব্যবহার করতে পারেন অ্যামাজন সেজমেকার মডেল মনিটর রিয়েল টাইমে আপনার এমএল মডেলের গুণমান ক্রমাগত নিরীক্ষণ করতে। মডেল মনিটরের সাথে, আপনি যদি মডেলের কর্মক্ষমতাতে কোনো ড্রিফ্ট পরিলক্ষিত হয় তবে আপনি বিজ্ঞপ্তি এবং অ্যাকশন ট্রিগার করতে সতর্কতা কনফিগার করতে পারেন। এই বিচ্যুতিগুলির প্রাথমিক এবং সক্রিয় সনাক্তকরণ আপনাকে সংশোধনমূলক পদক্ষেপ নিতে সক্ষম করে, যেমন নতুন গ্রাউন্ড ট্রুথ ট্রেনিং ডেটা সংগ্রহ করা, মডেল পুনঃপ্রশিক্ষণ দেওয়া এবং আপস্ট্রিম সিস্টেমের অডিট করা, ম্যানুয়ালি মডেলগুলি নিরীক্ষণ বা অতিরিক্ত টুলিং তৈরি না করে।
মডেল মনিটর রিয়েল টাইমে মডেল ড্রিফ্ট সনাক্ত করতে এবং প্রশমিত করতে চারটি বিভিন্ন ধরণের পর্যবেক্ষণ ক্ষমতা সরবরাহ করে:
- উপাত্ত গুণমান - একটি ড্রিফ্ট সনাক্ত করা হলে ডেটা স্কিমা এবং স্বাধীন ভেরিয়েবল এবং সতর্কতার পরিসংখ্যানগত বৈশিষ্ট্যগুলির পরিবর্তন সনাক্ত করতে সহায়তা করে।
- মডেল গুণমান - বাস্তব সময়ে যথার্থতা বা নির্ভুলতার মতো মডেলের কার্যকারিতা বৈশিষ্ট্যগুলি পর্যবেক্ষণের জন্য, মডেল মনিটর আপনাকে আপনার অ্যাপ্লিকেশনগুলি থেকে সংগৃহীত গ্রাউন্ড ট্রুথ লেবেলগুলি গ্রহণ করতে দেয়৷ মডেল মনিটর স্বয়ংক্রিয়ভাবে মডেল পারফরম্যান্স মেট্রিক্স গণনা করতে ভবিষ্যদ্বাণী ডেটার সাথে গ্রাউন্ড ট্রুথ তথ্য একত্রিত করে।
- মডেল পক্ষপাত -মডেল মনিটরের সাথে একত্রিত করা হয়েছে আমাজন সেজমেকার স্পষ্ট করুন সম্ভাব্য পক্ষপাতের মধ্যে দৃশ্যমানতা উন্নত করতে। যদিও আপনার প্রাথমিক ডেটা বা মডেলটি পক্ষপাতদুষ্ট নাও হতে পারে, বিশ্বের পরিবর্তনগুলি সময়ের সাথে সাথে এমন একটি মডেলে পক্ষপাতিত্ব তৈরি করতে পারে যা ইতিমধ্যেই প্রশিক্ষিত হয়েছে৷
- মডেল ব্যাখ্যাযোগ্যতা - বৈশিষ্ট্য বৈশিষ্ট্যের আপেক্ষিক গুরুত্বের মধ্যে একটি পরিবর্তন ঘটলে ড্রিফ্ট সনাক্তকরণ আপনাকে সতর্ক করে।
এই পোস্টে, আমরা টেক্সট ডেটার ক্ষেত্রে প্রযোজ্য ডেটা কোয়ালিটি ড্রিফটের ধরন নিয়ে আলোচনা করব। আমরা মডেল মনিটর ব্যবহার করে পাঠ্য ডেটাতে ডেটা ড্রিফ্ট সনাক্ত করার জন্য একটি পদ্ধতিও উপস্থাপন করি।
এনএলপিতে ডেটা ড্রিফ্ট
ডিস্ট্রিবিউশন শিফ্ট ইনপুট বা আউটপুট দিকে ঘটছে কিনা বা ইনপুট এবং আউটপুটের মধ্যে সম্পর্ক পরিবর্তিত হয়েছে কিনা তার উপর নির্ভর করে ডেটা ড্রিফ্টকে তিনটি বিভাগে শ্রেণীবদ্ধ করা যেতে পারে।
Covariate স্থানান্তর
একটি ইন covariate স্থানান্তর, ইনপুট বিতরণ সময়ের সাথে পরিবর্তিত হয়, কিন্তু শর্তসাপেক্ষ বন্টন P(y|x) পরিবর্তন হয় না এই ধরনের ড্রিফটকে কোভারিয়েট শিফট বলা হয় কারণ কোভেরিয়েট (বৈশিষ্ট্য) বণ্টনে পরিবর্তনের কারণে সমস্যা দেখা দেয়। উদাহরণস্বরূপ, একটি ইমেল স্প্যাম শ্রেণিবিন্যাস মডেলে, প্রশিক্ষণের ডেটা বিতরণ (ইমেল কর্পোরা) স্কোরিংয়ের সময় ডেটা বিতরণ থেকে বিচ্ছিন্ন হতে পারে।
লেবেল স্থানান্তর
যখন কোভেরিয়েট শিফট বৈশিষ্ট্য বন্টনের পরিবর্তনের উপর দৃষ্টি নিবদ্ধ করে, লেবেল স্থানান্তর ক্লাস ভেরিয়েবলের বন্টনের পরিবর্তনের উপর ফোকাস করে। এই ধরনের স্থানান্তর মূলত কোভারিয়েট শিফটের বিপরীত। এটি সম্পর্কে চিন্তা করার একটি স্বজ্ঞাত উপায় একটি ভারসাম্যহীন ডেটাসেট বিবেচনা করা হতে পারে। যদি আমাদের প্রশিক্ষণ সেটে ইমেলের স্প্যাম থেকে নন-স্প্যাম অনুপাত 50% হয়, কিন্তু বাস্তবে আমাদের 10% ইমেল স্প্যাম নয়, তাহলে লক্ষ্য লেবেল বিতরণ স্থানান্তরিত হয়েছে।
ধারণার পরিবর্তন
ধারণার পরিবর্তন কোভেরিয়েট এবং লেবেল শিফট থেকে আলাদা যে এটি ডেটা বিতরণ বা শ্রেণি বিতরণের সাথে সম্পর্কিত নয়, বরং দুটি ভেরিয়েবলের মধ্যে সম্পর্কের সাথে সম্পর্কিত। উদাহরণস্বরূপ, ইমেল স্প্যামাররা প্রায়ই স্প্যাম ফিল্টার মডেলগুলি পাস করার জন্য বিভিন্ন ধারণা ব্যবহার করে এবং প্রশিক্ষণের সময় ব্যবহৃত ইমেলের ধারণা সময়ের সাথে সাথে পরিবর্তিত হতে পারে।
এখন যেহেতু আমরা বিভিন্ন ধরনের ডেটা ড্রিফ্ট বুঝতে পেরেছি, আসুন দেখি কিভাবে আমরা মডেল মনিটর ব্যবহার করে টেক্সট ডেটাতে কোভারিয়েট শিফট সনাক্ত করতে পারি।
সমাধান ওভারভিউ
টেবুলার ডেটার বিপরীতে, যা স্ট্রাকচার্ড এবং বাউন্ডেড, পাঠ্য ডেটা জটিল, উচ্চমাত্রিক এবং মুক্ত ফর্ম। এনএলপিতে ড্রিফটকে দক্ষতার সাথে সনাক্ত করতে, আমরা এর সাথে কাজ করি এমবেডিং, যা পাঠ্যের নিম্ন-মাত্রিক উপস্থাপনা। আপনি বিভিন্ন ভাষার মডেল যেমন Word2Vec এবং ট্রান্সফরমার-ভিত্তিক মডেলগুলি ব্যবহার করে এমবেডিং পেতে পারেন বার্ট. এই মডেলগুলি পাঠ্যের শব্দার্থিক তথ্য সংরক্ষণ করার সময় নিম্ন-মাত্রিক স্থানগুলিতে উচ্চ-মাত্রিক ডেটা প্রজেক্ট করে। ফলাফলগুলি ঘন এবং প্রাসঙ্গিকভাবে অর্থপূর্ণ ভেক্টর, যা ডাটা ড্রিফ্টের জন্য পর্যবেক্ষণ সহ বিভিন্ন ডাউনস্ট্রিম কাজের জন্য ব্যবহার করা যেতে পারে।
আমাদের সমাধানে, আমরা ইংরেজি বাক্যের কোভারিয়েট শিফট সনাক্ত করতে এমবেডিং ব্যবহার করি। আমরা মডেল মনিটর ব্যবহার করি একটি টেক্সট ক্লাসিফায়ারের জন্য ক্রমাগত পর্যবেক্ষণের সুবিধার জন্য যা একটি উৎপাদন পরিবেশে স্থাপন করা হয়। আমাদের পদ্ধতি নিম্নলিখিত পদক্ষেপ নিয়ে গঠিত:
- SageMaker ব্যবহার করে একটি BERT মডেল ফাইন-টিউন করুন।
- এর সাথে একটি রিয়েল-টাইম এন্ডপয়েন্ট হিসাবে একটি সূক্ষ্ম-টিউনড BERT শ্রেণীবিভাগ স্থাপন করুন তথ্য সংগ্রহ সক্ষম করা হয়েছে।
- একটি বেসলাইন ডেটাসেট তৈরি করুন যা BERT ক্লাসিফায়ারকে প্রশিক্ষণের জন্য ব্যবহৃত বাক্যগুলির একটি নমুনা নিয়ে গঠিত।
- একটা তৈরি কর কাস্টম SageMaker মনিটরিং কাজ উৎপাদনে ক্যাপচার করা ডেটা এবং বেসলাইন ডেটাসেটের মধ্যে কোসাইন সাদৃশ্য গণনা করতে।
নিম্নলিখিত চিত্রটি সমাধান কর্মপ্রবাহকে চিত্রিত করে:
একটি BERT মডেল ফাইন-টিউন
এই পোস্টে, আমরা ব্যবহার ভাষাগত গ্রহণযোগ্যতার কর্পাস (CoLA), প্রকাশিত ভাষাবিজ্ঞান সাহিত্য থেকে ব্যাকরণগত বা ব্যাকরণগত হিসাবে লেবেলযুক্ত 10,657টি ইংরেজি বাক্যের একটি ডেটাসেট। আমরা PyTorch এস্টিমেটর ক্লাস সংজ্ঞায়িত করে CoLa ডেটাসেট ব্যবহার করে একটি BERT মডেলকে সূক্ষ্ম-টিউন করতে SageMaker প্রশিক্ষণ ব্যবহার করি। PyTorch এর সাথে এই SDK কীভাবে ব্যবহার করবেন সে সম্পর্কে আরও তথ্যের জন্য, দেখুন সেজমেকার পাইথন এসডিকে দিয়ে পাইটর্চ ব্যবহার করুন. কলিং fit()
অনুমানকারীর পদ্ধতি প্রশিক্ষণ কাজ চালু করে:
মডেল মোতায়েন করুন
আমাদের মডেলকে প্রশিক্ষণ দেওয়ার পরে, আমরা এটিকে সেজমেকার এন্ডপয়েন্টে হোস্ট করি। এন্ডপয়েন্টটিকে মডেল লোড করতে এবং ভবিষ্যদ্বাণী পরিবেশন করতে, আমরা কয়েকটি পদ্ধতি প্রয়োগ করি train_deploy.py:
- মডেল_ফএন () - সংরক্ষিত মডেলটি লোড করে এবং একটি মডেল অবজেক্ট ফেরত দেয় যা মডেল পরিবেশনার জন্য ব্যবহৃত হতে পারে। সেজমেকার পাইটর্চ মডেল সার্ভারটি অনুরোধ করে আমাদের মডেলটি লোড করে
model_fn
. - ইনপুট_ফএন () - পূর্বাভাস ইনপুটকে বিশৃঙ্খলা তৈরি করে এবং প্রস্তুত করে। এই উদাহরণে, আমাদের অনুরোধের বডিটি প্রথমে জেএসএনে সিরিয়ালীকৃত হয় এবং তারপরে মডেল পরিবেশন করা শেষের পয়েন্টে প্রেরণ করা হয়। সুতরাং, ভিতরে
input_fn()
, আমরা প্রথমে JSON- ফর্ম্যাট করা অনুরোধের বডিটি ডিজিয়ালাইজ করি এবং ইনপুটটিকে হিসাবে হিসাবে ফিরে পাইtorch.tensor
, BERT এর জন্য প্রয়োজনীয়। - পূর্বাভাস_ফএন () - ভবিষ্যদ্বাণী সম্পাদন করে এবং ফলাফল প্রদান করে।
মডেল মনিটর ডেটা ক্যাপচার সক্ষম করুন৷
আমরা সক্ষম করি মডেল মনিটর ডেটা ক্যাপচার ইনপুট তথ্য রেকর্ড করতে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) পরে এটি উল্লেখ করার জন্য বালতি:
তারপরে আমরা পূর্ববর্তী ধাপে তৈরি মডেলের সাথে একটি রিয়েল-টাইম সেজমেকার এন্ডপয়েন্ট তৈরি করি:
অনুমিতি
আমরা পূর্ববর্তী ধাপে তৈরি করা ভবিষ্যদ্বাণীকারী বস্তু ব্যবহার করে ভবিষ্যদ্বাণী চালাই। আমরা JSON সিরিয়ালাইজার এবং ডিসিরিয়ালাইজার সেট করি, যা ইনফারেন্স এন্ডপয়েন্ট দ্বারা ব্যবহৃত হয়:
রিয়েল-টাইম এন্ডপয়েন্টটি অনুরোধ থেকে ডেটা ক্যাপচার করার জন্য কনফিগার করা হয়েছে এবং প্রতিক্রিয়া এবং ডেটা Amazon S3 এ সংরক্ষণ করা হয়। পূর্ববর্তী পর্যবেক্ষণ সময়সূচীতে ক্যাপচার করা ডেটা আপনি দেখতে পারেন।
একটি বেসলাইন তৈরি করুন
প্রশিক্ষণের ডেটা থেকে বাক্য এমবেডিং বৈশিষ্ট্যগুলি বের করতে আমরা একটি সূক্ষ্ম-টিউনড BERT মডেল ব্যবহার করি। কোসাইন দূরত্ব তুলনা করার জন্য আমরা এই ভেক্টরগুলিকে উচ্চ-মানের বৈশিষ্ট্য ইনপুট হিসাবে ব্যবহার করি কারণ BERT শব্দার্থিক প্রসঙ্গ সহ গতিশীল শব্দ উপস্থাপনা তৈরি করে। বাক্য এমবেডিং পেতে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- প্রতিটি টোকেনের জন্য টোকেন আইডি পেতে একটি BERT টোকেনাইজার ব্যবহার করুন (
input_id
) ইনপুট বাক্যে এবং মুখোশ নির্দেশ করতে ইনপুট অনুক্রমের কোন উপাদানগুলি টোকেন বনাম প্যাডিং উপাদান (attention_mask_id
) আমরা BERT ব্যবহার করিtokenizer.encode_plus
প্রতিটি ইনপুট বাক্যের জন্য এই মানগুলি পেতে ফাংশন:
input_ids
এবং attention_mask_ids
মডেলে পাস করা হয় এবং নেটওয়ার্কের লুকানো অবস্থা নিয়ে আসে। দ্য hidden_states
নিম্নলিখিত ক্রমে চারটি মাত্রা আছে:
- স্তর সংখ্যা (BERT এর 12 স্তর রয়েছে)
- ব্যাচ নম্বর (1 বাক্য)
- শব্দ টোকেন সূচক
- লুকানো ইউনিট (৭৬৮ বৈশিষ্ট্য)
- বাক্যটিতে সমস্ত ইনপুট টোকেনের গড় গণনা করে একটি একক ভেক্টর (বাক্য এম্বেডিং) পেতে শেষ দুটি লুকানো স্তর ব্যবহার করুন:
- বাক্য এমবেডিংকে NumPy অ্যারে হিসাবে রূপান্তর করুন এবং এটিকে একটি Amazon S3 অবস্থানে একটি বেসলাইন হিসাবে সংরক্ষণ করুন যা মডেল মনিটর দ্বারা ব্যবহৃত হয়:
মূল্যায়ন স্ক্রিপ্ট
মডেল মনিটর ট্যাবুলার ডেটাসেটের জন্য শেষ পয়েন্ট থেকে ক্যাপচার করা ডেটা বিশ্লেষণ করার ক্ষমতা সহ একটি পূর্ব-নির্মিত ধারক সরবরাহ করে। আপনি যদি নিজের ধারক আনতে চান, মডেল মনিটর এক্সটেনশন পয়েন্ট প্রদান করে যা আপনি ব্যবহার করতে পারেন। আপনি যখন একটি তৈরি করুন MonitoringSchedule
, মডেল মনিটর শেষ পর্যন্ত প্রক্রিয়াকরণের কাজ বন্ধ করে দেয়। অতএব, কন্টেইনারকে প্রসেসিং কাজের চুক্তি সম্পর্কে সচেতন হতে হবে। আমাদের একটি মূল্যায়ন স্ক্রিপ্ট তৈরি করতে হবে যা কন্টেইনারের সাথে সামঞ্জস্যপূর্ণ চুক্তি ইনপুট এবং আউটপুট.
মডেল মনিটর নিরীক্ষণ সময়সূচীর সময় ক্যাপচার করা সমস্ত নমুনায় মূল্যায়ন কোড ব্যবহার করে। প্রতিটি অনুমান ডেটা পয়েন্টের জন্য, আমরা পূর্বে বর্ণিত একই যুক্তি ব্যবহার করে বাক্য এমবেডিং গণনা করি। কোসাইন সাদৃশ্য একটি অনুমান ডেটা পয়েন্ট এবং বেসলাইনে বাক্য এম্বেডিংয়ের মিল পরিমাপ করতে দূরত্ব মেট্রিক হিসাবে ব্যবহৃত হয়। গাণিতিকভাবে, এটি দুটি বাক্যের এম্বেডিং ভেক্টরের মধ্যে কোসাইন কোণ পরিমাপ করে। একটি উচ্চ কোসাইন সাদৃশ্য স্কোর অনুরূপ বাক্য এমবেডিং নির্দেশ করে। একটি কম কোসাইন সাদৃশ্য স্কোর ডেটা প্রবাহ নির্দেশ করে। আমরা সমস্ত কোসাইন সাদৃশ্য স্কোরগুলির গড় গণনা করি এবং যদি এটি থ্রেশহোল্ডের চেয়ে কম হয় তবে এটি লঙ্ঘন প্রতিবেদনে ধরা পড়ে। ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে, আপনি অন্যান্য দূরত্ব মেট্রিক্স ব্যবহার করতে পারেন যেমন manhattan
or euclidean
বাক্যের এম্বেডিংয়ের মিল পরিমাপ করতে।
নীচের চিত্রটি দেখায় যে আমরা কীভাবে বেসলাইন স্থাপন করতে এবং কোসাইন দূরত্বের সাদৃশ্য ব্যবহার করে ডেটা ড্রিফ্ট সনাক্ত করতে সেজমেকার মডেল মনিটরিং ব্যবহার করি।
লঙ্ঘন গণনা করার জন্য নিম্নলিখিত কোড; সম্পূর্ণ মূল্যায়ন স্ক্রিপ্ট পাওয়া যায় GitHub:
মডেল মনিটর ব্যবহার করে ডেটা প্রবাহ পরিমাপ করুন
এই বিভাগে, আমরা মডেল মনিটর ব্যবহার করে ডেটা প্রবাহ পরিমাপের উপর ফোকাস করি। মডেল মনিটর প্রাক-নির্মিত মনিটর দ্বারা চালিত হয় Deequ, যা ডেটার জন্য ইউনিট পরীক্ষা সংজ্ঞায়িত করার জন্য Apache Spark-এর উপরে নির্মিত একটি লাইব্রেরি, যা বড় ডেটাসেটে ডেটার গুণমান পরিমাপ করে। এই প্রাক-নির্মিত পর্যবেক্ষণ ক্ষমতাগুলি ব্যবহার করার জন্য আপনাকে কোডিংয়ের প্রয়োজন নেই। আপনি কাস্টম বিশ্লেষণ প্রদান করার জন্য কোডিং দ্বারা মডেল নিরীক্ষণ করার নমনীয়তা আছে. আপনি মডেল মনিটর দ্বারা নির্গত সমস্ত মেট্রিক্স সংগ্রহ এবং পর্যালোচনা করতে পারেন অ্যামাজন সেজমেকার স্টুডিও, তাই আপনি অতিরিক্ত কোড না লিখে আপনার মডেলের কর্মক্ষমতা দৃশ্যত বিশ্লেষণ করতে পারেন।
নির্দিষ্ট পরিস্থিতিতে, উদাহরণস্বরূপ, যখন ডেটা অ-টেবুলার হয়, তখন ডিফল্ট প্রক্রিয়াকরণ কাজ (এর দ্বারা চালিত Deequ) যথেষ্ট নয় কারণ এটি শুধুমাত্র ট্যাবুলার ডেটাসেট সমর্থন করে। প্রি-নির্মিত মনিটরগুলি ড্রিফ্ট সনাক্ত করার জন্য অত্যাধুনিক মেট্রিক্স তৈরি করার জন্য যথেষ্ট নাও হতে পারে এবং আপনার নিজস্ব মেট্রিক্স আনার প্রয়োজন হতে পারে। পরবর্তী বিভাগে, আমরা একটি কাস্টম কন্টেইনার তৈরি করে আপনার মেট্রিক্স আনতে সেটআপ বর্ণনা করি।
কাস্টম মডেল মনিটর কন্টেইনার তৈরি করুন
আমরা ব্যবহার করি মূল্যায়ন স্ক্রিপ্ট পূর্ববর্তী বিভাগ থেকে একটি ডকার কন্টেইনার তৈরি করতে এবং এটিতে ধাক্কা দিন অ্যামাজন ইলাস্টিক কনটেইনার রেজিস্ট্রি (আমাজন ইসিআর):
যখন গ্রাহক ডকার কন্টেইনার অ্যামাজন ইসিআর-এ থাকে, আমরা একটি মডেল মনিটরিং কাজের সময় নির্ধারণ করতে পারি এবং একটি লঙ্ঘন প্রতিবেদন তৈরি করতে পারি, যেমনটি পরবর্তী বিভাগে প্রদর্শিত হয়েছে।
একটি মডেল পর্যবেক্ষণ কাজের সময়সূচী
একটি মডেল মনিটরিং কাজের সময়সূচী করার জন্য, আমরা মডেল মনিটর এবং এর মধ্যে একটি উদাহরণ তৈরি করি image_uri
, আমরা আগের বিভাগে তৈরি করা ডকার কন্টেইনারটি উল্লেখ করি:
আমরা ব্যবহার করে পর্যবেক্ষণ কাজের সময়সূচী create_monitoring_schedule
এপিআই. আপনি প্রতি ঘন্টায় বা দৈনিক ভিত্তিতে মনিটরিং কাজের সময় নির্ধারণ করতে পারেন। আপনি ব্যবহার করে কাজ কনফিগার করুন destination
পরামিতি, নিম্নলিখিত কোডে দেখানো হয়েছে:
পর্যবেক্ষণের সময়সূচী এবং এর রানগুলি বর্ণনা এবং তালিকাভুক্ত করতে, আপনি নিম্নলিখিত কমান্ডগুলি ব্যবহার করতে পারেন:
ডেটা প্রবাহ লঙ্ঘনের প্রতিবেদন
মডেল মনিটরিং কাজ সম্পূর্ণ হলে, আপনি লঙ্ঘন প্রতিবেদনগুলি অ্যাক্সেস করতে গন্তব্য S3 পাথে নেভিগেট করতে পারেন। এই রিপোর্টে সমস্ত ইনপুট রয়েছে যার গড় কোসাইন স্কোর (avg_cosine_score
) একটি পরিবেশ পরিবর্তনশীল হিসাবে কনফিগার করা প্রান্তিকের নীচে THRESHOLD:0.5
মধ্যে মডেল মনিটর দৃষ্টান্ত. এটি একটি ইঙ্গিত যে অনুমানের সময় পর্যবেক্ষণ করা ডেটা প্রতিষ্ঠিত বেসলাইনের বাইরে চলে যাচ্ছে।
নিম্নলিখিত কোড উত্পন্ন লঙ্ঘন রিপোর্ট দেখায়:
অবশেষে, এই পর্যবেক্ষণের উপর ভিত্তি করে, আপনি পুনরায় প্রশিক্ষণের জন্য আপনার মডেল কনফিগার করতে পারেন। আপনিও সক্ষম করতে পারেন অ্যামাজন সাধারণ বিজ্ঞপ্তি পরিষেবা লঙ্ঘন ঘটলে সতর্কবার্তা পাঠাতে (Amazon SNS) বিজ্ঞপ্তি।
উপসংহার
মডেল মনিটর আপনাকে উত্পাদনে আপনার মডেলগুলির উচ্চ গুণমান বজায় রাখতে সক্ষম করে। এই পোস্টে, আমরা পাঠ্যের মতো অসংগঠিত ডেটাতে ডেটা ড্রিফ্ট নিরীক্ষণের চ্যালেঞ্জগুলি হাইলাইট করেছি এবং একটি কাস্টম মনিটরিং স্ক্রিপ্ট ব্যবহার করে ডেটা ড্রিফ্ট সনাক্ত করার জন্য একটি স্বজ্ঞাত পদ্ধতি প্রদান করেছি। আপনি নিম্নলিখিত পোস্টের সাথে যুক্ত কোড খুঁজে পেতে পারেন GitHub সংগ্রহস্থল. উপরন্তু, আপনি অন্যান্য দূরত্ব মেট্রিক্স যেমন ব্যবহার করার জন্য সমাধানটি কাস্টমাইজ করতে পারেন সর্বাধিক গড় পার্থক্য (এমএমডি), একটি নন-প্যারামেট্রিক দূরত্ব মেট্রিক যা এমবেডেড স্পেসে উৎস এবং লক্ষ্য বন্টনের মধ্যে প্রান্তিক বন্টন গণনা করে।
লেখক সম্পর্কে
বিক্রম এলাঙ্গো ভার্জিনিয়া, মার্কিন যুক্তরাষ্ট্রে অবস্থিত অ্যামাজন ওয়েব সার্ভিসেসের একজন এআই/এমএল বিশেষজ্ঞ সমাধান স্থপতি। বিক্রম আর্থিক এবং বীমা শিল্পের গ্রাহকদের ডিজাইন, চিন্তার নেতৃত্ব দিয়ে মেশিন লার্নিং অ্যাপ্লিকেশন তৈরি এবং স্থাপন করতে সাহায্য করে। তিনি বর্তমানে ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং, দায়িত্বশীল এআই, ইনফারেন্স অপ্টিমাইজেশান এবং এন্টারপ্রাইজ জুড়ে এমএল স্কেলিং এর উপর দৃষ্টি নিবদ্ধ করছেন। তার অবসর সময়ে, তিনি তার পরিবারের সাথে ভ্রমণ, হাইকিং, রান্না এবং ক্যাম্পিং উপভোগ করেন।
রঘু রমেশা অ্যামাজন সেজমেকার সার্ভিস টিমের সাথে একজন এমএল সলিউশন আর্কিটেক্ট। তিনি গ্রাহকদের এমএল উৎপাদন কাজের চাপ SageMaker-এ স্কেলে স্থানান্তরিত করতে সহায়তা করার দিকে মনোনিবেশ করেন। তিনি মেশিন লার্নিং, এআই, এবং কম্পিউটার ভিশন ডোমেনে বিশেষজ্ঞ এবং UT ডালাস থেকে কম্পিউটার সায়েন্সে স্নাতকোত্তর ডিগ্রি অর্জন করেছেন। তার অবসর সময়ে, তিনি ভ্রমণ এবং ফটোগ্রাফি উপভোগ করেন।
টনি চেন অ্যামাজন ওয়েব সার্ভিসেসের একজন মেশিন লার্নিং সলিউশন আর্কিটেক্ট, গ্রাহকদের ক্লাউডে স্কেলযোগ্য এবং শক্তিশালী মেশিন লার্নিং ক্ষমতা ডিজাইন করতে সাহায্য করে। একজন প্রাক্তন ডেটা সায়েন্টিস্ট এবং ডেটা ইঞ্জিনিয়ার হিসাবে, তিনি মেশিন লার্নিং চালু করার ক্ষেত্রে সংস্থাগুলির মুখোমুখি হওয়া সবচেয়ে চ্যালেঞ্জিং সমস্যাগুলির মোকাবেলা করতে সাহায্য করার জন্য তার অভিজ্ঞতা ব্যবহার করেন।
- '
- "
- 100
- 11
- 7
- সম্পর্কে
- প্রবেশ
- হিসাব
- দিয়ে
- স্টক
- অতিরিক্ত
- AI
- সব
- ইতিমধ্যে
- যদিও
- মর্দানী স্ত্রীলোক
- আমাজন সেজমেকার
- অ্যামাজন ওয়েব সার্ভিসেস
- বিশ্লেষণ
- এ্যাপাচি
- আপা স্পার্ক
- প্রাসঙ্গিক
- অ্যাপ্লিকেশন
- সহজলভ্য
- গড়
- ডেস্কটপ AWS
- বেসলাইন
- শরীর
- নির্মাণ করা
- ভবন
- ক্যাম্পিং
- মামলা
- কারণ
- চ্যালেঞ্জ
- পরিবর্তন
- chatbots
- শ্রেণীবিন্যাস
- মেঘ
- কোড
- কোডিং
- সংগ্রহ
- জটিল
- গনা
- কম্পিউটার বিজ্ঞান
- কম্পিউটার ভিশন
- আধার
- ধারণ
- একটানা
- চুক্তি
- রান্না
- তৈরি করা হচ্ছে
- গ্রাহকদের
- ডালাস
- উপাত্ত
- উপাত্ত গুণমান
- তথ্য বিজ্ঞানী
- নকশা
- সনাক্তকরণ
- বিকাশ
- বিভিন্ন
- আলোচনা করা
- দূরত্ব
- ডকশ্রমিক
- ডকার কনটেইনার
- না
- ডোমেইনের
- পরিচালনা
- সময়
- প্রগতিশীল
- গোড়ার দিকে
- ইমেইল
- সাক্ষাৎ
- শেষপ্রান্ত
- প্রকৌশলী
- ইংরেজি
- উদ্যোগ
- পরিবেশ
- প্রতিষ্ঠিত
- উদাহরণ
- অভিজ্ঞতা
- মুখ
- পরিবার
- বৈশিষ্ট্য
- বৈশিষ্ট্য
- আর্থিক
- প্রথম
- নমনীয়তা
- কেন্দ্রবিন্দু
- দৃষ্টি নিবদ্ধ করা
- ফর্ম
- অগ্রবর্তী
- বিনামূল্যে
- ক্রিয়া
- উত্পাদন করা
- GitHub
- জমিদারি
- সাহায্য
- সাহায্য
- উচ্চ
- হাইলাইট করা
- হাইকিং
- হোম
- কিভাবে
- কিভাবে
- HTTPS দ্বারা
- ভাবমূর্তি
- বাস্তবায়ন
- গুরুত্বপূর্ণ
- সুদ্ধ
- শিল্প
- তথ্য
- বীমা
- বীমা শিল্প
- IT
- কাজ
- জবস
- লেবেলগুলি
- ভাষা
- বড়
- সর্বশেষ
- লঞ্চ
- নেতৃত্ব
- শিক্ষা
- উচ্চতা
- ওঠানামায়
- লাইব্রেরি
- ভাষাবিদ্যা
- তালিকা
- সাহিত্য
- বোঝা
- অবস্থান
- মেশিন লার্নিং
- যন্ত্রানুবাদ
- মাস্ক
- মাপ
- ছন্দোবিজ্ঞান
- ML
- মডেল
- মডেল
- পর্যবেক্ষণ
- অধিক
- স্বভাবিক ভাষা
- স্বাভাবিক ভাষা প্রক্রিয়াকরণ
- নেটওয়ার্ক
- NLP
- প্রজ্ঞাপন
- অফার
- ক্রম
- সংগঠন
- অন্যান্য
- কর্মক্ষমতা
- ফটোগ্রাফি
- স্পষ্টতা
- ভবিষ্যদ্বাণী
- ভবিষ্যতবাণী
- বর্তমান
- সমস্যা
- উত্পাদনের
- প্রকল্প
- প্রদান
- উপলব্ধ
- পাইথন
- পাইটার্চ
- গুণ
- পরিসর
- প্রকৃত সময়
- বাস্তবতা
- নথি
- রিপোর্ট
- প্রতিবেদন
- প্রতিক্রিয়া
- ফলাফল
- পুনরায়োজন
- আয়
- বিপরীত
- এখানে ক্লিক করুন
- চালান
- দৌড়
- ঋষি নির্মাতা
- স্কেল
- আরোহী
- বিজ্ঞান
- SDK
- সেবা
- ভজনা
- সেট
- পরিবর্তন
- অনুরূপ
- সহজ
- So
- সলিউশন
- স্থান
- শূণ্যস্থান
- স্প্যাম
- বিশেষ
- যুক্তরাষ্ট্র
- স্টোরেজ
- দোকান
- সমর্থন
- সিস্টেম
- লক্ষ্য
- পরীক্ষা
- পরীক্ষামূলক
- পরীক্ষা
- বিশ্ব
- চিন্তা
- চিন্তা নেতৃত্ব
- সময়
- টোকেন
- টোকেন
- শীর্ষ
- মশাল
- ট্রাফিক
- প্রশিক্ষণ
- অনুবাদ
- মার্কিন
- চেক
- ভার্জিনিয়া
- ভার্চুয়াল
- দৃষ্টিপাত
- দৃষ্টি
- অপেক্ষা করুন
- ওয়েব
- ওয়েব সার্ভিস
- উইকিপিডিয়া
- ছাড়া
- হয়া যাই ?
- কর্মপ্রবাহ
- বিশ্ব
- লেখা