কাস্টম অ্যামাজন সেজমেকার মডেল মনিটর ব্যবহার করে NLP ডেটা ড্রিফ্ট সনাক্ত করুন

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

চ্যাটবট এবং ভার্চুয়াল সহকারী থেকে শুরু করে মেশিন অনুবাদ এবং পাঠ্য সংক্ষিপ্তকরণ পর্যন্ত বিস্তৃত ব্যবহারের ক্ষেত্রে প্রাকৃতিক ভাষা বোঝার প্রয়োগ করা হয়। এই অ্যাপ্লিকেশনগুলি কর্মক্ষমতার প্রত্যাশিত স্তরে চলছে তা নিশ্চিত করার জন্য, প্রশিক্ষণ এবং উত্পাদন পরিবেশে ডেটা একই বিতরণ থেকে আসা গুরুত্বপূর্ণ। যখন অনুমানের জন্য ব্যবহৃত ডেটা (উৎপাদন ডেটা) মডেল প্রশিক্ষণের সময় ব্যবহৃত ডেটা থেকে পৃথক হয়, তখন আমরা ডেটা ড্রিফ্ট নামে পরিচিত একটি ঘটনার সম্মুখীন হই। যখন ডেটা ড্রিফ্ট ঘটে, মডেলটি আর উৎপাদনে থাকা ডেটার সাথে প্রাসঙ্গিক থাকে না এবং সম্ভবত প্রত্যাশিত থেকে খারাপ কাজ করে। অনুমান ডেটা ক্রমাগত নিরীক্ষণ করা এবং প্রশিক্ষণের সময় ব্যবহৃত ডেটার সাথে তুলনা করা গুরুত্বপূর্ণ।

তুমি ব্যবহার করতে পার আমাজন সেজমেকার যেকোন স্কেলে মেশিন লার্নিং (ML) মডেল দ্রুত তৈরি, প্রশিক্ষণ এবং স্থাপন করতে। মডেল অবক্ষয়ের বিরুদ্ধে একটি সক্রিয় পরিমাপ হিসাবে, আপনি ব্যবহার করতে পারেন অ্যামাজন সেজমেকার মডেল মনিটর রিয়েল টাইমে আপনার এমএল মডেলের গুণমান ক্রমাগত নিরীক্ষণ করতে। মডেল মনিটরের সাথে, আপনি যদি মডেলের কর্মক্ষমতাতে কোনো ড্রিফ্ট পরিলক্ষিত হয় তবে আপনি বিজ্ঞপ্তি এবং অ্যাকশন ট্রিগার করতে সতর্কতা কনফিগার করতে পারেন। এই বিচ্যুতিগুলির প্রাথমিক এবং সক্রিয় সনাক্তকরণ আপনাকে সংশোধনমূলক পদক্ষেপ নিতে সক্ষম করে, যেমন নতুন গ্রাউন্ড ট্রুথ ট্রেনিং ডেটা সংগ্রহ করা, মডেল পুনঃপ্রশিক্ষণ দেওয়া এবং আপস্ট্রিম সিস্টেমের অডিট করা, ম্যানুয়ালি মডেলগুলি নিরীক্ষণ বা অতিরিক্ত টুলিং তৈরি না করে।

মডেল মনিটর রিয়েল টাইমে মডেল ড্রিফ্ট সনাক্ত করতে এবং প্রশমিত করতে চারটি বিভিন্ন ধরণের পর্যবেক্ষণ ক্ষমতা সরবরাহ করে:

উপাত্ত গুণমান - একটি ড্রিফ্ট সনাক্ত করা হলে ডেটা স্কিমা এবং স্বাধীন ভেরিয়েবল এবং সতর্কতার পরিসংখ্যানগত বৈশিষ্ট্যগুলির পরিবর্তন সনাক্ত করতে সহায়তা করে।
মডেল গুণমান - বাস্তব সময়ে যথার্থতা বা নির্ভুলতার মতো মডেলের কার্যকারিতা বৈশিষ্ট্যগুলি পর্যবেক্ষণের জন্য, মডেল মনিটর আপনাকে আপনার অ্যাপ্লিকেশনগুলি থেকে সংগৃহীত গ্রাউন্ড ট্রুথ লেবেলগুলি গ্রহণ করতে দেয়৷ মডেল মনিটর স্বয়ংক্রিয়ভাবে মডেল পারফরম্যান্স মেট্রিক্স গণনা করতে ভবিষ্যদ্বাণী ডেটার সাথে গ্রাউন্ড ট্রুথ তথ্য একত্রিত করে।
মডেল পক্ষপাত -মডেল মনিটরের সাথে একত্রিত করা হয়েছে আমাজন সেজমেকার স্পষ্ট করুন সম্ভাব্য পক্ষপাতের মধ্যে দৃশ্যমানতা উন্নত করতে। যদিও আপনার প্রাথমিক ডেটা বা মডেলটি পক্ষপাতদুষ্ট নাও হতে পারে, বিশ্বের পরিবর্তনগুলি সময়ের সাথে সাথে এমন একটি মডেলে পক্ষপাতিত্ব তৈরি করতে পারে যা ইতিমধ্যেই প্রশিক্ষিত হয়েছে৷
মডেল ব্যাখ্যাযোগ্যতা - বৈশিষ্ট্য বৈশিষ্ট্যের আপেক্ষিক গুরুত্বের মধ্যে একটি পরিবর্তন ঘটলে ড্রিফ্ট সনাক্তকরণ আপনাকে সতর্ক করে।

এই পোস্টে, আমরা টেক্সট ডেটার ক্ষেত্রে প্রযোজ্য ডেটা কোয়ালিটি ড্রিফটের ধরন নিয়ে আলোচনা করব। আমরা মডেল মনিটর ব্যবহার করে পাঠ্য ডেটাতে ডেটা ড্রিফ্ট সনাক্ত করার জন্য একটি পদ্ধতিও উপস্থাপন করি।

এনএলপিতে ডেটা ড্রিফ্ট

ডিস্ট্রিবিউশন শিফ্ট ইনপুট বা আউটপুট দিকে ঘটছে কিনা বা ইনপুট এবং আউটপুটের মধ্যে সম্পর্ক পরিবর্তিত হয়েছে কিনা তার উপর নির্ভর করে ডেটা ড্রিফ্টকে তিনটি বিভাগে শ্রেণীবদ্ধ করা যেতে পারে।

Covariate স্থানান্তর

একটি ইন covariate স্থানান্তর, ইনপুট বিতরণ সময়ের সাথে পরিবর্তিত হয়, কিন্তু শর্তসাপেক্ষ বন্টন P(y|x) পরিবর্তন হয় না এই ধরনের ড্রিফটকে কোভারিয়েট শিফট বলা হয় কারণ কোভেরিয়েট (বৈশিষ্ট্য) বণ্টনে পরিবর্তনের কারণে সমস্যা দেখা দেয়। উদাহরণস্বরূপ, একটি ইমেল স্প্যাম শ্রেণিবিন্যাস মডেলে, প্রশিক্ষণের ডেটা বিতরণ (ইমেল কর্পোরা) স্কোরিংয়ের সময় ডেটা বিতরণ থেকে বিচ্ছিন্ন হতে পারে।

লেবেল স্থানান্তর

যখন কোভেরিয়েট শিফট বৈশিষ্ট্য বন্টনের পরিবর্তনের উপর দৃষ্টি নিবদ্ধ করে, লেবেল স্থানান্তর ক্লাস ভেরিয়েবলের বন্টনের পরিবর্তনের উপর ফোকাস করে। এই ধরনের স্থানান্তর মূলত কোভারিয়েট শিফটের বিপরীত। এটি সম্পর্কে চিন্তা করার একটি স্বজ্ঞাত উপায় একটি ভারসাম্যহীন ডেটাসেট বিবেচনা করা হতে পারে। যদি আমাদের প্রশিক্ষণ সেটে ইমেলের স্প্যাম থেকে নন-স্প্যাম অনুপাত 50% হয়, কিন্তু বাস্তবে আমাদের 10% ইমেল স্প্যাম নয়, তাহলে লক্ষ্য লেবেল বিতরণ স্থানান্তরিত হয়েছে।

ধারণার পরিবর্তন

ধারণার পরিবর্তন কোভেরিয়েট এবং লেবেল শিফট থেকে আলাদা যে এটি ডেটা বিতরণ বা শ্রেণি বিতরণের সাথে সম্পর্কিত নয়, বরং দুটি ভেরিয়েবলের মধ্যে সম্পর্কের সাথে সম্পর্কিত। উদাহরণস্বরূপ, ইমেল স্প্যামাররা প্রায়ই স্প্যাম ফিল্টার মডেলগুলি পাস করার জন্য বিভিন্ন ধারণা ব্যবহার করে এবং প্রশিক্ষণের সময় ব্যবহৃত ইমেলের ধারণা সময়ের সাথে সাথে পরিবর্তিত হতে পারে।

এখন যেহেতু আমরা বিভিন্ন ধরনের ডেটা ড্রিফ্ট বুঝতে পেরেছি, আসুন দেখি কিভাবে আমরা মডেল মনিটর ব্যবহার করে টেক্সট ডেটাতে কোভারিয়েট শিফট সনাক্ত করতে পারি।

সমাধান ওভারভিউ

টেবুলার ডেটার বিপরীতে, যা স্ট্রাকচার্ড এবং বাউন্ডেড, পাঠ্য ডেটা জটিল, উচ্চমাত্রিক এবং মুক্ত ফর্ম। এনএলপিতে ড্রিফটকে দক্ষতার সাথে সনাক্ত করতে, আমরা এর সাথে কাজ করি এমবেডিং, যা পাঠ্যের নিম্ন-মাত্রিক উপস্থাপনা। আপনি বিভিন্ন ভাষার মডেল যেমন Word2Vec এবং ট্রান্সফরমার-ভিত্তিক মডেলগুলি ব্যবহার করে এমবেডিং পেতে পারেন বার্ট. এই মডেলগুলি পাঠ্যের শব্দার্থিক তথ্য সংরক্ষণ করার সময় নিম্ন-মাত্রিক স্থানগুলিতে উচ্চ-মাত্রিক ডেটা প্রজেক্ট করে। ফলাফলগুলি ঘন এবং প্রাসঙ্গিকভাবে অর্থপূর্ণ ভেক্টর, যা ডাটা ড্রিফ্টের জন্য পর্যবেক্ষণ সহ বিভিন্ন ডাউনস্ট্রিম কাজের জন্য ব্যবহার করা যেতে পারে।

আমাদের সমাধানে, আমরা ইংরেজি বাক্যের কোভারিয়েট শিফট সনাক্ত করতে এমবেডিং ব্যবহার করি। আমরা মডেল মনিটর ব্যবহার করি একটি টেক্সট ক্লাসিফায়ারের জন্য ক্রমাগত পর্যবেক্ষণের সুবিধার জন্য যা একটি উৎপাদন পরিবেশে স্থাপন করা হয়। আমাদের পদ্ধতি নিম্নলিখিত পদক্ষেপ নিয়ে গঠিত:

SageMaker ব্যবহার করে একটি BERT মডেল ফাইন-টিউন করুন।
এর সাথে একটি রিয়েল-টাইম এন্ডপয়েন্ট হিসাবে একটি সূক্ষ্ম-টিউনড BERT শ্রেণীবিভাগ স্থাপন করুন তথ্য সংগ্রহ সক্ষম করা হয়েছে।
একটি বেসলাইন ডেটাসেট তৈরি করুন যা BERT ক্লাসিফায়ারকে প্রশিক্ষণের জন্য ব্যবহৃত বাক্যগুলির একটি নমুনা নিয়ে গঠিত।
একটা তৈরি কর কাস্টম SageMaker মনিটরিং কাজ উৎপাদনে ক্যাপচার করা ডেটা এবং বেসলাইন ডেটাসেটের মধ্যে কোসাইন সাদৃশ্য গণনা করতে।

নিম্নলিখিত চিত্রটি সমাধান কর্মপ্রবাহকে চিত্রিত করে:

একটি BERT মডেল ফাইন-টিউন

এই পোস্টে, আমরা ব্যবহার ভাষাগত গ্রহণযোগ্যতার কর্পাস (CoLA), প্রকাশিত ভাষাবিজ্ঞান সাহিত্য থেকে ব্যাকরণগত বা ব্যাকরণগত হিসাবে লেবেলযুক্ত 10,657টি ইংরেজি বাক্যের একটি ডেটাসেট। আমরা PyTorch এস্টিমেটর ক্লাস সংজ্ঞায়িত করে CoLa ডেটাসেট ব্যবহার করে একটি BERT মডেলকে সূক্ষ্ম-টিউন করতে SageMaker প্রশিক্ষণ ব্যবহার করি। PyTorch এর সাথে এই SDK কীভাবে ব্যবহার করবেন সে সম্পর্কে আরও তথ্যের জন্য, দেখুন সেজমেকার পাইথন এসডিকে দিয়ে পাইটর্চ ব্যবহার করুন. কলিং fit() অনুমানকারীর পদ্ধতি প্রশিক্ষণ কাজ চালু করে:

from sagemaker.pytorch import PyTorch # place to save model artifact
output_path = f"s3://{bucket}/{model_prefix}" estimator = PyTorch( entry_point="train_deploy.py", source_dir="code", role=role, framework_version="1.7.1", py_version="py3", instance_count=1, instance_type="ml.p3.2xlarge", output_path=output_path, hyperparameters={ "epochs": 1, "num_labels": 2, "backend": "gloo", }, disable_profiler=True, # disable debugger
)
estimator.fit({"training": inputs_train, "testing": inputs_test})

মডেল মোতায়েন করুন

আমাদের মডেলকে প্রশিক্ষণ দেওয়ার পরে, আমরা এটিকে সেজমেকার এন্ডপয়েন্টে হোস্ট করি। এন্ডপয়েন্টটিকে মডেল লোড করতে এবং ভবিষ্যদ্বাণী পরিবেশন করতে, আমরা কয়েকটি পদ্ধতি প্রয়োগ করি train_deploy.py:

মডেল_ফএন () - সংরক্ষিত মডেলটি লোড করে এবং একটি মডেল অবজেক্ট ফেরত দেয় যা মডেল পরিবেশনার জন্য ব্যবহৃত হতে পারে। সেজমেকার পাইটর্চ মডেল সার্ভারটি অনুরোধ করে আমাদের মডেলটি লোড করে model_fn.
ইনপুট_ফএন () - পূর্বাভাস ইনপুটকে বিশৃঙ্খলা তৈরি করে এবং প্রস্তুত করে। এই উদাহরণে, আমাদের অনুরোধের বডিটি প্রথমে জেএসএনে সিরিয়ালীকৃত হয় এবং তারপরে মডেল পরিবেশন করা শেষের পয়েন্টে প্রেরণ করা হয়। সুতরাং, ভিতরে input_fn(), আমরা প্রথমে JSON- ফর্ম্যাট করা অনুরোধের বডিটি ডিজিয়ালাইজ করি এবং ইনপুটটিকে হিসাবে হিসাবে ফিরে পাই torch.tensor, BERT এর জন্য প্রয়োজনীয়।
পূর্বাভাস_ফএন () - ভবিষ্যদ্বাণী সম্পাদন করে এবং ফলাফল প্রদান করে।

মডেল মনিটর ডেটা ক্যাপচার সক্ষম করুন৷

আমরা সক্ষম করি মডেল মনিটর ডেটা ক্যাপচার ইনপুট তথ্য রেকর্ড করতে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) পরে এটি উল্লেখ করার জন্য বালতি:

data_capture_config = DataCaptureConfig(enable_capture=True, sampling_percentage=100, destination_s3_uri=s3_capture_upload_path)

তারপরে আমরা পূর্ববর্তী ধাপে তৈরি মডেলের সাথে একটি রিয়েল-টাইম সেজমেকার এন্ডপয়েন্ট তৈরি করি:

predictor = estimator.deploy(endpoint_name='nlp-data-drift-bert-endpoint', initial_instance_count=1, instance_type="ml.m4.xlarge", data_capture_config=data_capture_config)

অনুমিতি

আমরা পূর্ববর্তী ধাপে তৈরি করা ভবিষ্যদ্বাণীকারী বস্তু ব্যবহার করে ভবিষ্যদ্বাণী চালাই। আমরা JSON সিরিয়ালাইজার এবং ডিসিরিয়ালাইজার সেট করি, যা ইনফারেন্স এন্ডপয়েন্ট দ্বারা ব্যবহৃত হয়:

print("Sending test traffic to the endpoint {}. nPlease wait...".format(endpoint_name)) result = predictor.predict([ "Thanks so much for driving me home", "Thanks so much for cooking dinner. I really appreciate it", "Nice to meet you, Sergio. So, where are you from"
])

রিয়েল-টাইম এন্ডপয়েন্টটি অনুরোধ থেকে ডেটা ক্যাপচার করার জন্য কনফিগার করা হয়েছে এবং প্রতিক্রিয়া এবং ডেটা Amazon S3 এ সংরক্ষণ করা হয়। পূর্ববর্তী পর্যবেক্ষণ সময়সূচীতে ক্যাপচার করা ডেটা আপনি দেখতে পারেন।

একটি বেসলাইন তৈরি করুন

প্রশিক্ষণের ডেটা থেকে বাক্য এমবেডিং বৈশিষ্ট্যগুলি বের করতে আমরা একটি সূক্ষ্ম-টিউনড BERT মডেল ব্যবহার করি। কোসাইন দূরত্ব তুলনা করার জন্য আমরা এই ভেক্টরগুলিকে উচ্চ-মানের বৈশিষ্ট্য ইনপুট হিসাবে ব্যবহার করি কারণ BERT শব্দার্থিক প্রসঙ্গ সহ গতিশীল শব্দ উপস্থাপনা তৈরি করে। বাক্য এমবেডিং পেতে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

প্রতিটি টোকেনের জন্য টোকেন আইডি পেতে একটি BERT টোকেনাইজার ব্যবহার করুন (input_id) ইনপুট বাক্যে এবং মুখোশ নির্দেশ করতে ইনপুট অনুক্রমের কোন উপাদানগুলি টোকেন বনাম প্যাডিং উপাদান (attention_mask_id) আমরা BERT ব্যবহার করি tokenizer.encode_plus প্রতিটি ইনপুট বাক্যের জন্য এই মানগুলি পেতে ফাংশন:

#Add instantiation of tokenizer
encoded_dict = tokenizer.encode_plus( sent, # Input Sentence to encode. add_special_tokens = True, # Add '[CLS]' and '[SEP]' max_length = 64, # Pad sentence to max_length pad_to_max_length = True, # Truncate sentence to max_length return_attention_mask = True, #BERT model needs attention_mask return_tensors = 'pt', # Return pytorch tensors. )
input_ids = encoded_dict['input_ids']
attention_mask_ids = encoded_dict['attention_mask']

input_ids এবং attention_mask_ids মডেলে পাস করা হয় এবং নেটওয়ার্কের লুকানো অবস্থা নিয়ে আসে। দ্য hidden_states নিম্নলিখিত ক্রমে চারটি মাত্রা আছে:

স্তর সংখ্যা (BERT এর 12 স্তর রয়েছে)
ব্যাচ নম্বর (1 বাক্য)
শব্দ টোকেন সূচক
লুকানো ইউনিট (৭৬৮ বৈশিষ্ট্য)

বাক্যটিতে সমস্ত ইনপুট টোকেনের গড় গণনা করে একটি একক ভেক্টর (বাক্য এম্বেডিং) পেতে শেষ দুটি লুকানো স্তর ব্যবহার করুন:

outputs = model(input_ids, attention_mask_ids) # forward pass to model
hidden_states = outputs[2] # token vectors
token_vecs = hidden_states[-2][0] # last 2 layer hidden states
sentence_embedding = torch.mean(token_vecs, dim=0) # average token vectors

বাক্য এমবেডিংকে NumPy অ্যারে হিসাবে রূপান্তর করুন এবং এটিকে একটি Amazon S3 অবস্থানে একটি বেসলাইন হিসাবে সংরক্ষণ করুন যা মডেল মনিটর দ্বারা ব্যবহৃত হয়:

sentence_embeddings_list = []for i in sentence_embeddings:sentence_embeddings_list.append(i.numpy()) np.save('embeddings.npy', sentence_embeddings_list) #Upload the sentence embedding to S3
!aws s3 cp embeddings.npy s3://{bucket}/{model_prefix}/embeddings/

মূল্যায়ন স্ক্রিপ্ট

মডেল মনিটর ট্যাবুলার ডেটাসেটের জন্য শেষ পয়েন্ট থেকে ক্যাপচার করা ডেটা বিশ্লেষণ করার ক্ষমতা সহ একটি পূর্ব-নির্মিত ধারক সরবরাহ করে। আপনি যদি নিজের ধারক আনতে চান, মডেল মনিটর এক্সটেনশন পয়েন্ট প্রদান করে যা আপনি ব্যবহার করতে পারেন। আপনি যখন একটি তৈরি করুন MonitoringSchedule, মডেল মনিটর শেষ পর্যন্ত প্রক্রিয়াকরণের কাজ বন্ধ করে দেয়। অতএব, কন্টেইনারকে প্রসেসিং কাজের চুক্তি সম্পর্কে সচেতন হতে হবে। আমাদের একটি মূল্যায়ন স্ক্রিপ্ট তৈরি করতে হবে যা কন্টেইনারের সাথে সামঞ্জস্যপূর্ণ চুক্তি ইনপুট এবং আউটপুট.

মডেল মনিটর নিরীক্ষণ সময়সূচীর সময় ক্যাপচার করা সমস্ত নমুনায় মূল্যায়ন কোড ব্যবহার করে। প্রতিটি অনুমান ডেটা পয়েন্টের জন্য, আমরা পূর্বে বর্ণিত একই যুক্তি ব্যবহার করে বাক্য এমবেডিং গণনা করি। কোসাইন সাদৃশ্য একটি অনুমান ডেটা পয়েন্ট এবং বেসলাইনে বাক্য এম্বেডিংয়ের মিল পরিমাপ করতে দূরত্ব মেট্রিক হিসাবে ব্যবহৃত হয়। গাণিতিকভাবে, এটি দুটি বাক্যের এম্বেডিং ভেক্টরের মধ্যে কোসাইন কোণ পরিমাপ করে। একটি উচ্চ কোসাইন সাদৃশ্য স্কোর অনুরূপ বাক্য এমবেডিং নির্দেশ করে। একটি কম কোসাইন সাদৃশ্য স্কোর ডেটা প্রবাহ নির্দেশ করে। আমরা সমস্ত কোসাইন সাদৃশ্য স্কোরগুলির গড় গণনা করি এবং যদি এটি থ্রেশহোল্ডের চেয়ে কম হয় তবে এটি লঙ্ঘন প্রতিবেদনে ধরা পড়ে। ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে, আপনি অন্যান্য দূরত্ব মেট্রিক্স ব্যবহার করতে পারেন যেমন manhattan or euclidean বাক্যের এম্বেডিংয়ের মিল পরিমাপ করতে।

নীচের চিত্রটি দেখায় যে আমরা কীভাবে বেসলাইন স্থাপন করতে এবং কোসাইন দূরত্বের সাদৃশ্য ব্যবহার করে ডেটা ড্রিফ্ট সনাক্ত করতে সেজমেকার মডেল মনিটরিং ব্যবহার করি।

লঙ্ঘন গণনা করার জন্য নিম্নলিখিত কোড; সম্পূর্ণ মূল্যায়ন স্ক্রিপ্ট পাওয়া যায় GitHub:

for embed_item in embedding_list: # all sentence embeddings from baseline cosine_score += (1 - cosine(input_sentence_embedding, embed_item)) # cosine distance between input sentence embedding and baseline embedding
cosine_score_avg = cosine_score/(len(embedding_list)) # average cosine score of input sentence
if cosine_score_avg < env.max_ratio_threshold: # compare averge cosine score against a threshold sent_cosine_dict[record] = cosine_score_avg # capture details for violation report violations.append({ "sentence": record, "avg_cosine_score": cosine_score_avg, "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "endpoint_name" : env.sagemaker_endpoint_name, "monitoring_schedule_name": env.sagemaker_monitoring_schedule_name })

মডেল মনিটর ব্যবহার করে ডেটা প্রবাহ পরিমাপ করুন

এই বিভাগে, আমরা মডেল মনিটর ব্যবহার করে ডেটা প্রবাহ পরিমাপের উপর ফোকাস করি। মডেল মনিটর প্রাক-নির্মিত মনিটর দ্বারা চালিত হয় Deequ, যা ডেটার জন্য ইউনিট পরীক্ষা সংজ্ঞায়িত করার জন্য Apache Spark-এর উপরে নির্মিত একটি লাইব্রেরি, যা বড় ডেটাসেটে ডেটার গুণমান পরিমাপ করে। এই প্রাক-নির্মিত পর্যবেক্ষণ ক্ষমতাগুলি ব্যবহার করার জন্য আপনাকে কোডিংয়ের প্রয়োজন নেই। আপনি কাস্টম বিশ্লেষণ প্রদান করার জন্য কোডিং দ্বারা মডেল নিরীক্ষণ করার নমনীয়তা আছে. আপনি মডেল মনিটর দ্বারা নির্গত সমস্ত মেট্রিক্স সংগ্রহ এবং পর্যালোচনা করতে পারেন অ্যামাজন সেজমেকার স্টুডিও, তাই আপনি অতিরিক্ত কোড না লিখে আপনার মডেলের কর্মক্ষমতা দৃশ্যত বিশ্লেষণ করতে পারেন।

নির্দিষ্ট পরিস্থিতিতে, উদাহরণস্বরূপ, যখন ডেটা অ-টেবুলার হয়, তখন ডিফল্ট প্রক্রিয়াকরণ কাজ (এর দ্বারা চালিত Deequ) যথেষ্ট নয় কারণ এটি শুধুমাত্র ট্যাবুলার ডেটাসেট সমর্থন করে। প্রি-নির্মিত মনিটরগুলি ড্রিফ্ট সনাক্ত করার জন্য অত্যাধুনিক মেট্রিক্স তৈরি করার জন্য যথেষ্ট নাও হতে পারে এবং আপনার নিজস্ব মেট্রিক্স আনার প্রয়োজন হতে পারে। পরবর্তী বিভাগে, আমরা একটি কাস্টম কন্টেইনার তৈরি করে আপনার মেট্রিক্স আনতে সেটআপ বর্ণনা করি।

কাস্টম মডেল মনিটর কন্টেইনার তৈরি করুন

আমরা ব্যবহার করি মূল্যায়ন স্ক্রিপ্ট পূর্ববর্তী বিভাগ থেকে একটি ডকার কন্টেইনার তৈরি করতে এবং এটিতে ধাক্কা দিন অ্যামাজন ইলাস্টিক কনটেইনার রেজিস্ট্রি (আমাজন ইসিআর):

#Build a docker container and push to ECR account_id = boto3.client('sts').get_caller_identity().get('Account')
ecr_repository = 'nlp-data-drift-bert-v1'
tag = ':latest'
region = boto3.session.Session().region_name
sm = boto3.client('sagemaker')
uri_suffix = 'amazonaws.com'
if region in ['cn-north-1', 'cn-northwest-1']: uri_suffix = 'amazonaws.com.cn' processing_repository_uri = f'{account_id}.dkr.ecr.{region}.{uri_suffix}/{ecr_repository + tag}'
# Creating the ECR repository and pushing the container image !docker build -t $ecr_repository docker !$(aws ecr get-login --region $region --registry-ids $account_id --no-include-email) !aws ecr create-repository --repository-name $ecr_repository !docker tag {ecr_repository + tag} $processing_repository_uri!docker push $processing_repository_uri

যখন গ্রাহক ডকার কন্টেইনার অ্যামাজন ইসিআর-এ থাকে, আমরা একটি মডেল মনিটরিং কাজের সময় নির্ধারণ করতে পারি এবং একটি লঙ্ঘন প্রতিবেদন তৈরি করতে পারি, যেমনটি পরবর্তী বিভাগে প্রদর্শিত হয়েছে।

একটি মডেল পর্যবেক্ষণ কাজের সময়সূচী

একটি মডেল মনিটরিং কাজের সময়সূচী করার জন্য, আমরা মডেল মনিটর এবং এর মধ্যে একটি উদাহরণ তৈরি করি image_uri, আমরা আগের বিভাগে তৈরি করা ডকার কন্টেইনারটি উল্লেখ করি:

from sagemaker.model_monitor import ModelMonitor monitor = ModelMonitor( base_job_name='nlp-data-drift-bert-v1', role=role, image_uri=processing_repository_uri, instance_count=1, instance_type='ml.m5.large', env={ 'THRESHOLD':'0.5', 'bucket': bucket },
)

আমরা ব্যবহার করে পর্যবেক্ষণ কাজের সময়সূচী create_monitoring_schedule এপিআই. আপনি প্রতি ঘন্টায় বা দৈনিক ভিত্তিতে মনিটরিং কাজের সময় নির্ধারণ করতে পারেন। আপনি ব্যবহার করে কাজ কনফিগার করুন destination পরামিতি, নিম্নলিখিত কোডে দেখানো হয়েছে:

from sagemaker.model_monitor import CronExpressionGenerator, MonitoringOutput
from sagemaker.processing import ProcessingInput, ProcessingOutput destination = f's3://{sagemaker_session.default_bucket()}/{prefix}/{endpoint_name}/monitoring_schedule' processing_output = ProcessingOutput( output_name='result', source='/opt/ml/processing/resultdata', destination=destination,
)
output = MonitoringOutput(source=processing_output.source, destination=processing_output.destination) monitor.create_monitoring_schedule( monitor_schedule_name='nlp-data-drift-bert-schedule', output=output, endpoint_input=predictor.endpoint_name, schedule_cron_expression=CronExpressionGenerator.hourly(),
)

পর্যবেক্ষণের সময়সূচী এবং এর রানগুলি বর্ণনা এবং তালিকাভুক্ত করতে, আপনি নিম্নলিখিত কমান্ডগুলি ব্যবহার করতে পারেন:

monitor.describe_schedule()
print(monitor.list_executions())

ডেটা প্রবাহ লঙ্ঘনের প্রতিবেদন

মডেল মনিটরিং কাজ সম্পূর্ণ হলে, আপনি লঙ্ঘন প্রতিবেদনগুলি অ্যাক্সেস করতে গন্তব্য S3 পাথে নেভিগেট করতে পারেন। এই রিপোর্টে সমস্ত ইনপুট রয়েছে যার গড় কোসাইন স্কোর (avg_cosine_score) একটি পরিবেশ পরিবর্তনশীল হিসাবে কনফিগার করা প্রান্তিকের নীচে THRESHOLD:0.5 মধ্যে মডেল মনিটর দৃষ্টান্ত. এটি একটি ইঙ্গিত যে অনুমানের সময় পর্যবেক্ষণ করা ডেটা প্রতিষ্ঠিত বেসলাইনের বাইরে চলে যাচ্ছে।

নিম্নলিখিত কোড উত্পন্ন লঙ্ঘন রিপোর্ট দেখায়:

{ "violations": [ { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Thanks so much for driving me home", "avg_cosine_score": 0.36653404209142876 }, { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Thanks so much for cooking dinner. I really appreciate it", "avg_cosine_score": 0.34974955975723576 }, { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Nice to meet you, Sergio. So, where are you from", "avg_cosine_score": 0.378982806084463 } ]
}

অবশেষে, এই পর্যবেক্ষণের উপর ভিত্তি করে, আপনি পুনরায় প্রশিক্ষণের জন্য আপনার মডেল কনফিগার করতে পারেন। আপনিও সক্ষম করতে পারেন অ্যামাজন সাধারণ বিজ্ঞপ্তি পরিষেবা লঙ্ঘন ঘটলে সতর্কবার্তা পাঠাতে (Amazon SNS) বিজ্ঞপ্তি।

উপসংহার

মডেল মনিটর আপনাকে উত্পাদনে আপনার মডেলগুলির উচ্চ গুণমান বজায় রাখতে সক্ষম করে। এই পোস্টে, আমরা পাঠ্যের মতো অসংগঠিত ডেটাতে ডেটা ড্রিফ্ট নিরীক্ষণের চ্যালেঞ্জগুলি হাইলাইট করেছি এবং একটি কাস্টম মনিটরিং স্ক্রিপ্ট ব্যবহার করে ডেটা ড্রিফ্ট সনাক্ত করার জন্য একটি স্বজ্ঞাত পদ্ধতি প্রদান করেছি। আপনি নিম্নলিখিত পোস্টের সাথে যুক্ত কোড খুঁজে পেতে পারেন GitHub সংগ্রহস্থল. উপরন্তু, আপনি অন্যান্য দূরত্ব মেট্রিক্স যেমন ব্যবহার করার জন্য সমাধানটি কাস্টমাইজ করতে পারেন সর্বাধিক গড় পার্থক্য (এমএমডি), একটি নন-প্যারামেট্রিক দূরত্ব মেট্রিক যা এমবেডেড স্পেসে উৎস এবং লক্ষ্য বন্টনের মধ্যে প্রান্তিক বন্টন গণনা করে।

লেখক সম্পর্কে

বিক্রম এলাঙ্গো ভার্জিনিয়া, মার্কিন যুক্তরাষ্ট্রে অবস্থিত অ্যামাজন ওয়েব সার্ভিসেসের একজন এআই/এমএল বিশেষজ্ঞ সমাধান স্থপতি। বিক্রম আর্থিক এবং বীমা শিল্পের গ্রাহকদের ডিজাইন, চিন্তার নেতৃত্ব দিয়ে মেশিন লার্নিং অ্যাপ্লিকেশন তৈরি এবং স্থাপন করতে সাহায্য করে। তিনি বর্তমানে ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং, দায়িত্বশীল এআই, ইনফারেন্স অপ্টিমাইজেশান এবং এন্টারপ্রাইজ জুড়ে এমএল স্কেলিং এর উপর দৃষ্টি নিবদ্ধ করছেন। তার অবসর সময়ে, তিনি তার পরিবারের সাথে ভ্রমণ, হাইকিং, রান্না এবং ক্যাম্পিং উপভোগ করেন।

রঘু রমেশা অ্যামাজন সেজমেকার সার্ভিস টিমের সাথে একজন এমএল সলিউশন আর্কিটেক্ট। তিনি গ্রাহকদের এমএল উৎপাদন কাজের চাপ SageMaker-এ স্কেলে স্থানান্তরিত করতে সহায়তা করার দিকে মনোনিবেশ করেন। তিনি মেশিন লার্নিং, এআই, এবং কম্পিউটার ভিশন ডোমেনে বিশেষজ্ঞ এবং UT ডালাস থেকে কম্পিউটার সায়েন্সে স্নাতকোত্তর ডিগ্রি অর্জন করেছেন। তার অবসর সময়ে, তিনি ভ্রমণ এবং ফটোগ্রাফি উপভোগ করেন।

টনি চেন অ্যামাজন ওয়েব সার্ভিসেসের একজন মেশিন লার্নিং সলিউশন আর্কিটেক্ট, গ্রাহকদের ক্লাউডে স্কেলযোগ্য এবং শক্তিশালী মেশিন লার্নিং ক্ষমতা ডিজাইন করতে সাহায্য করে। একজন প্রাক্তন ডেটা সায়েন্টিস্ট এবং ডেটা ইঞ্জিনিয়ার হিসাবে, তিনি মেশিন লার্নিং চালু করার ক্ষেত্রে সংস্থাগুলির মুখোমুখি হওয়া সবচেয়ে চ্যালেঞ্জিং সমস্যাগুলির মোকাবেলা করতে সাহায্য করার জন্য তার অভিজ্ঞতা ব্যবহার করেন।