Виявлення дрейфу даних NLP за допомогою спеціального монітора моделі Amazon SageMaker

Перевидано Платоном

читають: 0

Розуміння природної мови застосовується в широкому діапазоні випадків використання, від чат-ботів і віртуальних помічників до машинного перекладу й узагальнення тексту. Щоб переконатися, що ці програми працюють із очікуваним рівнем продуктивності, важливо, щоб дані в навчальному та виробничому середовищах надходили з одного розподілу. Коли дані, які використовуються для висновку (виробничі дані), відрізняються від даних, які використовуються під час навчання моделі, ми стикаємося з явищем, відомим як дрейф даних. Коли відбувається дрейф даних, модель більше не відповідає даним у виробництві та, швидше за все, працює гірше, ніж очікувалося. Важливо постійно контролювати дані висновків і порівнювати їх із даними, які використовувалися під час навчання.

Ви можете використовувати Amazon SageMaker для швидкого створення, навчання та розгортання моделей машинного навчання (ML) у будь-якому масштабі. Як профілактичний захід проти деградації моделі можна використовувати Монітор моделі Amazon SageMaker щоб постійно контролювати якість ваших моделей ML у реальному часі. За допомогою монітора моделей ви також можете налаштувати сповіщення для сповіщень і ініціювання дій, якщо спостерігається будь-який дрейф у продуктивності моделі. Раннє та проактивне виявлення цих відхилень дає змогу вживати коригувальних дій, таких як збір нових даних для наземного навчання істинності, перенавчання моделей і аудит систем, що працюють над потоком, без необхідності вручну контролювати моделі чи створювати додаткові інструменти.

Model Monitor пропонує чотири різні типи можливостей моніторингу для виявлення та пом’якшення зсуву моделі в режимі реального часу:

Якість даних – Допомагає виявляти зміни в схемах даних і статистичних властивостях незалежних змінних і попереджає, коли виявлено дрейф.
Якість моделі – Для моніторингу характеристик продуктивності моделі, таких як точність або точність у режимі реального часу, Model Monitor дозволяє вживати базові мітки істинності, зібрані з ваших програм. Model Monitor автоматично об’єднує наземну правдиву інформацію з прогнозованими даними для обчислення показників ефективності моделі.
Упередження моделі – Модель Монітор інтегровано з Роз'яснити Amazon SageMaker щоб покращити видимість потенційної упередженості. Хоча ваші початкові дані чи модель можуть бути неупередженими, зміни в світі можуть з часом спричинити упередженість у моделі, яку вже навчили.
Пояснення моделі – Виявлення дрейфу попереджає, коли відбувається зміна відносної важливості атрибутів функцій.

У цій публікації ми обговорюємо типи дрейфу якості даних, які застосовуються до текстових даних. Ми також представляємо підхід до виявлення дрейфу даних у текстових даних за допомогою монітора моделі.

Дрейф даних в НЛП

Дрейф даних можна класифікувати за трьома категоріями залежно від того, чи відбувається зрушення розподілу на вході чи на виході, чи змінилося співвідношення між входом і виходом.

Коваріативний зсув

В коваріатний зсув, розподіл входів змінюється з часом, але розподіл умовний P(y|x) не змінюється. Цей тип дрейфу називається зсувом коваріат, оскільки проблема виникає через зсув у розподілі коваріат (ознак). Наприклад, у моделі класифікації спаму електронною поштою розподіл навчальних даних (корпусів електронної пошти) може відрізнятися від розподілу даних під час оцінювання.

Зсув етикетки

У той час як коваріативний зсув фокусується на змінах у розподілі ознак, зсув мітки фокусується на змінах у розподілі змінної класу. Цей тип зсуву є, по суті, зворотним зсуву коваріат. Інтуїтивно зрозумілим способом подумати про це може бути розгляд незбалансованого набору даних. Якщо співвідношення спаму та не спаму в електронних листах у нашому навчальному наборі становить 50%, але насправді 10% наших електронних листів не є спамом, тоді розподіл цільових міток змінився.

Зміна концепції

Зміна концепції відрізняється від зсуву коваріат і міток тим, що він не пов’язаний із розподілом даних чи розподілом класів, а натомість пов’язаний зі зв’язком між двома змінними. Наприклад, спамери електронної пошти часто використовують різноманітні концепції для проходження моделей спам-фільтра, і концепція електронних листів, які використовуються під час навчання, може змінюватися з часом.

Тепер, коли ми розуміємо різні типи дрейфу даних, давайте подивимося, як ми можемо використовувати монітор моделі для виявлення коваріатного зсуву в текстових даних.

Огляд рішення

На відміну від табличних даних, які є структурованими та обмеженими, текстові дані мають складну, багатовимірну та вільну форму. Для ефективного виявлення дрейфу в НЛП ми працюємо з вбудовування, які є маловимірними представленнями тексту. Ви можете отримати вбудовування за допомогою різних мовних моделей, таких як Word2Vec, і трансформаторних моделей БЕРТ. Ці моделі проектують багатовимірні дані в низьковимірні простори, зберігаючи при цьому семантичну інформацію тексту. Результати є щільними та контекстно значущими векторами, які можна використовувати для різноманітних подальших завдань, включаючи моніторинг дрейфу даних.

У нашому рішенні ми використовуємо вбудовування, щоб виявити коваріативний зсув англійських речень. Ми використовуємо Model Monitor, щоб полегшити постійний моніторинг текстового класифікатора, який розгортається у виробничому середовищі. Наш підхід складається з наступних кроків:

Тонке налаштування моделі BERT за допомогою SageMaker.
Розгорніть налаштований класифікатор BERT як кінцеву точку реального часу за допомогою захоплення даних включений.
Створіть базовий набір даних, який складається із зразків речень, які використовуються для навчання класифікатора BERT.
Створити спеціальне завдання моніторингу SageMaker щоб обчислити косинусну подібність між даними, отриманими під час виробництва, і базовим набором даних.

Наступна схема ілюструє робочий процес рішення:

Тонке налаштування моделі BERT

У цій публікації ми використовуємо Корпус лінгвістичної прийнятності (CoLA), набір даних із 10,657 XNUMX англійських речень, позначених як граматичні чи неграматичні з опублікованої лінгвістичної літератури. Ми використовуємо навчання SageMaker для точного налаштування моделі BERT за допомогою набору даних CoLa шляхом визначення класу оцінювача PyTorch. Додаткову інформацію про те, як використовувати цей SDK із PyTorch, див Використовуйте PyTorch разом із SageMaker Python SDK. Виклик fit() метод оцінювача запускає навчальну роботу:

from sagemaker.pytorch import PyTorch # place to save model artifact
output_path = f"s3://{bucket}/{model_prefix}" estimator = PyTorch( entry_point="train_deploy.py", source_dir="code", role=role, framework_version="1.7.1", py_version="py3", instance_count=1, instance_type="ml.p3.2xlarge", output_path=output_path, hyperparameters={ "epochs": 1, "num_labels": 2, "backend": "gloo", }, disable_profiler=True, # disable debugger
)
estimator.fit({"training": inputs_train, "testing": inputs_test})

Розгортання моделі

Після навчання нашої моделі ми розміщуємо її на кінцевій точці SageMaker. Щоб змусити кінцеву точку завантажувати модель і обслуговувати прогнози, ми реалізуємо кілька методів train_deploy.py:

model_fn () - Завантажує збережену модель і повертає об’єкт моделі, який можна використовувати для обслуговування моделі. Сервер моделі SageMaker PyTorch завантажує нашу модель шляхом виклику model_fn.
input_fn () - Десериалізує та готує дані для прогнозування. У цьому прикладі наше тіло запиту спочатку серіалізується до JSON, а потім надсилається кінцевій точці, що обслуговує модель. Тому в input_fn(), ми спочатку десеріалізуємо тіло запиту у форматі JSON і повертаємо вхід як a torch.tensor, як вимагається для BERT.
predict_fn () – Виконує прогноз і повертає результат.

Увімкнути збір даних монітора моделі

Ми вмикаємо Збір даних монітора моделі щоб записати вхідні дані в Служба простого зберігання Amazon (Amazon S3), щоб посилатися на нього пізніше:

data_capture_config = DataCaptureConfig(enable_capture=True, sampling_percentage=100, destination_s3_uri=s3_capture_upload_path)

Потім ми створюємо кінцеву точку SageMaker у реальному часі за допомогою моделі, створеної на попередньому кроці:

predictor = estimator.deploy(endpoint_name='nlp-data-drift-bert-endpoint', initial_instance_count=1, instance_type="ml.m4.xlarge", data_capture_config=data_capture_config)

Висновок

Ми виконуємо прогнозування за допомогою об’єкта предиктора, створеного на попередньому кроці. Ми встановлюємо серіалізатор і десеріалізатор JSON, який використовується кінцевою точкою висновку:

print("Sending test traffic to the endpoint {}. nPlease wait...".format(endpoint_name)) result = predictor.predict([ "Thanks so much for driving me home", "Thanks so much for cooking dinner. I really appreciate it", "Nice to meet you, Sergio. So, where are you from"
])

Кінцева точка в реальному часі налаштована на отримання даних із запиту, а відповідь і дані зберігаються в Amazon S3. Ви можете переглянути дані, зібрані в попередньому розкладі моніторингу.

Створіть базову лінію

Ми використовуємо точно налаштовану модель BERT, щоб витягти функції вбудовування речень із навчальних даних. Ми використовуємо ці вектори як високоякісні вхідні дані для порівняння косинусної відстані, оскільки BERT створює динамічне представлення слів із семантичним контекстом. Виконайте наступні дії, щоб отримати вбудовування речення:

Використовуйте токенизатор BERT, щоб отримати ідентифікатори маркерів для кожного маркера (input_id) у вхідному реченні та масці, щоб вказати, які елементи у вхідній послідовності є токенами, а не елементами заповнення (attention_mask_id). Ми використовуємо BERT tokenizer.encode_plus функція для отримання цих значень для кожного вхідного речення:

#Add instantiation of tokenizer
encoded_dict = tokenizer.encode_plus( sent, # Input Sentence to encode. add_special_tokens = True, # Add '[CLS]' and '[SEP]' max_length = 64, # Pad sentence to max_length pad_to_max_length = True, # Truncate sentence to max_length return_attention_mask = True, #BERT model needs attention_mask return_tensors = 'pt', # Return pytorch tensors. )
input_ids = encoded_dict['input_ids']
attention_mask_ids = encoded_dict['attention_mask']

input_ids та attention_mask_ids передаються в модель і отримують приховані стани мережі. The hidden_states має чотири виміри в такому порядку:

Номер шару (BERT має 12 шарів)
Номер партії (1 речення)
Індекси токенів Word
Приховані підрозділи (768 функцій)

Використовуйте останні два прихованих шари, щоб отримати єдиний вектор (вбудовування речень), обчислюючи середнє значення всіх вхідних токенів у реченні:

outputs = model(input_ids, attention_mask_ids) # forward pass to model
hidden_states = outputs[2] # token vectors
token_vecs = hidden_states[-2][0] # last 2 layer hidden states
sentence_embedding = torch.mean(token_vecs, dim=0) # average token vectors

Перетворіть вбудоване речення як масив NumPy і збережіть його в розташуванні Amazon S3 як базову лінію, яку використовує Model Monitor:

sentence_embeddings_list = []for i in sentence_embeddings:sentence_embeddings_list.append(i.numpy()) np.save('embeddings.npy', sentence_embeddings_list) #Upload the sentence embedding to S3
!aws s3 cp embeddings.npy s3://{bucket}/{model_prefix}/embeddings/

Сценарій оцінювання

Model Monitor надає попередньо зібраний контейнер із можливістю аналізу даних, отриманих із кінцевих точок для табличних наборів даних. Якщо ви хочете привезти власний контейнер, Model Monitor надає точки розширення, якими ви можете скористатися. Коли ви створюєте a MonitoringSchedule, монітор моделі врешті-решт починає обробку завдань. Таким чином, контейнер повинен бути в курсі контракту на обробку. Нам потрібно створити оціночний сценарій, сумісний із контейнером контрактні входи та виходи.

Model Monitor використовує код оцінки для всіх зразків, які фіксуються під час розкладу моніторингу. Для кожної точки даних висновку ми обчислюємо вбудовування речень, використовуючи ту саму логіку, що описана раніше. Косинусна подібність використовується як метрика відстані для вимірювання подібності точки даних висновку та вбудовування речень у базову лінію. Математично він вимірює косинусний кут між двома векторами вбудовування речень. Висока оцінка косинусної подібності вказує на подібні вкладення речень. Нижчий показник косинусної подібності вказує на дрейф даних. Ми обчислюємо середнє значення всіх балів косинусної подібності, і якщо воно менше за порогове значення, це фіксується у звіті про порушення. Залежно від варіанту використання ви можете використовувати інші показники відстані, наприклад manhattan or euclidean для вимірювання подібності вкладень речень.

На наступній діаграмі показано, як ми використовуємо моніторинг моделі SageMaker для встановлення базової лінії та виявлення дрейфу даних за допомогою косинусної подібності відстані.

Нижче наведено код для розрахунку порушень; повний сценарій оцінки доступний на GitHub:

for embed_item in embedding_list: # all sentence embeddings from baseline cosine_score += (1 - cosine(input_sentence_embedding, embed_item)) # cosine distance between input sentence embedding and baseline embedding
cosine_score_avg = cosine_score/(len(embedding_list)) # average cosine score of input sentence
if cosine_score_avg < env.max_ratio_threshold: # compare averge cosine score against a threshold sent_cosine_dict[record] = cosine_score_avg # capture details for violation report violations.append({ "sentence": record, "avg_cosine_score": cosine_score_avg, "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "endpoint_name" : env.sagemaker_endpoint_name, "monitoring_schedule_name": env.sagemaker_monitoring_schedule_name })

Вимірюйте дрейф даних за допомогою Model Monitor

У цьому розділі ми зосередимося на вимірюванні дрейфу даних за допомогою Model Monitor. Model Monitor Попередньо побудовані монітори працюють від Deequ, яка є бібліотекою, створеною на основі Apache Spark для визначення модульних тестів для даних, які вимірюють якість даних у великих наборах даних. Вам не потрібно кодувати, щоб використовувати ці попередньо створені можливості моніторингу. Ви також маєте гнучкість моніторингу моделей за допомогою кодування, щоб надати індивідуальний аналіз. Ви можете збирати та переглядати всі показники, які видає Model Monitor у Студія Amazon SageMaker, щоб ви могли візуально аналізувати продуктивність своєї моделі без написання додаткового коду.

У певних сценаріях, наприклад, коли дані не є табличними, завдання обробки за замовчуванням (на основі Deequ) недостатньо, оскільки він підтримує лише табличні набори даних. Попередньо створених моніторів може бути недостатньо для генерації складних показників для виявлення дрейфів, і може виникнути потреба в застосуванні власних показників. У наступних розділах ми опишемо налаштування, щоб отримати ваші показники шляхом створення спеціального контейнера.

Створіть спеціальний контейнер Model Monitor

Ми використовуємо сценарій оцінки з попереднього розділу, щоб створити контейнер Docker і надіслати його Реєстр контейнерів Amazon Elastic (Amazon ECR):

#Build a docker container and push to ECR account_id = boto3.client('sts').get_caller_identity().get('Account')
ecr_repository = 'nlp-data-drift-bert-v1'
tag = ':latest'
region = boto3.session.Session().region_name
sm = boto3.client('sagemaker')
uri_suffix = 'amazonaws.com'
if region in ['cn-north-1', 'cn-northwest-1']: uri_suffix = 'amazonaws.com.cn' processing_repository_uri = f'{account_id}.dkr.ecr.{region}.{uri_suffix}/{ecr_repository + tag}'
# Creating the ECR repository and pushing the container image !docker build -t $ecr_repository docker !$(aws ecr get-login --region $region --registry-ids $account_id --no-include-email) !aws ecr create-repository --repository-name $ecr_repository !docker tag {ecr_repository + tag} $processing_repository_uri!docker push $processing_repository_uri

Коли клієнтський контейнер Docker знаходиться в Amazon ECR, ми можемо запланувати завдання моніторингу моделі та створити звіт про порушення, як показано в наступних розділах.

Заплануйте завдання моніторингу моделі

Щоб запланувати завдання моніторингу моделі, ми створюємо екземпляр Model Monitor і в image_uri, ми звертаємося до контейнера Docker, який ми створили в попередньому розділі:

from sagemaker.model_monitor import ModelMonitor monitor = ModelMonitor( base_job_name='nlp-data-drift-bert-v1', role=role, image_uri=processing_repository_uri, instance_count=1, instance_type='ml.m5.large', env={ 'THRESHOLD':'0.5', 'bucket': bucket },
)

Ми плануємо завдання моніторингу за допомогою create_monitoring_schedule API. Ви можете запланувати завдання моніторингу на погодинній або щоденній основі. Ви налаштовуєте завдання за допомогою destination параметр, як показано в наступному коді:

from sagemaker.model_monitor import CronExpressionGenerator, MonitoringOutput
from sagemaker.processing import ProcessingInput, ProcessingOutput destination = f's3://{sagemaker_session.default_bucket()}/{prefix}/{endpoint_name}/monitoring_schedule' processing_output = ProcessingOutput( output_name='result', source='/opt/ml/processing/resultdata', destination=destination,
)
output = MonitoringOutput(source=processing_output.source, destination=processing_output.destination) monitor.create_monitoring_schedule( monitor_schedule_name='nlp-data-drift-bert-schedule', output=output, endpoint_input=predictor.endpoint_name, schedule_cron_expression=CronExpressionGenerator.hourly(),
)

Для опису та списку розкладу моніторингу та його запусків ви можете використовувати наступні команди:

monitor.describe_schedule()
print(monitor.list_executions())

Звіт про порушення дрейфу даних

Коли завдання моніторингу моделі завершено, ви можете перейти до цільового шляху S3, щоб отримати доступ до звітів про порушення. Цей звіт містить усі вхідні дані, середній косинусний бал (avg_cosine_score) нижче порогового значення, налаштованого як змінна середовища THRESHOLD:0.5 в МодельМонітор екземпляр. Це вказує на те, що дані, отримані під час висновку, виходять за межі встановленої базової лінії.

Наступний код показує згенерований звіт про порушення:

{ "violations": [ { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Thanks so much for driving me home", "avg_cosine_score": 0.36653404209142876 }, { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Thanks so much for cooking dinner. I really appreciate it", "avg_cosine_score": 0.34974955975723576 }, { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Nice to meet you, Sergio. So, where are you from", "avg_cosine_score": 0.378982806084463 } ]
}

Нарешті, на основі цього спостереження ви можете налаштувати свою модель для перенавчання. Ви також можете включити Служба простих сповіщень Amazon (Amazon SNS) для надсилання сповіщень про порушення.

Висновок

Model Monitor дозволяє підтримувати високу якість ваших моделей у виробництві. У цій публікації ми висвітлили труднощі, пов’язані з моніторингом дрейфу даних у неструктурованих даних, як-от текст, і запропонували інтуїтивно зрозумілий підхід для виявлення дрейфу даних за допомогою спеціального сценарію моніторингу. Нижче наведено код, пов’язаний із публікацією GitHub сховище. Крім того, ви можете налаштувати рішення для використання інших показників відстані, наприклад максимальне середнє розбіжність (MMD), непараметрична метрика відстані для обчислення граничного розподілу між вихідним і цільовим розподілом у вбудованому просторі.

Про авторів

Вікрам Еланго є архітектором AI/ML Specialist Solutions в Amazon Web Services, що базується у Вірджинії, США. Vikram допомагає клієнтам фінансової та страхової галузі за допомогою дизайну та інтелектуального лідерства для створення та розгортання програм машинного навчання в масштабі. Зараз він зосереджений на обробці природної мови, відповідальному штучному інтелекті, оптимізації висновків і масштабуванні ML на підприємстві. У вільний час він любить подорожувати, піти в походи, готувати їжу та кемпінг зі своєю сім’єю.

Рагу Рамеша є архітектором рішень ML у команді Amazon SageMaker Service. Він зосереджується на тому, щоб допомогти клієнтам масштабно перенести робочі навантаження ML на SageMaker. Він спеціалізується на машинному навчанні, штучному інтелекті та комп’ютерному зорі, а також має ступінь магістра комп’ютерних наук в UT Dallas. У вільний час захоплюється подорожами та фотографією.

Тоні Чен є архітектором рішень машинного навчання в Amazon Web Services, який допомагає клієнтам розробляти масштабовані та надійні можливості машинного навчання в хмарі. Як колишній фахівець із обробки даних та інженер з даних, він використовує свій досвід, щоб допомогти вирішити деякі з найскладніших проблем, з якими стикаються організації під час впровадження машинного навчання.