זיהוי הרחקת נתוני NLP באמצעות Amazon SageMaker Model Monitor מותאם אישית

הועלה מחדש על ידי אפלטון

עוקב: 0

הבנת השפה הטבעית מיושמת במגוון רחב של מקרי שימוש, מצ'אטבוטים ועוזרים וירטואליים, ועד לתרגום מכונה וסיכום טקסט. כדי להבטיח שיישומים אלו פועלים ברמת ביצועים צפויה, חשוב שהנתונים בסביבות ההדרכה והייצור יהיו מאותה הפצה. כאשר הנתונים המשמשים להסקת מסקנות (נתוני ייצור) שונים מהנתונים המשמשים במהלך אימון המודלים, אנו נתקלים בתופעה המכונה סחף נתונים. כאשר מתרחשת סחף של נתונים, המודל אינו רלוונטי עוד לנתונים בייצור וסביר להניח שהוא מתפקד גרוע מהצפוי. חשוב לעקוב באופן רציף אחר נתוני ההסקנות ולהשוות אותם לנתונים המשמשים במהלך האימון.

אתה יכול להשתמש אמזון SageMaker לבנות, לאמן ולפרוס במהירות מודלים של למידת מכונה (ML) בכל קנה מידה. כאמצעי יזום נגד השפלת המודל, אתה יכול להשתמש אמזון SageMaker דגם צג לנטר ברציפות את האיכות של דגמי ה-ML שלך בזמן אמת. עם Model Monitor, אתה יכול גם להגדיר התראות כדי להודיע ולהפעיל פעולות אם נצפתה סחיפה כלשהי בביצועי המודל. זיהוי מוקדם ויזום של חריגות אלו מאפשר לך לנקוט בפעולות מתקנות, כגון איסוף נתוני אימון קרקע חדשים, מודלים להכשרה מחדש וביקורת מערכות במעלה הזרם, ללא צורך בניטור ידני של מודלים או בניית כלי עבודה נוספים.

מודל מוניטור מציע ארבעה סוגים שונים של יכולות ניטור לזיהוי והקלה של סחיפה של מודלים בזמן אמת:

איכות מידע - מסייע לזהות שינוי בסכמות הנתונים ובמאפיינים סטטיסטיים של משתנים והתראות בלתי תלויים בעת גילוי סחיפה.
איכות הדגם - לצורך ניטור מאפייני ביצועי מודלים כגון דיוק או דיוק בזמן אמת, Model Monitor מאפשר לך לבלוע את תוויות האמת הקרקע שנאספו מהיישומים שלך. מודל צג ממזג באופן אוטומטי את מידע האמת הקרקע עם נתוני חיזוי כדי לחשב את מדדי הביצועים של המודל.
הטיה במודל –מודל צג משולב עם אמזון סייג מייקר להבהיר כדי לשפר את החשיפה להטיות פוטנציאליות. למרות שהנתונים או המודל הראשוני שלך אינם מוטים, שינויים בעולם עשויים לגרום להתפתחות של הטיה לאורך זמן במודל שכבר הוכשר.
הסבר למודל - זיהוי סחיפה מתריע כאשר מתרחש שינוי בחשיבות היחסית של ייחוס המאפיינים.

בפוסט זה, אנו דנים בסוגי הסחף של איכות הנתונים החלים על נתוני טקסט. אנו מציגים גם גישה לזיהוי סחף נתונים בנתוני טקסט באמצעות Model Monitor.

סחף נתונים ב-NLP

ניתן לסווג את סחיפת הנתונים לשלוש קטגוריות בהתאם לשינוי ההפצה מתרחש בצד הקלט או בצד הפלט, או שהקשר בין הקלט והפלט השתנה.

משמרת כפויה

ב שינוי משתנה, חלוקת התשומות משתנה עם הזמן, אך ההתפלגות המותנית P (y | x) לא משתנה. סוג זה של סחיפה נקרא תזוזה משתנית כיוון שהבעיה נוצרת עקב שינוי בהתפלגות המשתנים (התכונות). לדוגמה, במודל סיווג דואר זבל של דואר אלקטרוני, הפצה של נתוני אימון (קופי אימייל) עשויה לסטות מהתפלגות הנתונים במהלך הניקוד.

שינוי תווית

בעוד שינוי משתנה מתמקד בשינויים בהפצת התכונות, שינוי תווית מתמקד בשינויים בהתפלגות של משתנה המחלקה. סוג זה של תזוזה הוא בעצם היפוך של תזוזה משתנית. דרך אינטואיטיבית לחשוב על זה יכולה להיות לשקול מערך נתונים לא מאוזן. אם היחס בין דואר זבל לא-דואר זבל של הודעות דוא"ל במערך ההדרכה שלנו הוא 50%, אבל במציאות 10% מהמיילים שלנו הם לא דואר זבל, אז התפלגות תווית היעד השתנתה.

שינוי קונספט

שינוי קונספט שונה ממשתנית ותווית משמרת בכך שהיא לא קשורה להתפלגות הנתונים או להתפלגות המחלקה, אלא קשורה לקשר בין שני המשתנים. לדוגמה, שולחי דואר זבל משתמשים לעתים קרובות במגוון מושגים כדי לעבור את המודלים של מסנן דואר זבל, והתפיסה של מיילים המשמשים במהלך ההדרכה עשויה להשתנות ככל שהזמן חולף.

כעת, לאחר שהבנו את הסוגים השונים של סחיפה של נתונים, בואו נראה כיצד נוכל להשתמש ב-Model Monitor כדי לזהות שינוי של משתנים משותפים בנתוני טקסט.

סקירת פתרונות

בניגוד לנתונים טבלאיים, שהם מובנים ומתוחמים, נתונים טקסטואליים הם מורכבים, בעלי ממדים גבוהים ובצורה חופשית. כדי לזהות ביעילות סחיפה ב-NLP, אנו עובדים עם הטבעות, שהם ייצוגים במימד נמוך של הטקסט. אתה יכול להשיג הטמעות באמצעות מודלים שונים של שפה כגון Word2Vec ומודלים מבוססי שנאים כמו ברט. מודלים אלו מקרינים נתונים בעלי מימד גבוה לתוך חללים בעלי מימד נמוך תוך שמירה על המידע הסמנטי של הטקסט. התוצאות הן וקטורים צפופים ובעלי משמעות מבחינה הקשרית, שיכולים לשמש עבור משימות שונות במורד הזרם, כולל ניטור לסחף נתונים.

בפתרון שלנו, אנו משתמשים בהטבעות כדי לזהות את ההזזה המשתנית של משפטים באנגלית. אנו משתמשים ב-Model Monitor כדי לאפשר ניטור רציף עבור מסווג טקסט הנפרס בסביבת ייצור. הגישה שלנו מורכבת מהשלבים הבאים:

כוונן מודל BERT באמצעות SageMaker.
פרוס מסווג BERT מכוון כנקודת קצה בזמן אמת עם לכידת נתונים מאופשר.
צור מערך נתונים בסיסי המורכב ממדגם של המשפטים המשמשים לאימון מיון BERT.
צור עבודת ניטור SageMaker מותאמת אישית כדי לחשב את הדמיון הקוסינוס בין הנתונים שנלכדו בייצור לבין מערך הנתונים הבסיסי.

התרשים הבא ממחיש את זרימת העבודה של הפתרון:

כוונן דגם BERT

בפוסט זה אנו משתמשים קורפוס לקבילות לשונית (CoLA), מערך נתונים של 10,657 משפטים באנגלית המסומנים כדקדוקיים או לא דקדוקיים מהספרות הבלשנות שפורסמה. אנו משתמשים באימון SageMaker כדי לכוונן מודל BERT באמצעות מערך הנתונים של CoLa על ידי הגדרת מחלקה לאומד PyTorch. למידע נוסף על אופן השימוש ב-SDK זה עם PyTorch, ראה השתמש ב- PyTorch עם SDK SageMaker Python. מתקשר ל fit() שיטת האומד משיקה את עבודת ההדרכה:

from sagemaker.pytorch import PyTorch # place to save model artifact
output_path = f"s3://{bucket}/{model_prefix}" estimator = PyTorch( entry_point="train_deploy.py", source_dir="code", role=role, framework_version="1.7.1", py_version="py3", instance_count=1, instance_type="ml.p3.2xlarge", output_path=output_path, hyperparameters={ "epochs": 1, "num_labels": 2, "backend": "gloo", }, disable_profiler=True, # disable debugger
)
estimator.fit({"training": inputs_train, "testing": inputs_test})

פרוס את הדגם

לאחר אימון המודל שלנו, אנו מארחים אותו בנקודת קצה של SageMaker. כדי לגרום לנקודת הקצה לטעון את המודל ולהגיש תחזיות, אנו מיישמים מספר שיטות ב train_deploy.py:

model_fn () - טוען את המודל השמור ומחזיר אובייקט מודל שיכול לשמש להגשת מודלים. שרת הדגם SageMaker PyTorch טוען את המודל שלנו על ידי הפעלת model_fn.
input_fn () - מוריד את ערכי הכנה של קלט החיזוי. בדוגמה זו, גוף הבקשה שלנו מסורק תחילה ל- JSON ואז נשלח לנקודת הקצה של המודל. לכן, ב input_fn(), אנו מייחסים לראשונה את גוף הבקשה המעוצב על ידי JSON ומחזירים את הקלט כ torch.tensor, כנדרש עבור BERT.
לחזות_בן () – מבצע את החיזוי ומחזיר את התוצאה.

אפשר לכידת נתונים של Model Monitor

אנחנו מאפשרים דגם צג לכידת נתונים כדי להקליט את נתוני הקלט לתוך שירות אחסון פשוט של אמזון (Amazon S3) דלי כדי להתייחס אליו מאוחר יותר:

data_capture_config = DataCaptureConfig(enable_capture=True, sampling_percentage=100, destination_s3_uri=s3_capture_upload_path)

לאחר מכן אנו יוצרים נקודת קצה של SageMaker בזמן אמת עם המודל שנוצר בשלב הקודם:

predictor = estimator.deploy(endpoint_name='nlp-data-drift-bert-endpoint', initial_instance_count=1, instance_type="ml.m4.xlarge", data_capture_config=data_capture_config)

הסקה

אנו מפעילים חיזוי באמצעות אובייקט המנבא שיצרנו בשלב הקודם. הגדרנו JSON serializer ו-deserializer, המשמשים את נקודת הקצה של ההסקה:

print("Sending test traffic to the endpoint {}. nPlease wait...".format(endpoint_name)) result = predictor.predict([ "Thanks so much for driving me home", "Thanks so much for cooking dinner. I really appreciate it", "Nice to meet you, Sergio. So, where are you from"
])

נקודת הקצה בזמן אמת מוגדרת ללכוד נתונים מהבקשה, והתגובה והנתונים מאוחסנים באמזון S3. אתה יכול להציג את הנתונים שנלכדו בלוח הזמנים הקודם של הניטור.

צור קו בסיס

אנו משתמשים במודל BERT מכוון כדי לחלץ תכונות של הטבעת משפטים מנתוני האימון. אנו משתמשים בוקטורים אלה ככניסות תכונה איכותיות להשוואת מרחק קוסינוס מכיוון ש-BERT מייצר ייצוג מילים דינמי עם הקשר סמנטי. השלם את השלבים הבאים כדי לקבל הטבעת משפטים:

השתמש באסימון BERT כדי לקבל מזהי אסימון עבור כל אסימון (input_id) במשפט הקלט ובמסכה כדי לציין אילו אלמנטים ברצף הקלט הם אסימונים לעומת רכיבי ריפוד (attention_mask_id). אנו משתמשים ב-BERT tokenizer.encode_plus פונקציה כדי לקבל את הערכים האלה עבור כל משפט קלט:

#Add instantiation of tokenizer
encoded_dict = tokenizer.encode_plus( sent, # Input Sentence to encode. add_special_tokens = True, # Add '[CLS]' and '[SEP]' max_length = 64, # Pad sentence to max_length pad_to_max_length = True, # Truncate sentence to max_length return_attention_mask = True, #BERT model needs attention_mask return_tensors = 'pt', # Return pytorch tensors. )
input_ids = encoded_dict['input_ids']
attention_mask_ids = encoded_dict['attention_mask']

input_ids ו attention_mask_ids מועברים לדגם ומביאים את המצבים הנסתרים של הרשת. ה hidden_states בעל ארבעה מימדים בסדר הבא:

מספר שכבה (ל-BERT יש 12 שכבות)
מספר אצווה (משפט אחד)
אינדקסים של אסימון מילים
יחידות נסתרות (768 תכונות)

השתמש בשתי השכבות הנסתרות האחרונות כדי לקבל וקטור יחיד (הטבעת משפט) על ידי חישוב הממוצע של כל אסימוני הקלט במשפט:

outputs = model(input_ids, attention_mask_ids) # forward pass to model
hidden_states = outputs[2] # token vectors
token_vecs = hidden_states[-2][0] # last 2 layer hidden states
sentence_embedding = torch.mean(token_vecs, dim=0) # average token vectors

המר את הטבעת המשפט כמערך NumPy ואחסן אותו במיקום אמזון S3 כקו בסיס המשמש את Model Monitor:

sentence_embeddings_list = []for i in sentence_embeddings:sentence_embeddings_list.append(i.numpy()) np.save('embeddings.npy', sentence_embeddings_list) #Upload the sentence embedding to S3
!aws s3 cp embeddings.npy s3://{bucket}/{model_prefix}/embeddings/

תסריט הערכה

Model Monitor מספק מיכל בנוי מראש עם יכולת לנתח את הנתונים שנלכדו מנקודות קצה עבור מערכי נתונים טבלאיים. אם אתה רוצה להביא מכולה משלך, Model Monitor מספק נקודות הרחבה שבהן אתה יכול להשתמש. כאשר אתה יוצר א MonitoringSchedule, Model Monitor בסופו של דבר מתחיל בעבודות עיבוד. לכן, המיכל צריך להיות מודע לחוזה העבודה בעיבוד. עלינו ליצור סקריפט הערכה התואם ל-container תשומות חוזים ו פלטים.

Model Monitor משתמש בקוד הערכה בכל הדגימות שנלכדות במהלך לוח הזמנים של הניטור. עבור כל נקודת נתוני מסקנות, אנו מחשבים את הטבעת המשפט באמצעות אותו היגיון שתואר קודם לכן. דמיון קוסינוס משמש כמדד מרחק למדידת הדמיון של נקודת נתוני מסקנות והטבעות משפטים בקו הבסיס. מבחינה מתמטית, הוא מודד את זווית הקוסינוס בין שני וקטורים המטמיעים משפטים. ציון דמיון קוסינוס גבוה מצביע על הטבעות משפטיות דומות. ציון דמיון קוסינוס נמוך יותר מצביע על סחף נתונים. אנו מחשבים ממוצע של כל ציוני הדמיון בקוסינוס, ואם הוא נמוך מהסף, הוא נקלט בדוח ההפרה. בהתבסס על מקרה השימוש, אתה יכול להשתמש במדדי מרחק אחרים כמו manhattan or euclidean כדי למדוד דמיון של הטבעות משפטים.

התרשים הבא מראה כיצד אנו משתמשים בניטור מודל SageMaker כדי לבסס קו בסיס ולזהות סחיפה של נתונים באמצעות דמיון מרחק קוסינוס.

להלן הקוד לחישוב ההפרות; תסריט ההערכה המלא זמין ב- GitHub:

for embed_item in embedding_list: # all sentence embeddings from baseline cosine_score += (1 - cosine(input_sentence_embedding, embed_item)) # cosine distance between input sentence embedding and baseline embedding
cosine_score_avg = cosine_score/(len(embedding_list)) # average cosine score of input sentence
if cosine_score_avg < env.max_ratio_threshold: # compare averge cosine score against a threshold sent_cosine_dict[record] = cosine_score_avg # capture details for violation report violations.append({ "sentence": record, "avg_cosine_score": cosine_score_avg, "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "endpoint_name" : env.sagemaker_endpoint_name, "monitoring_schedule_name": env.sagemaker_monitoring_schedule_name })

מדידת סחף נתונים באמצעות Model Monitor

בחלק זה, אנו מתמקדים במדידת סחיפה של נתונים באמצעות Model Monitor. דגם צג צגים מובנים מראש מופעלים על ידי דיאק, שהיא ספרייה שנבנתה על גבי Apache Spark להגדרת בדיקות יחידות לנתונים, המודדות את איכות הנתונים במערכי נתונים גדולים. אינך דורש קידוד כדי להשתמש ביכולות הניטור המובנות מראש. יש לך גם את הגמישות לנטר מודלים על ידי קידוד כדי לספק ניתוח מותאם אישית. אתה יכול לאסוף ולסקור את כל המדדים הנפלטים על ידי Model Monitor ב סטודיו SageMaker של אמזון, כך שתוכל לנתח ויזואלית את ביצועי המודל שלך מבלי לכתוב קוד נוסף.

בתרחישים מסוימים, למשל כאשר הנתונים אינם טבלאיים, עבודת העיבוד המוגדרת כברירת מחדל (מופעל על ידי דיאק) לא מספיק כי הוא תומך רק במערכי נתונים טבלאיים. ייתכן שהמוניטורים הבנויים מראש לא יספיקו כדי ליצור מדדים מתוחכמים כדי לזהות סחיפות, ועשויים לחייב להביא מדדים משלך. בסעיפים הבאים, אנו מתארים את ההגדרה כדי להביא את המדדים שלך על ידי בניית מיכל מותאם אישית.

בנו את מיכל ה-Model Monitor המותאם אישית

אנו משתמשים תסריט הערכה מהסעיף הקודם כדי לבנות קונטיינר Docker ולדחוף אותו אליו מרשם מיכל אלסטי של אמזון (Amazon ECR):

#Build a docker container and push to ECR account_id = boto3.client('sts').get_caller_identity().get('Account')
ecr_repository = 'nlp-data-drift-bert-v1'
tag = ':latest'
region = boto3.session.Session().region_name
sm = boto3.client('sagemaker')
uri_suffix = 'amazonaws.com'
if region in ['cn-north-1', 'cn-northwest-1']: uri_suffix = 'amazonaws.com.cn' processing_repository_uri = f'{account_id}.dkr.ecr.{region}.{uri_suffix}/{ecr_repository + tag}'
# Creating the ECR repository and pushing the container image !docker build -t $ecr_repository docker !$(aws ecr get-login --region $region --registry-ids $account_id --no-include-email) !aws ecr create-repository --repository-name $ecr_repository !docker tag {ecr_repository + tag} $processing_repository_uri!docker push $processing_repository_uri

כאשר מיכל הלקוח Docker נמצא ב- Amazon ECR, אנו יכולים לתזמן עבודת ניטור מודל ולהפיק דוח הפרות, כפי שיוצג בסעיפים הבאים.

תזמן עבודה לניטור מודל

כדי לתזמן עבודת ניטור מודל, אנו יוצרים מופע של Model Monitor וב- image_uri, אנו מתייחסים למיכל Docker שיצרנו בסעיף הקודם:

from sagemaker.model_monitor import ModelMonitor monitor = ModelMonitor( base_job_name='nlp-data-drift-bert-v1', role=role, image_uri=processing_repository_uri, instance_count=1, instance_type='ml.m5.large', env={ 'THRESHOLD':'0.5', 'bucket': bucket },
)

אנו מתזמנים את עבודת הניטור באמצעות create_monitoring_schedule API. ניתן לתזמן את עבודת הניטור על בסיס שעתי או יומי. אתה מגדיר את העבודה באמצעות destination פרמטר, כפי שמוצג בקוד הבא:

from sagemaker.model_monitor import CronExpressionGenerator, MonitoringOutput
from sagemaker.processing import ProcessingInput, ProcessingOutput destination = f's3://{sagemaker_session.default_bucket()}/{prefix}/{endpoint_name}/monitoring_schedule' processing_output = ProcessingOutput( output_name='result', source='/opt/ml/processing/resultdata', destination=destination,
)
output = MonitoringOutput(source=processing_output.source, destination=processing_output.destination) monitor.create_monitoring_schedule( monitor_schedule_name='nlp-data-drift-bert-schedule', output=output, endpoint_input=predictor.endpoint_name, schedule_cron_expression=CronExpressionGenerator.hourly(),
)

כדי לתאר ולפרט את לוח הזמנים של הניטור והריצות שלו, תוכל להשתמש בפקודות הבאות:

monitor.describe_schedule()
print(monitor.list_executions())

דוח הפרת סחיפת נתונים

כאשר עבודת ניטור הדגם הושלמה, תוכל לנווט אל נתיב היעד S3 כדי לגשת לדוחות ההפרות. דוח זה מכיל את כל התשומות שציון הקוסינוס הממוצע שלהם (avg_cosine_score) נמצא מתחת לסף המוגדר כמשתנה סביבה THRESHOLD:0.5 ב ModelMonitor למשל. זוהי אינדיקציה לכך שהנתונים שנצפו במהלך ההסקה נסחפים מעבר לקו הבסיס שנקבע.

הקוד הבא מציג את דוח ההפרה שנוצר:

{ "violations": [ { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Thanks so much for driving me home", "avg_cosine_score": 0.36653404209142876 }, { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Thanks so much for cooking dinner. I really appreciate it", "avg_cosine_score": 0.34974955975723576 }, { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Nice to meet you, Sergio. So, where are you from", "avg_cosine_score": 0.378982806084463 } ]
}

לבסוף, בהתבסס על תצפית זו, אתה יכול להגדיר את המודל שלך לאימון מחדש. אתה יכול גם להפעיל שירות התראה פשוט של אמזון (Amazon SNS) התראות לשלוח התראות כאשר מתרחשות הפרות.

סיכום

Model Monitor מאפשר לך לשמור על האיכות הגבוהה של הדגמים שלך בייצור. בפוסט זה, הדגשנו את האתגרים עם ניטור סחיפה של נתונים על נתונים לא מובנים כמו טקסט, וסיפקנו גישה אינטואיטיבית לזיהוי סחיפה של נתונים באמצעות סקריפט ניטור מותאם אישית. תוכל למצוא את הקוד המשויך לפוסט בהמשך מאגר GitHub. בנוסף, אתה יכול להתאים אישית את הפתרון כדי להשתמש במדדי מרחק אחרים כגון אי התאמה ממוצעת מקסימלית (MMD), מדד מרחק לא פרמטרי לחישוב התפלגות שולית בין התפלגות מקור ויעד במרחב המוטבע.

על הכותבים

ויקראם אלנגו הוא ארכיטקט פתרונות מומחה בינה מלאכותית/ML בשירותי האינטרנט של אמזון, שבסיסה בווירג'יניה, ארה"ב. Vikram עוזרת ללקוחות תעשיית הפיננסים והביטוח עם עיצוב, מנהיגות מחשבתית לבנות ולפרוס יישומי למידת מכונה בקנה מידה. כרגע הוא מתמקד בעיבוד שפה טבעית, בינה מלאכותית אחראית, אופטימיזציה של מסקנות ושינוי קנה מידה של ML ברחבי הארגון. בזמנו הפנוי הוא נהנה לטייל, לטייל, לבשל ולקמפינג עם משפחתו.

ראגו רמשה הוא אדריכל פתרונות ML עם צוות שירות Amazon SageMaker. הוא מתמקד בסיוע ללקוחות להעביר עומסי עבודה של ייצור ML ל- SageMaker בקנה מידה. הוא מתמחה בתחומי למידת מכונה, בינה מלאכותית וראייה ממוחשבת, ובעל תואר שני במדעי המחשב מ-UT Dallas. בזמנו הפנוי הוא אוהב לטייל ולצלם.

טוני חן הוא אדריכל פתרונות למידת מכונה בשירותי האינטרנט של אמזון, שעוזר ללקוחות לעצב יכולות למידת מכונה ניתנות להרחבה וחזקה בענן. כמדען נתונים ומהנדס נתונים לשעבר, הוא ממנף את הניסיון שלו כדי לעזור להתמודד עם כמה מהבעיות המאתגרות ביותר שעומדות בפני ארגונים בהפעלת למידת מכונה.