Registrer NLP-datadrift ved hjælp af tilpasset Amazon SageMaker Model Monitor

Genudgivet af Platon

Abonnenter: 0

Naturlig sprogforståelse anvendes i en bred vifte af brugssager, fra chatbots og virtuelle assistenter til maskinoversættelse og tekstresumé. For at sikre, at disse applikationer kører på et forventet ydeevneniveau, er det vigtigt, at data i trænings- og produktionsmiljøerne kommer fra samme distribution. Når de data, der bruges til inferens (produktionsdata), adskiller sig fra de data, der bruges under modeltræning, støder vi på et fænomen kendt som datadrift. Når datadrift opstår, er modellen ikke længere relevant for data i produktionen og klarer sig sandsynligvis dårligere end forventet. Det er vigtigt løbende at overvåge slutningsdataene og sammenligne dem med de data, der bruges under træningen.

Du kan bruge Amazon SageMaker til hurtigt at bygge, træne og implementere maskinlæringsmodeller (ML) i enhver skala. Som en proaktiv foranstaltning mod modelnedbrydning kan du bruge Amazon SageMaker Model Monitor til løbende at overvåge kvaliteten af dine ML-modeller i realtid. Med Model Monitor kan du også konfigurere advarsler til at underrette og udløse handlinger, hvis der observeres afvigelser i modellens ydeevne. Tidlig og proaktiv detektering af disse afvigelser sætter dig i stand til at tage korrigerende handlinger, såsom at indsamle nye jordsandhedstræningsdata, genoptræningsmodeller og auditering af opstrømssystemer, uden at skulle overvåge modeller manuelt eller bygge yderligere værktøj.

Model Monitor tilbyder fire forskellige typer overvågningsfunktioner til at detektere og afbøde modelafdrift i realtid:

Datakvalitet – Hjælper med at registrere ændringer i dataskemaer og statistiske egenskaber for uafhængige variabler og advarer, når der registreres en drift.
Model kvalitet – Til overvågning af modellens ydeevnekarakteristika såsom nøjagtighed eller præcision i realtid giver Model Monitor dig mulighed for at indtage de grundlæggende sandhedsetiketter, der er indsamlet fra dine applikationer. Model Monitor fusionerer automatisk grundsandhedens information med forudsigelsesdata for at beregne modellens ydeevnemålinger.
Model bias –Model Monitor er integreret med Amazon SageMaker Clarify at forbedre synlighed i potentielle skævheder. Selvom dine oprindelige data eller model muligvis ikke er forudindtaget, kan ændringer i verden forårsage, at bias udvikler sig over tid i en model, der allerede er blevet trænet.
Modelforklarlighed – Driftsdetektering advarer dig, når der sker en ændring i den relative betydning af funktionstilskrivninger.

I dette indlæg diskuterer vi de typer af datakvalitetsdrift, der er relevante for tekstdata. Vi præsenterer også en tilgang til at detektere datadrift i tekstdata ved hjælp af Model Monitor.

Datadrift i NLP

Datadrift kan klassificeres i tre kategorier afhængigt af, om distributionsskiftet sker på input- eller outputsiden, eller om forholdet mellem input og output har ændret sig.

Kovariatskifte

I en kovariatskifte, fordelingen af input ændres over tid, men den betingede fordeling P(y|x) ændrer sig ikke. Denne type afdrift kaldes kovariatforskydning, fordi problemet opstår på grund af et skift i fordelingen af kovariaterne (træk). For eksempel, i en e-mail-spamklassificeringsmodel, kan distribution af træningsdata (e-mail-corpora) afvige fra distributionen af data under scoring.

Etiketskifte

Mens kovariatskift fokuserer på ændringer i funktionsfordelingen, etiketskift fokuserer på ændringer i fordelingen af klassevariablen. Denne type forskydning er i det væsentlige det modsatte af kovariatskifte. En intuitiv måde at tænke på kan være at overveje et ubalanceret datasæt. Hvis forholdet mellem spam og ikke-spam af e-mails i vores træningssæt er 50 %, men i virkeligheden er 10 % af vores e-mails ikke-spam, så har måletikettefordelingen ændret sig.

Konceptskifte

Konceptskifte er forskellig fra kovariat og etiketskift ved, at det ikke er relateret til datafordelingen eller klassefordelingen, men i stedet er relateret til forholdet mellem de to variable. For eksempel bruger e-mailspammere ofte en række forskellige koncepter til at bestå spamfiltermodellerne, og konceptet med e-mails, der bruges under træning, kan ændre sig som tiden går.

Nu hvor vi forstår de forskellige typer datadrift, lad os se, hvordan vi kan bruge Model Monitor til at detektere kovariatskift i tekstdata.

Løsningsoversigt

I modsætning til tabeldata, som er struktureret og afgrænset, er tekstdata komplekse, højdimensionelle og fri form. For effektivt at detektere drift i NLP, arbejder vi med indlejringer, som er lavdimensionelle repræsentationer af teksten. Du kan få indlejringer ved hjælp af forskellige sprogmodeller såsom Word2Vec og transformer-baserede modeller som f.eks BERTI. Disse modeller projicerer højdimensionelle data ind i lavdimensionelle rum, mens tekstens semantiske information bevares. Resultaterne er tætte og kontekstuelt meningsfulde vektorer, som kan bruges til forskellige downstream-opgaver, herunder overvågning af datadrift.

I vores løsning bruger vi indlejringer til at detektere kovariatforskydningen af engelske sætninger. Vi bruger Model Monitor til at lette kontinuerlig overvågning af en tekstklassifikator, der er implementeret i et produktionsmiljø. Vores tilgang består af følgende trin:

Finjuster en BERT-model ved hjælp af SageMaker.
Implementer en finjusteret BERT-klassifikator som et slutpunkt i realtid med datafangst aktiveret.
Opret et basisdatasæt, der består af et udsnit af de sætninger, der bruges til at træne BERT-klassifikatoren.
Opret en tilpasset SageMaker overvågningsjob at beregne cosinus-ligheden mellem de data, der er fanget i produktionen, og baseline-datasættet.

Følgende diagram illustrerer løsningens arbejdsgang:

Finjuster en BERT-model

I dette indlæg bruger vi Corpus of Linguistic Acceptability (CoLA), et datasæt med 10,657 engelske sætninger mærket som grammatiske eller ugrammatiske fra offentliggjort lingvistiklitteratur. Vi bruger SageMaker-træning til at finjustere en BERT-model ved hjælp af CoLa-datasættet ved at definere en PyTorch-estimatorklasse. For mere information om, hvordan du bruger denne SDK med PyTorch, se Brug PyTorch med SageMaker Python SDK. Ringer til fit() estimatorens metode starter træningsopgaven:

from sagemaker.pytorch import PyTorch # place to save model artifact
output_path = f"s3://{bucket}/{model_prefix}" estimator = PyTorch( entry_point="train_deploy.py", source_dir="code", role=role, framework_version="1.7.1", py_version="py3", instance_count=1, instance_type="ml.p3.2xlarge", output_path=output_path, hyperparameters={ "epochs": 1, "num_labels": 2, "backend": "gloo", }, disable_profiler=True, # disable debugger
)
estimator.fit({"training": inputs_train, "testing": inputs_test})

Implementer modellen

Efter at have trænet vores model, hoster vi den på et SageMaker-slutpunkt. For at få slutpunktet til at indlæse modellen og tjene forudsigelser implementerer vi et par metoder i train_deploy.py:

model_fn() – Indlæser den gemte model og returnerer et modelobjekt, der kan bruges til modelservering. SageMaker PyTorch-modelserveren indlæser vores model ved at påkalde model_fn.
input_fn() – Deserialiserer og forbereder forudsigelsesinput. I dette eksempel bliver vores anmodningstekst først serialiseret til JSON og derefter sendt til modelserveringsendepunktet. Derfor i input_fn(), deserialiserer vi først den JSON-formaterede anmodningstekst og returnerer inputtet som en torch.tensor, som krævet for BERT.
forudsige_fn() – Udfører forudsigelsen og returnerer resultatet.

Aktiver Model Monitor datafangst

Vi aktiverer Model Monitor datafangst at registrere inputdataene i Amazon Simple Storage Service (Amazon S3) spand for at henvise til det senere:

data_capture_config = DataCaptureConfig(enable_capture=True, sampling_percentage=100, destination_s3_uri=s3_capture_upload_path)

Derefter opretter vi et SageMaker-slutpunkt i realtid med modellen oprettet i det foregående trin:

predictor = estimator.deploy(endpoint_name='nlp-data-drift-bert-endpoint', initial_instance_count=1, instance_type="ml.m4.xlarge", data_capture_config=data_capture_config)

Inferens

Vi kører forudsigelse ved hjælp af prædiktorobjektet, som vi oprettede i det forrige trin. Vi indstiller JSON serializer og deserializer, som bruges af inferensendepunktet:

print("Sending test traffic to the endpoint {}. nPlease wait...".format(endpoint_name)) result = predictor.predict([ "Thanks so much for driving me home", "Thanks so much for cooking dinner. I really appreciate it", "Nice to meet you, Sergio. So, where are you from"
])

Realtidsslutpunktet er konfigureret til at fange data fra anmodningen, og svaret og dataene gemmes i Amazon S3. Du kan se de data, der er fanget i den tidligere overvågningsplan.

Opret en baseline

Vi bruger en finjusteret BERT-model til at udtrække sætningsindlejringsfunktioner fra træningsdataene. Vi bruger disse vektorer som funktionsinput af høj kvalitet til at sammenligne cosinusafstand, fordi BERT producerer dynamisk ordrepræsentation med semantisk kontekst. Udfør følgende trin for at få sætningsindlejring:

Brug en BERT-tokenizer til at få token-id'er for hvert token (input_id) i inputsætningen og masken for at angive, hvilke elementer i inputsekvensen der er tokens vs. padding-elementer (attention_mask_id). Vi bruger BERT tokenizer.encode_plus funktion for at få disse værdier for hver inputsætning:

#Add instantiation of tokenizer
encoded_dict = tokenizer.encode_plus( sent, # Input Sentence to encode. add_special_tokens = True, # Add '[CLS]' and '[SEP]' max_length = 64, # Pad sentence to max_length pad_to_max_length = True, # Truncate sentence to max_length return_attention_mask = True, #BERT model needs attention_mask return_tensors = 'pt', # Return pytorch tensors. )
input_ids = encoded_dict['input_ids']
attention_mask_ids = encoded_dict['attention_mask']

input_ids , attention_mask_ids overføres til modellen og henter netværkets skjulte tilstande. Det hidden_states har fire dimensioner i følgende rækkefølge:

Lagnummer (BERT har 12 lag)
Batchnummer (1 sætning)
Word token indekser
Skjulte enheder (768 funktioner)

Brug de sidste to skjulte lag til at få en enkelt vektor (sætningsindlejring) ved at beregne gennemsnittet af alle input-tokens i sætningen:

outputs = model(input_ids, attention_mask_ids) # forward pass to model
hidden_states = outputs[2] # token vectors
token_vecs = hidden_states[-2][0] # last 2 layer hidden states
sentence_embedding = torch.mean(token_vecs, dim=0) # average token vectors

Konverter sætningsindlejringen som et NumPy-array og gem det på en Amazon S3-placering som en baseline, der bruges af Model Monitor:

sentence_embeddings_list = []for i in sentence_embeddings:sentence_embeddings_list.append(i.numpy()) np.save('embeddings.npy', sentence_embeddings_list) #Upload the sentence embedding to S3
!aws s3 cp embeddings.npy s3://{bucket}/{model_prefix}/embeddings/

Evalueringsmanuskript

Model Monitor giver en forudbygget container med mulighed for at analysere data, der er opsamlet fra slutpunkter til tabeldatasæt. Hvis du ønsker at medbringe din egen container, giver Model Monitor forlængelsespunkter, som du kan bruge. Når du opretter en MonitoringSchedule, Model Monitor starter i sidste ende behandlingsjob. Derfor skal containeren være opmærksom på behandlerjobkontrakten. Vi skal oprette et evalueringsscript, der er kompatibelt med container kontrakt input , udgange.

Model Monitor bruger evalueringskode på alle de prøver, der fanges under overvågningsplanen. For hvert inferensdatapunkt beregner vi sætningsindlejringen ved hjælp af den samme logik beskrevet tidligere. Cosinus-lighed bruges som en afstandsmetrik til at måle ligheden mellem et inferensdatapunkt og sætningsindlejringer i basislinjen. Matematisk måler den cosinusvinklen mellem to sætningsvektorer. En høj cosinus-lighedsscore indikerer lignende sætningsindlejringer. En lavere cosinus-lighedsscore indikerer datadrift. Vi beregner et gennemsnit af alle cosinus-lighedsscorerne, og hvis det er mindre end tærsklen, bliver det fanget i overtrædelsesrapporten. Baseret på use casen kan du bruge andre afstandsmålinger som f.eks manhattan or euclidean at måle ligheden mellem sætningsindlejringer.

Følgende diagram viser, hvordan vi bruger SageMaker Model Monitoring til at etablere baseline og detektere datadrift ved hjælp af cosinusafstandslighed.

Følgende er koden til beregning af overtrædelserne; det komplette evalueringsscript er tilgængeligt på GitHub:

for embed_item in embedding_list: # all sentence embeddings from baseline cosine_score += (1 - cosine(input_sentence_embedding, embed_item)) # cosine distance between input sentence embedding and baseline embedding
cosine_score_avg = cosine_score/(len(embedding_list)) # average cosine score of input sentence
if cosine_score_avg < env.max_ratio_threshold: # compare averge cosine score against a threshold sent_cosine_dict[record] = cosine_score_avg # capture details for violation report violations.append({ "sentence": record, "avg_cosine_score": cosine_score_avg, "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "endpoint_name" : env.sagemaker_endpoint_name, "monitoring_schedule_name": env.sagemaker_monitoring_schedule_name })

Mål datadrift ved hjælp af Model Monitor

I dette afsnit fokuserer vi på at måle datadrift ved hjælp af Model Monitor. Model Monitor præ-byggede skærme er drevet af Deequ, som er et bibliotek bygget oven på Apache Spark til at definere enhedstests for data, som måler datakvalitet i store datasæt. Du behøver ikke kodning for at bruge disse forudbyggede overvågningsfunktioner. Du har også fleksibiliteten til at overvåge modeller ved at kode for at levere tilpasset analyse. Du kan indsamle og gennemgå alle metrics udsendt af Model Monitor i Amazon SageMaker Studio, så du visuelt kan analysere din models ydeevne uden at skrive yderligere kode.

I visse scenarier, for eksempel når dataene ikke er i tabelform, er standardbehandlingsjobbet (drevet af Deequ) er ikke tilstrækkeligt, fordi det kun understøtter tabeldatasæt. De præbyggede skærme er muligvis ikke tilstrækkelige til at generere sofistikerede metrics til at detektere drift, og det kan være nødvendigt at medbringe dine egne metrics. I de næste afsnit beskriver vi opsætningen for at bringe dine metrics ind ved at bygge en tilpasset container.

Byg den tilpassede Model Monitor-beholder

Vi bruger evalueringsmanuskript fra det forrige afsnit for at bygge en Docker-container og skubbe den til Amazon Elastic Container Registry (Amazon ECR):

#Build a docker container and push to ECR account_id = boto3.client('sts').get_caller_identity().get('Account')
ecr_repository = 'nlp-data-drift-bert-v1'
tag = ':latest'
region = boto3.session.Session().region_name
sm = boto3.client('sagemaker')
uri_suffix = 'amazonaws.com'
if region in ['cn-north-1', 'cn-northwest-1']: uri_suffix = 'amazonaws.com.cn' processing_repository_uri = f'{account_id}.dkr.ecr.{region}.{uri_suffix}/{ecr_repository + tag}'
# Creating the ECR repository and pushing the container image !docker build -t $ecr_repository docker !$(aws ecr get-login --region $region --registry-ids $account_id --no-include-email) !aws ecr create-repository --repository-name $ecr_repository !docker tag {ecr_repository + tag} $processing_repository_uri!docker push $processing_repository_uri

Når kundens Docker-container er i Amazon ECR, kan vi planlægge et modelovervågningsjob og generere en overtrædelsesrapport, som vist i de næste afsnit.

Planlæg et modelovervågningsjob

For at planlægge et modelovervågningsjob opretter vi en forekomst af Model Monitor og i image_uri, henviser vi til Docker-beholderen, som vi oprettede i det forrige afsnit:

from sagemaker.model_monitor import ModelMonitor monitor = ModelMonitor( base_job_name='nlp-data-drift-bert-v1', role=role, image_uri=processing_repository_uri, instance_count=1, instance_type='ml.m5.large', env={ 'THRESHOLD':'0.5', 'bucket': bucket },
)

Vi planlægger overvågningsopgaven ved hjælp af create_monitoring_schedule API. Du kan planlægge overvågningsopgaven på time- eller daglig basis. Du konfigurerer jobbet ved hjælp af destination parameter, som vist i følgende kode:

from sagemaker.model_monitor import CronExpressionGenerator, MonitoringOutput
from sagemaker.processing import ProcessingInput, ProcessingOutput destination = f's3://{sagemaker_session.default_bucket()}/{prefix}/{endpoint_name}/monitoring_schedule' processing_output = ProcessingOutput( output_name='result', source='/opt/ml/processing/resultdata', destination=destination,
)
output = MonitoringOutput(source=processing_output.source, destination=processing_output.destination) monitor.create_monitoring_schedule( monitor_schedule_name='nlp-data-drift-bert-schedule', output=output, endpoint_input=predictor.endpoint_name, schedule_cron_expression=CronExpressionGenerator.hourly(),
)

For at beskrive og liste overvågningsplanen og dens kørsler kan du bruge følgende kommandoer:

monitor.describe_schedule()
print(monitor.list_executions())

Rapport om overtrædelse af datadrift

Når modelovervågningsjobbet er fuldført, kan du navigere til destinations-S3-stien for at få adgang til overtrædelsesrapporterne. Denne rapport indeholder alle de input, hvis gennemsnitlige cosinusscore (avg_cosine_score) er under tærsklen, der er konfigureret som en miljøvariabel THRESHOLD:0.5 i ModelMonitor eksempel. Dette er en indikation af, at de data, der observeres under inferens, glider ud over den etablerede baseline.

Følgende kode viser den genererede overtrædelsesrapport:

{ "violations": [ { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Thanks so much for driving me home", "avg_cosine_score": 0.36653404209142876 }, { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Thanks so much for cooking dinner. I really appreciate it", "avg_cosine_score": 0.34974955975723576 }, { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Nice to meet you, Sergio. So, where are you from", "avg_cosine_score": 0.378982806084463 } ]
}

Endelig kan du, baseret på denne observation, konfigurere din model til genoptræning. Du kan også aktivere Amazon Simple Notification Service (Amazon SNS) underretninger for at sende advarsler, når der opstår overtrædelser.

Konklusion

Model Monitor giver dig mulighed for at opretholde den høje kvalitet af dine modeller i produktionen. I dette indlæg fremhævede vi udfordringerne med at overvåge datadrift på ustrukturerede data som tekst og leverede en intuitiv tilgang til at opdage datadrift ved hjælp af et tilpasset overvågningsscript. Du kan finde koden tilknyttet indlægget i det følgende GitHub repository. Derudover kan du tilpasse løsningen til at bruge andre afstandsmålinger som f.eks maksimal gennemsnitlig uoverensstemmelse (MMD), en ikke-parametrisk afstandsmetrik til at beregne marginalfordeling mellem kilde- og målfordeling på det indlejrede rum.

Om forfatterne

Vikram Elango er en AI/ML Specialist Solutions Architect hos Amazon Web Services, baseret i Virginia, USA. Vikram hjælper finans- og forsikringsbranchens kunder med design, tankelederskab til at bygge og implementere maskinlæringsapplikationer i stor skala. Han er i øjeblikket fokuseret på naturlig sprogbehandling, ansvarlig AI, inferensoptimering og skalering af ML på tværs af virksomheden. I sin fritid nyder han at rejse, vandre, lave mad og campere med sin familie.

Raghu Ramesha er en ML Solutions Architect hos Amazon SageMaker Service-teamet. Han fokuserer på at hjælpe kunder med at migrere ML-produktionsarbejdsbelastninger til SageMaker i stor skala. Han har specialiseret sig i maskinlæring, kunstig intelligens og computersyn og har en mastergrad i datalogi fra UT Dallas. I sin fritid nyder han at rejse og fotografere.

Tony Chen er en Machine Learning Solutions Architect hos Amazon Web Services, der hjælper kunder med at designe skalerbare og robuste maskinlæringsfunktioner i skyen. Som tidligere dataforsker og dataingeniør udnytter han sin erfaring til at hjælpe med at tackle nogle af de mest udfordrende problemer, organisationer står over for med at operationalisere maskinlæring.