Rileva la deriva dei dati NLP utilizzando Amazon SageMaker Model Monitor personalizzato

Ripubblicato da Platone

Seguaci: 0

La comprensione del linguaggio naturale viene applicata in un'ampia gamma di casi d'uso, da chatbot e assistenti virtuali, alla traduzione automatica e al riepilogo del testo. Per garantire che queste applicazioni vengano eseguite al livello di prestazioni previsto, è importante che i dati negli ambienti di formazione e produzione provengano dalla stessa distribuzione. Quando i dati utilizzati per l'inferenza (dati di produzione) differiscono dai dati utilizzati durante l'addestramento del modello, si verifica un fenomeno noto come deriva dei dati. Quando si verifica la deriva dei dati, il modello non è più rilevante per i dati in produzione e probabilmente ha prestazioni peggiori del previsto. È importante monitorare continuamente i dati di inferenza e confrontarli con i dati utilizzati durante l'allenamento.

Puoi usare Amazon Sage Maker per creare, addestrare e distribuire rapidamente modelli di machine learning (ML) su qualsiasi scala. Come misura proattiva contro il degrado del modello, puoi utilizzare Monitor modello Amazon SageMaker per monitorare continuamente la qualità dei tuoi modelli ML in tempo reale. Con Model Monitor, puoi anche configurare avvisi per notificare e attivare azioni se si osserva una deriva nelle prestazioni del modello. Il rilevamento tempestivo e proattivo di queste deviazioni consente di intraprendere azioni correttive, come la raccolta di nuovi dati di training sulla verità di base, la riqualificazione dei modelli e l'audit dei sistemi a monte, senza dover monitorare manualmente i modelli o creare strumenti aggiuntivi.

Model Monitor offre quattro diversi tipi di funzionalità di monitoraggio per rilevare e mitigare la deriva del modello in tempo reale:

Qualità dei dati – Aiuta a rilevare il cambiamento negli schemi dei dati e nelle proprietà statistiche di variabili indipendenti e avvisa quando viene rilevata una deriva.
Qualità del modello – Per monitorare le caratteristiche delle prestazioni del modello come l'accuratezza o la precisione in tempo reale, Model Monitor consente di acquisire le etichette di verità al suolo raccolte dalle applicazioni. Model Monitor unisce automaticamente le informazioni di base con i dati di previsione per calcolare le metriche delle prestazioni del modello.
Bias di modello –Model Monitor è integrato con Amazon SageMaker Chiarire per migliorare la visibilità in potenziali pregiudizi. Sebbene i dati o il modello iniziali possano non essere distorti, i cambiamenti nel mondo possono causare lo sviluppo di bias nel tempo in un modello che è già stato addestrato.
Spiegabilità del modello – Il rilevamento della deriva ti avvisa quando si verifica un cambiamento nell'importanza relativa delle attribuzioni delle funzionalità.

In questo post, discutiamo i tipi di deriva della qualità dei dati applicabili ai dati di testo. Presentiamo anche un approccio per rilevare la deriva dei dati nei dati di testo utilizzando Model Monitor.

Deriva dei dati nella PNL

La deriva dei dati può essere classificata in tre categorie a seconda che lo spostamento della distribuzione stia avvenendo sul lato dell'input o sul lato dell'output, o se la relazione tra l'input e l'output sia cambiata.

Spostamento covariato

In un spostamento covariato, la distribuzione degli input cambia nel tempo, ma la distribuzione condizionale P(y|x) non cambia. Questo tipo di deriva è chiamato spostamento covariato perché il problema sorge a causa di uno spostamento nella distribuzione delle covariate (caratteristiche). Ad esempio, in un modello di classificazione dello spam e-mail, la distribuzione dei dati di addestramento (corpora e-mail) può divergere dalla distribuzione dei dati durante il punteggio.

Spostamento etichetta

Mentre lo spostamento della covariata si concentra sui cambiamenti nella distribuzione delle caratteristiche, spostamento dell'etichetta si concentra sui cambiamenti nella distribuzione della variabile di classe. Questo tipo di spostamento è essenzialmente l'inverso dello spostamento covariato. Un modo intuitivo per pensarci potrebbe essere quello di considerare un set di dati sbilanciato. Se il rapporto tra spam e non spam delle e-mail nel nostro set di formazione è del 50%, ma in realtà il 10% delle nostre e-mail non è spam, la distribuzione dell'etichetta target è cambiata.

Cambio di concetto

Cambio di concetto è diverso dalla covariata e dallo spostamento dell'etichetta in quanto non è correlato alla distribuzione dei dati o alla distribuzione della classe, ma è invece correlato alla relazione tra le due variabili. Ad esempio, gli spammer e-mail utilizzano spesso una varietà di concetti per superare i modelli di filtro antispam e il concetto di e-mail utilizzato durante la formazione può cambiare con il passare del tempo.

Ora che comprendiamo i diversi tipi di deriva dei dati, vediamo come possiamo utilizzare Model Monitor per rilevare lo spostamento covariato nei dati di testo.

Panoramica della soluzione

A differenza dei dati tabulari, che sono strutturati e delimitati, i dati testuali sono complessi, ad alta dimensione e in forma libera. Per rilevare in modo efficiente la deriva nella PNL, lavoriamo con incorporamenti, che sono rappresentazioni a bassa dimensione del testo. È possibile ottenere incorporamenti utilizzando vari modelli di linguaggio come Word2Vec e modelli basati su trasformatori come BERTA. Questi modelli proiettano dati ad alta dimensione in spazi a bassa dimensione preservando le informazioni semantiche del testo. I risultati sono vettori densi e contestualmente significativi, che possono essere utilizzati per varie attività a valle, incluso il monitoraggio della deriva dei dati.

Nella nostra soluzione, utilizziamo gli incorporamenti per rilevare lo spostamento covariato delle frasi inglesi. Utilizziamo Model Monitor per facilitare il monitoraggio continuo di un classificatore di testo distribuito in un ambiente di produzione. Il nostro approccio si compone dei seguenti passaggi:

Perfeziona un modello BERT usando SageMaker.
Distribuisci un classificatore BERT ottimizzato come endpoint in tempo reale con acquisizione dati abilitato.
Crea un set di dati di base che consiste in un campione delle frasi utilizzate per addestrare il classificatore BERT.
Creare un lavoro di monitoraggio personalizzato di SageMaker per calcolare la somiglianza del coseno tra i dati acquisiti in produzione e il set di dati di base.

Il diagramma seguente illustra il flusso di lavoro della soluzione:

Perfeziona un modello BERT

In questo post, usiamo Corpus of Linguistic Acccepttability (CoLA), un set di dati di 10,657 frasi inglesi etichettate come grammaticali o non grammaticali dalla letteratura linguistica pubblicata. Usiamo la formazione SageMaker per mettere a punto un modello BERT utilizzando il set di dati CoLa definendo una classe di stima PyTorch. Per ulteriori informazioni su come utilizzare questo SDK con PyTorch, vedere Usa PyTorch con SageMaker Python SDK. chiamando il fit() metodo dello stimatore avvia il lavoro di formazione:

from sagemaker.pytorch import PyTorch # place to save model artifact
output_path = f"s3://{bucket}/{model_prefix}" estimator = PyTorch( entry_point="train_deploy.py", source_dir="code", role=role, framework_version="1.7.1", py_version="py3", instance_count=1, instance_type="ml.p3.2xlarge", output_path=output_path, hyperparameters={ "epochs": 1, "num_labels": 2, "backend": "gloo", }, disable_profiler=True, # disable debugger
)
estimator.fit({"training": inputs_train, "testing": inputs_test})

Distribuire il modello

Dopo aver addestrato il nostro modello, lo ospitiamo su un endpoint SageMaker. Per fare in modo che l'endpoint carichi il modello e serva le previsioni, implementiamo alcuni metodi in train_deploy.py:

modello_fn() – Carica il modello salvato e restituisce un oggetto modello che può essere utilizzato per la pubblicazione del modello. Il server del modello SageMaker PyTorch carica il nostro modello invocando model_fn.
input_fn () – Deserializza e prepara l'input di previsione. In questo esempio, il nostro corpo della richiesta viene prima serializzato su JSON e quindi inviato all'endpoint che serve il modello. Pertanto, in input_fn(), prima deserializziamo il corpo della richiesta in formato JSON e restituiamo l'input come a torch.tensor, come richiesto per BERT.
predict_fn () – Esegue la previsione e restituisce il risultato.

Abilita l'acquisizione dei dati di Model Monitor

Abilitiamo Modello Monitorare l'acquisizione dei dati per registrare i dati di input nel Servizio di archiviazione semplice Amazon Bucket (Amazon S3) per fare riferimento in seguito:

data_capture_config = DataCaptureConfig(enable_capture=True, sampling_percentage=100, destination_s3_uri=s3_capture_upload_path)

Quindi creiamo un endpoint SageMaker in tempo reale con il modello creato nel passaggio precedente:

predictor = estimator.deploy(endpoint_name='nlp-data-drift-bert-endpoint', initial_instance_count=1, instance_type="ml.m4.xlarge", data_capture_config=data_capture_config)

Inferenza

Eseguiamo la previsione utilizzando l'oggetto predittore che abbiamo creato nel passaggio precedente. Impostiamo il serializzatore e il deserializzatore JSON, che viene utilizzato dall'endpoint di inferenza:

print("Sending test traffic to the endpoint {}. nPlease wait...".format(endpoint_name)) result = predictor.predict([ "Thanks so much for driving me home", "Thanks so much for cooking dinner. I really appreciate it", "Nice to meet you, Sergio. So, where are you from"
])

L'endpoint in tempo reale è configurato per acquisire i dati dalla richiesta e la risposta e i dati vengono archiviati in Amazon S3. È possibile visualizzare i dati acquisiti nella pianificazione di monitoraggio precedente.

Crea una linea di base

Utilizziamo un modello BERT ottimizzato per estrarre le funzionalità di incorporamento delle frasi dai dati di addestramento. Usiamo questi vettori come input di funzionalità di alta qualità per confrontare la distanza del coseno perché BERT produce una rappresentazione dinamica delle parole con il contesto semantico. Completa i seguenti passaggi per ottenere l'incorporamento delle frasi:

Usa un tokenizzatore BERT per ottenere gli ID token per ogni token (input_id) nella frase di input e nella maschera per indicare quali elementi nella sequenza di input sono token rispetto agli elementi di riempimento (attention_mask_id). Usiamo il BERT tokenizer.encode_plus funzione per ottenere questi valori per ogni frase di input:

#Add instantiation of tokenizer
encoded_dict = tokenizer.encode_plus( sent, # Input Sentence to encode. add_special_tokens = True, # Add '[CLS]' and '[SEP]' max_length = 64, # Pad sentence to max_length pad_to_max_length = True, # Truncate sentence to max_length return_attention_mask = True, #BERT model needs attention_mask return_tensors = 'pt', # Return pytorch tensors. )
input_ids = encoded_dict['input_ids']
attention_mask_ids = encoded_dict['attention_mask']

input_ids ed attention_mask_ids vengono passati al modello e recuperano gli stati nascosti della rete. Il hidden_states ha quattro dimensioni nel seguente ordine:

Numero di livello (BERT ha 12 livelli)
Numero di lotto (1 frase)
Indici di token di parole
Unità nascoste (768 funzioni)

Usa gli ultimi due livelli nascosti per ottenere un singolo vettore (incorporamento di frasi) calcolando la media di tutti i token di input nella frase:

outputs = model(input_ids, attention_mask_ids) # forward pass to model
hidden_states = outputs[2] # token vectors
token_vecs = hidden_states[-2][0] # last 2 layer hidden states
sentence_embedding = torch.mean(token_vecs, dim=0) # average token vectors

Converti l'incorporamento della frase come array NumPy e archivialo in una posizione Amazon S3 come linea di base utilizzata da Model Monitor:

sentence_embeddings_list = []for i in sentence_embeddings:sentence_embeddings_list.append(i.numpy()) np.save('embeddings.npy', sentence_embeddings_list) #Upload the sentence embedding to S3
!aws s3 cp embeddings.npy s3://{bucket}/{model_prefix}/embeddings/

Script di valutazione

Model Monitor fornisce un contenitore predefinito con la capacità di analizzare i dati acquisiti dagli endpoint per set di dati tabulari. Se vuoi portare il tuo container, Model Monitor fornisce punti di estensione che puoi utilizzare. Quando crei un MonitoringSchedule, Model Monitor alla fine avvia i lavori di elaborazione. Pertanto, il container deve essere a conoscenza del contratto di lavoro di elaborazione. È necessario creare uno script di valutazione compatibile con container input contrattuali ed uscite.

Model Monitor utilizza il codice di valutazione su tutti i campioni acquisiti durante il programma di monitoraggio. Per ogni punto dati di inferenza, calcoliamo l'incorporamento della frase utilizzando la stessa logica descritta in precedenza. La somiglianza del coseno viene utilizzata come metrica della distanza per misurare la somiglianza di un punto dati di inferenza e incorporamenti di frasi nella linea di base. Matematicamente, misura l'angolo del coseno tra due vettori di incorporamento di frasi. Un alto punteggio di somiglianza del coseno indica incorporamenti di frasi simili. Un punteggio di somiglianza del coseno più basso indica una deriva dei dati. Calcoliamo una media di tutti i punteggi di somiglianza del coseno e, se è inferiore alla soglia, viene catturata nel rapporto di violazione. In base al caso d'uso, puoi utilizzare altre metriche di distanza come manhattan or euclidean per misurare la somiglianza degli incorporamenti di frasi.

Il diagramma seguente mostra come utilizziamo il monitoraggio del modello SageMaker per stabilire la linea di base e rilevare la deriva dei dati utilizzando la somiglianza della distanza del coseno.

Di seguito il codice per il calcolo delle violazioni; lo script di valutazione completo è disponibile su GitHub:

for embed_item in embedding_list: # all sentence embeddings from baseline cosine_score += (1 - cosine(input_sentence_embedding, embed_item)) # cosine distance between input sentence embedding and baseline embedding
cosine_score_avg = cosine_score/(len(embedding_list)) # average cosine score of input sentence
if cosine_score_avg < env.max_ratio_threshold: # compare averge cosine score against a threshold sent_cosine_dict[record] = cosine_score_avg # capture details for violation report violations.append({ "sentence": record, "avg_cosine_score": cosine_score_avg, "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "endpoint_name" : env.sagemaker_endpoint_name, "monitoring_schedule_name": env.sagemaker_monitoring_schedule_name })

Misura la deriva dei dati utilizzando Model Monitor

In questa sezione, ci concentreremo sulla misurazione della deriva dei dati utilizzando Model Monitor. I monitor pre-costruiti Model Monitor sono alimentati da Dequ, che è una libreria basata su Apache Spark per la definizione di unit test per i dati, che misurano la qualità dei dati in set di dati di grandi dimensioni. Non è necessaria la codifica per utilizzare queste funzionalità di monitoraggio predefinite. Hai anche la flessibilità di monitorare i modelli codificando per fornire analisi personalizzate. Puoi raccogliere e rivedere tutte le metriche emesse da Model Monitor in Amazon Sage Maker Studio, in modo da poter analizzare visivamente le prestazioni del modello senza scrivere codice aggiuntivo.

In alcuni scenari, ad esempio quando i dati non sono tabulari, il processo di elaborazione predefinito (con tecnologia Dequ) non è sufficiente perché supporta solo set di dati tabulari. I monitor predefiniti potrebbero non essere sufficienti per generare metriche sofisticate per rilevare le derive e potrebbe essere necessario portare le tue metriche. Nelle sezioni successive, descriviamo la configurazione per inserire le tue metriche creando un contenitore personalizzato.

Crea il contenitore Model Monitor personalizzato

Usiamo il copione di valutazione dalla sezione precedente per creare un contenitore Docker e inviarlo Registro dei contenitori Amazon Elastic (Amazon ECR):

#Build a docker container and push to ECR account_id = boto3.client('sts').get_caller_identity().get('Account')
ecr_repository = 'nlp-data-drift-bert-v1'
tag = ':latest'
region = boto3.session.Session().region_name
sm = boto3.client('sagemaker')
uri_suffix = 'amazonaws.com'
if region in ['cn-north-1', 'cn-northwest-1']: uri_suffix = 'amazonaws.com.cn' processing_repository_uri = f'{account_id}.dkr.ecr.{region}.{uri_suffix}/{ecr_repository + tag}'
# Creating the ECR repository and pushing the container image !docker build -t $ecr_repository docker !$(aws ecr get-login --region $region --registry-ids $account_id --no-include-email) !aws ecr create-repository --repository-name $ecr_repository !docker tag {ecr_repository + tag} $processing_repository_uri!docker push $processing_repository_uri

Quando il container Docker del cliente si trova in Amazon ECR, possiamo pianificare un processo di monitoraggio del modello e generare un rapporto sulle violazioni, come dimostrato nelle sezioni successive.

Pianificare un lavoro di monitoraggio del modello

Per pianificare un lavoro di monitoraggio del modello, creiamo un'istanza di Model Monitor e in image_uri, ci riferiamo al contenitore Docker che abbiamo creato nella sezione precedente:

from sagemaker.model_monitor import ModelMonitor monitor = ModelMonitor( base_job_name='nlp-data-drift-bert-v1', role=role, image_uri=processing_repository_uri, instance_count=1, instance_type='ml.m5.large', env={ 'THRESHOLD':'0.5', 'bucket': bucket },
)

Pianifichiamo il lavoro di monitoraggio utilizzando il create_monitoring_schedule API. È possibile pianificare il lavoro di monitoraggio su base oraria o giornaliera. Configurare il lavoro utilizzando il destination parametro, come mostrato nel codice seguente:

from sagemaker.model_monitor import CronExpressionGenerator, MonitoringOutput
from sagemaker.processing import ProcessingInput, ProcessingOutput destination = f's3://{sagemaker_session.default_bucket()}/{prefix}/{endpoint_name}/monitoring_schedule' processing_output = ProcessingOutput( output_name='result', source='/opt/ml/processing/resultdata', destination=destination,
)
output = MonitoringOutput(source=processing_output.source, destination=processing_output.destination) monitor.create_monitoring_schedule( monitor_schedule_name='nlp-data-drift-bert-schedule', output=output, endpoint_input=predictor.endpoint_name, schedule_cron_expression=CronExpressionGenerator.hourly(),
)

Per descrivere ed elencare la pianificazione del monitoraggio e le sue esecuzioni, è possibile utilizzare i seguenti comandi:

monitor.describe_schedule()
print(monitor.list_executions())

Rapporto di violazione della deriva dei dati

Al termine del processo di monitoraggio del modello, è possibile passare al percorso S3 di destinazione per accedere alle segnalazioni di violazione. Questo rapporto contiene tutti gli input il cui punteggio medio del coseno (avg_cosine_score) è al di sotto della soglia configurata come variabile di ambiente THRESHOLD:0.5 nel Modello Monitor esempio. Questa è un'indicazione che i dati osservati durante l'inferenza stanno andando alla deriva oltre la linea di base stabilita.

Il codice seguente mostra la segnalazione di violazione generata:

{ "violations": [ { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Thanks so much for driving me home", "avg_cosine_score": 0.36653404209142876 }, { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Thanks so much for cooking dinner. I really appreciate it", "avg_cosine_score": 0.34974955975723576 }, { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Nice to meet you, Sergio. So, where are you from", "avg_cosine_score": 0.378982806084463 } ]
}

Infine, sulla base di questa osservazione, puoi configurare il tuo modello per la riqualificazione. Puoi anche abilitare Servizio di notifica semplice Amazon (Amazon SNS) notifiche per inviare avvisi quando si verificano violazioni.

Conclusione

Model Monitor ti consente di mantenere l'alta qualità dei tuoi modelli in produzione. In questo post, abbiamo evidenziato le sfide con il monitoraggio della deriva dei dati su dati non strutturati come il testo e abbiamo fornito un approccio intuitivo per rilevare la deriva dei dati utilizzando uno script di monitoraggio personalizzato. Di seguito puoi trovare il codice associato al post Repository GitHub. Inoltre, puoi personalizzare la soluzione per utilizzare altre metriche di distanza come discrepanza media massima (MMD), una metrica di distanza non parametrica per calcolare la distribuzione marginale tra la distribuzione di origine e quella di destinazione nello spazio incorporato.

Informazioni sugli autori

Vikram Elango è un AI/ML Specialist Solutions Architect presso Amazon Web Services, con sede in Virginia, USA. Vikram aiuta i clienti del settore finanziario e assicurativo con la progettazione e la leadership di pensiero a creare e distribuire applicazioni di machine learning su larga scala. Attualmente è concentrato sull'elaborazione del linguaggio naturale, sull'IA responsabile, sull'ottimizzazione dell'inferenza e sul ridimensionamento del ML in tutta l'azienda. Nel tempo libero ama viaggiare, fare escursioni, cucinare e fare campeggio con la sua famiglia.

Raghu Ramesha è un ML Solutions Architect con il team di Amazon SageMaker Service. Si concentra sull'aiutare i clienti a migrare i carichi di lavoro di produzione ML a SageMaker su larga scala. È specializzato in domini di apprendimento automatico, intelligenza artificiale e visione artificiale e ha conseguito un master in informatica presso UT Dallas. Nel tempo libero ama viaggiare e la fotografia.

Tony Chen è un architetto di soluzioni di machine learning presso Amazon Web Services, che aiuta i clienti a progettare funzionalità di machine learning scalabili e solide nel cloud. In qualità di ex data scientist e ingegnere dei dati, sfrutta la sua esperienza per aiutare ad affrontare alcuni dei problemi più difficili che le organizzazioni devono affrontare con l'operazionalizzazione dell'apprendimento automatico.