Sviluppa, addestra e distribuisci un modello di filtro antispam sulla piattaforma dati Hortonworks utilizzando Watson Studio Local

Ripubblicato da Platone

Seguaci: 0

Watson Studio Local ora fa parte di IBM Cloud Pak for Data. Saperne di più Cloud Pak per i dati.

Sommario

Questo modello di codice dimostra come i data scientist possono sfruttare i cluster Spark remoti e gli ambienti di elaborazione per addestrare e distribuire un modello di filtro antispam. Il modello è costruito utilizzando l'elaborazione del linguaggio naturale e algoritmi di apprendimento automatico e viene utilizzato per classificare se un determinato messaggio di testo è spam o meno.

Descrizione

Questo modello di codice è una dimostrazione di come i data scientist possono sfruttare i cluster Spark remoti e gli ambienti di elaborazione di Hortonworks Data Platform (HDP) per addestrare e distribuire un modello di filtro antispam utilizzando Watson Studio Local

Un filtro antispam è un modello di classificazione creato utilizzando l'elaborazione del linguaggio naturale e algoritmi di apprendimento automatico. Il modello viene addestrato su un set di dati di raccolta di spam tramite SMS per classificare se un determinato messaggio di testo è spam o ham (non spam).

Questo modello di codice fornisce più esempi per affrontare questo problema, utilizzando risorse sia locali (Watson Studio Local) che remote (cluster HDP).

Dopo aver completato questo modello di codice, capirai come:

Carica i dati in Spark DataFrames e utilizza la libreria di machine learning di Spark (MLlib) per sviluppare, addestrare e distribuire il modello di filtro antispam.
Carica i dati nei DataFrames panda e utilizza la libreria di apprendimento automatico Scikit-learn per sviluppare, addestrare e distribuire il modello di filtro antispam.
Utilizza la libreria sparkmagics per connetterti al servizio Spark remoto nel cluster HDP tramite il servizio di integrazione Hadoop.
Utilizza la libreria sparkmagics per inviare l'ambiente virtuale Python contenente la libreria Scikit-learn al cluster HDP remoto tramite il servizio di integrazione Hadoop.
Crea il pacchetto del modello Spam Filter come un uovo di Python e distribuisci l'uovo al cluster HDP remoto tramite il servizio di integrazione Hadoop.
Esegui il modello di filtro antispam (entrambe le versioni PySpark e Scikit-learn) nel cluster HDP remoto utilizzando il contesto Spark remoto e l'ambiente virtuale Python remoto, il tutto dall'interno di IBM Watson Studio Local.
Salva il modello di filtro antispam nel cluster HDP remoto e importalo nuovamente in Watson Studio Local, nel punteggio batch e valuta il modello.

Flow

flusso

Il set di dati di raccolta spam viene caricato in Watson Studio Local come risorsa.
L'utente interagisce con i notebook Jupyter eseguendoli in Watson Studio Local.
Watson Studio Local può utilizzare le risorse disponibili localmente oppure utilizzare le risorse del cluster HDP connettendosi ad Apache Livy, che fa parte del servizio Hadoop Integration.
Livy si connette al cluster HDP per eseguire Apache Spark o accedere ai file HDFS.