Entwickeln, trainieren und implementieren Sie ein Spam-Filtermodell auf der Hortonworks-Datenplattform mit Watson Studio Local

Neuauflage von Plato

Verfolger: 0

Watson Studio Local ist jetzt Teil von IBM Cloud Pak for Data. Erfahren Sie mehr Cloud Pak für Daten.

Zusammenfassung

Dieses Codemuster zeigt, wie Datenwissenschaftler Remote-Spark-Cluster und Rechenumgebungen nutzen können, um ein Spam-Filtermodell zu trainieren und bereitzustellen. Das Modell basiert auf Algorithmen zur Verarbeitung natürlicher Sprache und maschinellem Lernen und wird verwendet, um zu klassifizieren, ob es sich bei einer bestimmten Textnachricht um Spam handelt oder nicht.

Beschreibung

Dieses Codemuster ist eine Demonstration, wie Datenwissenschaftler Remote-Spark-Cluster und Rechenumgebungen von Hortonworks Data Platform (HDP) nutzen können, um ein Spam-Filtermodell mit Watson Studio Local zu trainieren und bereitzustellen

Ein Spamfilter ist ein Klassifizierungsmodell, das mithilfe von Algorithmen zur Verarbeitung natürlicher Sprache und maschinellem Lernen erstellt wurde. Das Modell wird anhand eines SMS-Spam-Sammeldatensatzes trainiert, um zu klassifizieren, ob es sich bei einer bestimmten Textnachricht um Spam oder Ham (kein Spam) handelt.

Dieses Codemuster bietet mehrere Beispiele zur Bewältigung dieses Problems, wobei sowohl lokale (Watson Studio Local) als auch Remote-Ressourcen (HDP-Cluster) genutzt werden.

Nachdem Sie dieses Codemuster ausgefüllt haben, erfahren Sie, wie Sie:

Laden Sie Daten in Spark DataFrames und nutzen Sie die Machine-Learning-Bibliothek (MLlib) von Spark, um das Spam-Filtermodell zu entwickeln, zu trainieren und bereitzustellen.
Laden Sie die Daten in Pandas DataFrames und verwenden Sie die Scikit-Learn-Bibliothek für maschinelles Lernen, um das Spam-Filtermodell zu entwickeln, zu trainieren und bereitzustellen.
Verwenden Sie die Sparkmagics-Bibliothek, um über den Hadoop-Integrationsdienst eine Verbindung zum Remote-Spark-Dienst im HDP-Cluster herzustellen.
Verwenden Sie die Sparkmagics-Bibliothek, um die virtuelle Python-Umgebung, die die Scikit-learn-Bibliothek enthält, über den Hadoop-Integrationsdienst an den Remote-HDP-Cluster zu übertragen.
Verpacken Sie das Spam-Filter-Modell als Python-Ei und verteilen Sie das Ei über den Hadoop-Integrationsdienst an den Remote-HDP-Cluster.
Führen Sie das Spam-Filtermodell (sowohl PySpark- als auch Scikit-learn-Versionen) im Remote-HDP-Cluster aus und nutzen Sie dabei den Remote-Spark-Kontext und die Remote-Python-Virtual-Umgebung, alles in IBM Watson Studio Local.
Speichern Sie das Spam-Filter-Modell im Remote-HDP-Cluster, importieren Sie es zurück in Watson Studio Local und führen Sie eine Batch-Bewertung durch, und werten Sie das Modell aus.

Flow

Fluss

Der Spam-Sammlungsdatensatz wird als Asset in Watson Studio Local geladen.
Der Benutzer interagiert mit den Jupyter-Notebooks, indem er sie in Watson Studio Local ausführt.
Watson Studio Local kann entweder die lokal verfügbaren Ressourcen nutzen oder HDP-Cluster-Ressourcen nutzen, indem es eine Verbindung zu Apache Livy herstellt, das Teil des Hadoop-Integrationsdienstes ist.
Livy stellt eine Verbindung zum HDP-Cluster her, um Apache Spark auszuführen oder auf HDFS-Dateien zuzugreifen.