Develop, Train, And Deploy A Spam Filter Model On Hortonworks Data Platform Using Watson Studio Local

Återutgiven av Platon

anhängare: 0

Watson Studio Local är nu en del av IBM Cloud Pak for Data. Läs mer Cloud Pak för data.

Sammanfattning

Detta kodmönster visar hur dataforskare kan utnyttja fjärranslutna Spark-kluster och datormiljöer för att träna och distribuera en skräppostfiltermodell. Modellen är byggd med hjälp av naturlig språkbehandling och maskininlärningsalgoritmer och används för att klassificera om ett givet textmeddelande är skräppost eller inte.

Beskrivning

Detta kodmönster är en demonstration av hur dataforskare kan utnyttja fjärranslutna Spark-kluster och datormiljöer från Hortonworks Data Platform (HDP) för att träna och distribuera en skräppostfiltermodell med Watson Studio Local

Ett spamfilter är en klassificeringsmodell byggd med hjälp av naturlig språkbehandling och maskininlärningsalgoritmer. Modellen tränas på en datauppsättning för insamling av skräppost för SMS för att klassificera om ett givet textmeddelande är skräppost eller skinka (inte skräppost).

Detta kodmönster ger flera exempel för att lösa det här problemet, med hjälp av både lokala (Watson Studio Local) och fjärrresurser (HDP-kluster).

När du har slutfört detta kodmönster förstår du hur du:

Ladda data i Spark DataFrames och använd Sparks maskininlärningsbibliotek (MLlib) för att utveckla, träna och distribuera skräppostfiltermodellen.
Ladda in data i pandas DataFrames och använd Scikit-learn maskininlärningsbibliotek för att utveckla, träna och distribuera skräppostfiltermodellen.
Använd sparkmagics-biblioteket för att ansluta till fjärrtjänsten Spark i HDP-klustret via Hadoop-integrationstjänsten.
Använd sparkmagics-biblioteket för att överföra den virtuella pythonmiljön som innehåller Scikit-learn-biblioteket till det fjärranslutna HDP-klustret via Hadoop Integration-tjänsten.
Paketera skräppostfiltermodellen som ett pytonägg och distribuera ägget till det fjärranslutna HDP-klustret via Hadoop-integrationstjänsten.
Kör skräppostfiltermodellen (både PySpark- och Scikit-lärande versioner) i det fjärranslutna HDP-klustret med hjälp av fjärrkontexten Spark och den virtuella fjärrmiljön för Python, allt från IBM Watson Studio Local.
Spara skräppostfiltermodellen i det fjärranslutna HDP-klustret och importera tillbaka den till Watson Studio Local och batchpoäng, och utvärdera modellen.

Flöde

flöda

Datauppsättningen för insamling av skräppost läses in i Watson Studio Local som en tillgång.
Användaren interagerar med Jupyter-anteckningsböckerna genom att köra dem i Watson Studio Local.
Watson Studio Local kan antingen använda de tillgängliga resurserna lokalt eller använda HDP-klusterresurser genom att ansluta till Apache Livy, som är en del av Hadoop Integration-tjänsten.
Livy ansluter till HDP-klustret för att köra Apache Spark eller komma åt HDFS-filer.