با استفاده از Watson Studio Local - Plato AiStream V2.1 یک مدل فیلتر هرزنامه را در پلتفرم داده Hortonworks توسعه دهید، آموزش دهید، و استقرار دهید.

بازنشر افلاطون

دنبال: 0

Watson Studio Local اکنون بخشی از IBM Cloud Pak for Data است. بیشتر بدانید Cloud Pak برای داده.

خلاصه

این الگوی کد نشان می‌دهد که چگونه دانشمندان داده می‌توانند از خوشه‌های Spark دور و محیط‌های محاسباتی برای آموزش و استقرار یک مدل فیلتر هرزنامه استفاده کنند. این مدل با استفاده از پردازش زبان طبیعی و الگوریتم های یادگیری ماشین ساخته شده است و برای طبقه بندی اینکه آیا یک پیام متنی داده شده هرزنامه است یا نه استفاده می شود.

توضیحات:

این الگوی کد نشان می دهد که چگونه دانشمندان داده می توانند از خوشه های Spark راه دور و محیط های محاسباتی از Hortonworks Data Platform (HDP) برای آموزش و استقرار یک مدل فیلتر هرزنامه با استفاده از Watson Studio Local استفاده کنند.

فیلتر هرزنامه یک مدل طبقه بندی است که با استفاده از پردازش زبان طبیعی و الگوریتم های یادگیری ماشین ساخته شده است. این مدل بر روی مجموعه داده های مجموعه هرزنامه SMS آموزش داده شده است تا طبقه بندی کند که آیا یک پیام متنی داده شده هرزنامه است یا ham (نه هرزنامه).

این الگوی کد مثال‌های متعددی را برای مقابله با این مشکل ارائه می‌کند و از منابع محلی (Watson Studio Local) و از راه دور (خوشه HDP) استفاده می‌کند.

پس از تکمیل این الگوی کد، خواهید فهمید که چگونه:

داده ها را در Spark DataFrames بارگیری کنید و از کتابخانه یادگیری ماشینی Spark (MLlib) برای توسعه، آموزش و استقرار مدل فیلتر هرزنامه استفاده کنید.
داده ها را در DataFrames پانداها بارگیری کنید و از کتابخانه یادگیری ماشینی Scikit-learn برای توسعه، آموزش و استقرار مدل فیلتر هرزنامه استفاده کنید.
از کتابخانه sparkmagics برای اتصال به سرویس Spark راه دور در خوشه HDP از طریق سرویس Hadoop Integration استفاده کنید.
از کتابخانه sparkmagics برای هل دادن محیط مجازی پایتون حاوی کتابخانه Scikit-learn به خوشه HDP راه دور از طریق سرویس Hadoop Integration استفاده کنید.
مدل Spam Filter را به عنوان تخم پایتون بسته بندی کنید و تخم مرغ را از طریق سرویس Hadoop Integration در خوشه HDP راه دور توزیع کنید.
مدل فیلتر هرزنامه (هر دو نسخه PySpark و Scikit-learn) را در خوشه HDP راه دور با استفاده از زمینه Spark راه دور و محیط مجازی پایتون راه دور، همه از داخل IBM Watson Studio Local اجرا کنید.
مدل فیلتر هرزنامه را در خوشه HDP راه دور ذخیره کنید و آن را به Watson Studio Local و امتیاز دسته ای بازگردانید و مدل را ارزیابی کنید.

جریان

مجموعه داده های جمع آوری هرزنامه به عنوان دارایی در Watson Studio Local بارگذاری می شود.
کاربر با اجرای نوت بوک های Jupyter در Watson Studio Local با نوت بوک های Jupyter تعامل می کند.
Watson Studio Local می تواند از منابع موجود به صورت محلی استفاده کند یا با اتصال به Apache Livy که بخشی از سرویس Hadoop Integration است، از منابع خوشه HDP استفاده کند.
Livy برای اجرای Apache Spark یا دسترسی به فایل های HDFS به خوشه HDP متصل می شود.