Watson Studio Local اکنون بخشی از IBM Cloud Pak for Data است. بیشتر بدانید Cloud Pak برای داده.
خلاصه
این الگوی کد نشان میدهد که چگونه دانشمندان داده میتوانند از خوشههای Spark دور و محیطهای محاسباتی برای آموزش و استقرار یک مدل فیلتر هرزنامه استفاده کنند. این مدل با استفاده از پردازش زبان طبیعی و الگوریتم های یادگیری ماشین ساخته شده است و برای طبقه بندی اینکه آیا یک پیام متنی داده شده هرزنامه است یا نه استفاده می شود.
توضیحات:
این الگوی کد نشان می دهد که چگونه دانشمندان داده می توانند از خوشه های Spark راه دور و محیط های محاسباتی از Hortonworks Data Platform (HDP) برای آموزش و استقرار یک مدل فیلتر هرزنامه با استفاده از Watson Studio Local استفاده کنند.
فیلتر هرزنامه یک مدل طبقه بندی است که با استفاده از پردازش زبان طبیعی و الگوریتم های یادگیری ماشین ساخته شده است. این مدل بر روی مجموعه داده های مجموعه هرزنامه SMS آموزش داده شده است تا طبقه بندی کند که آیا یک پیام متنی داده شده هرزنامه است یا ham (نه هرزنامه).
این الگوی کد مثالهای متعددی را برای مقابله با این مشکل ارائه میکند و از منابع محلی (Watson Studio Local) و از راه دور (خوشه HDP) استفاده میکند.
پس از تکمیل این الگوی کد، خواهید فهمید که چگونه:
- داده ها را در Spark DataFrames بارگیری کنید و از کتابخانه یادگیری ماشینی Spark (MLlib) برای توسعه، آموزش و استقرار مدل فیلتر هرزنامه استفاده کنید.
- داده ها را در DataFrames پانداها بارگیری کنید و از کتابخانه یادگیری ماشینی Scikit-learn برای توسعه، آموزش و استقرار مدل فیلتر هرزنامه استفاده کنید.
- از کتابخانه sparkmagics برای اتصال به سرویس Spark راه دور در خوشه HDP از طریق سرویس Hadoop Integration استفاده کنید.
- از کتابخانه sparkmagics برای هل دادن محیط مجازی پایتون حاوی کتابخانه Scikit-learn به خوشه HDP راه دور از طریق سرویس Hadoop Integration استفاده کنید.
- مدل Spam Filter را به عنوان تخم پایتون بسته بندی کنید و تخم مرغ را از طریق سرویس Hadoop Integration در خوشه HDP راه دور توزیع کنید.
- مدل فیلتر هرزنامه (هر دو نسخه PySpark و Scikit-learn) را در خوشه HDP راه دور با استفاده از زمینه Spark راه دور و محیط مجازی پایتون راه دور، همه از داخل IBM Watson Studio Local اجرا کنید.
- مدل فیلتر هرزنامه را در خوشه HDP راه دور ذخیره کنید و آن را به Watson Studio Local و امتیاز دسته ای بازگردانید و مدل را ارزیابی کنید.
جریان
- مجموعه داده های جمع آوری هرزنامه به عنوان دارایی در Watson Studio Local بارگذاری می شود.
- کاربر با اجرای نوت بوک های Jupyter در Watson Studio Local با نوت بوک های Jupyter تعامل می کند.
- Watson Studio Local می تواند از منابع موجود به صورت محلی استفاده کند یا با اتصال به Apache Livy که بخشی از سرویس Hadoop Integration است، از منابع خوشه HDP استفاده کند.
- Livy برای اجرای Apache Spark یا دسترسی به فایل های HDFS به خوشه HDP متصل می شود.
دستورالعمل ها
دستورالعمل های دقیق را در README فایل. این مراحل به شما نشان می دهد که چگونه:
- مخزن را شبیه سازی کنید.
- ایجاد پروژه در IBM Watson Studio Local.
- دارایی های پروژه را ایجاد کنید.
- تغییرات را در Watson Studio Local Master Repository انجام دهید.
- نوت بوک های ذکر شده در هر مثال را اجرا کنید.
- دسترسی
- الگوریتم
- معرفی
- آپاچی
- جرقه آپاچی
- دارایی
- دارایی
- بدن
- طبقه بندی
- ابر
- رمز
- محاسبه
- محتوا
- داده ها
- مجموعه داده ها
- توسعه
- محیط
- جریان
- هادوپ
- چگونه
- چگونه
- HTTPS
- آی بی ام
- IBM Cloud
- آی بی ام واتسون
- ادغام
- IT
- زبان
- یاد گرفتن
- یادگیری
- قدرت نفوذ
- کتابخانه
- محلی
- به صورت محلی
- فراگیری ماشین
- مدل
- زبان طبیعی
- پردازش زبان طبیعی
- نوت بوک
- الگو
- سکو
- پروژه
- پــایتــون
- منابع
- دویدن
- در حال اجرا
- دانشمندان
- تنظیم
- SMS
- اسپم
- مجازی
- واتسون
- استودیو واتسون
- در داخل