چرا و چگونه باید "علم داده های تولیدی" را یاد بگیرید؟
علم داده تولیدی چیست و چه اجزایی دارد؟
منبع تصویر: Pixabay (تصویر رایگان)
کارایی در گردش کار علم داده
علم داده و یادگیری ماشین را می توان با درجات مختلفی از کارایی و بهره وری تمرین کرد. صرف نظر از حوزه کاربرد یا تخصص، یک متخصص داده – مبتدی یا حرفه ای – باید تلاش کند تا کارایی او را افزایش دهد در تمام جنبه های وظایف معمول علم داده،
- تحلیل آماری،
- تجسم،
- انتخاب مدل، مهندسی ویژگی،
- تست کیفیت کد، مدولارسازی،
- پردازش موازی،
- استقرار آسان برنامه وب
منبع تصویر: Pixabay (تصویر رایگان)
این یعنی انجام تمام این وظایف،
- با سرعت بالاتر
- با اشکال زدایی سریعتر
- به صورت هماهنگ
- با استفاده کامل از تمامی منابع سخت افزاری موجود
در این فرآیند چه چیزی باید یاد بگیرید؟
بیایید تصور کنیم کسی در حال آموزش یک "علم داده مولددوره آموزشی یا نوشتن کتابی در مورد آن – استفاده از پایتون به عنوان چارچوب زبان. انتظارات معمول از چنین دوره یا کتابی چه باید باشد؟
منبع تصویر: Pixabay (تصویر رایگان)
دوره/کتاب باید برای کسانی باشد که مایلند جهش فراتر از روش استاندارد انجام وظایف علم داده و یادگیری ماشین و استفاده از طیف کامل اکوسیستم علم داده پایتون برای سطح بسیار بالاتری از بهره وری.
باید به خوانندگان آموزش داده شود که چگونه به دنبال ناکارآمدی ها و تنگناها در فرآیند استاندارد باشند و چگونه فراتر از جعبه فکر کنند.
اتوماسیون کارهای تکراری علم داده یک ذهنیت کلیدی است که خوانندگان از خواندن این کتاب به آن دست خواهند یافت. در بسیاری از موارد، آنها همچنین یاد میگیرند که چگونه روش کدنویسی موجود را برای مدیریت مجموعه دادههای بزرگتر با کارایی بالا با کمک ابزارهای نرمافزاری پیشرفتهای که قبلاً در اکوسیستم پایتون وجود دارند، اما در هیچ علم داده استانداردی آموزش داده نمیشوند، گسترش دهند.
این نباید یک کتاب آشپزی معمولی پایتون باشد که کتابخانههای استانداردی مانند Numpy یا Pandas را آموزش میدهد.
بلکه باید روی تکنیک های مفیدی مانند نحوه انجام تمرکز کند اندازه گیری ردپای حافظه و سرعت اجرا از مدل های ML، تست کیفیت خط لوله علم داده، مدولار کردن یک خط لوله علم داده برای توسعه برنامه و غیره. همچنین باید کتابخانه های پایتون را که برای آنها بسیار مفید هستند پوشش دهد اتوماسیون و بالا بردن سرعت وظایف روزمره هر دانشمند داده.
علاوه بر این، باید ابزارها و بسته هایی را که به یک دانشمند داده کمک می کند، لمس کند مقابله با مجموعه داده های بزرگ و پیچیده به روشی بسیار بهینه تر از آنچه که با پیروی از دانش استاندارد فن آوری علوم داده پایتون امکان پذیر بود.
برخی از مهارت های خاص برای تسلط
منبع تصویر: Pixabay (تصویر رایگان)
برای بیان دقیق موارد، اجازه دهید برخی از مهارتهای خاصی را که برای یادگیری و تمرین باید تسلط پیدا کنیم، خلاصه کنیم علم داده مولد. من همچنین سعی کردهام پیوندهایی را به برخی از مقالههای نماینده وارد کنم تا هر مهارت را به عنوان مرجع ارائه کنم.
- چگونه به کدهای سریع و کارآمد برای علم داده بنویسید/ML و نحوه اندازه گیری سرعت و کارایی آنها (این مقاله را ببینید)
- نحوه ایجاد خطوط لوله علوم داده مدولار شده و رسا برای بهبود بهره وری (این مقاله را ببینید)
- نحوه نوشتن ماژول های تست برای مدل های علم داده و ML (این مقاله را ببینید)
- نحوه مدیریت کارآمد مجموعه داده های بزرگ و پیچیده (که با ابزارهای سنتی DS دشوار بود)
- نحوه استفاده کامل از پردازندههای گرافیکی و چند هستهای برای انواع کارهای علم داده و تجزیه و تحلیل، و نه فقط برای مدلسازی تخصصی یادگیری عمیق (این مقاله را ببینید)
- چگونه می توان برنامه های رابط کاربری گرافیکی سریع را برای نمایش یک ایده علم داده/ML یا تنظیم مدل ایجاد کرد (این مقاله را ببینید، یا نحوه استقرار آسان (و سریع) مدل های ML و کد تجزیه و تحلیل داده ها در سطح برنامه (این مقاله را ببینید)
یک کتاب ایده آل در این زمینه…
منبع تصویر: Pixabay (تصویر رایگان)
- یاد دهید که چگونه مراقب باشید ناکارآمدی ها و تنگناها در کد استاندارد علم داده و نحوه تفکر فراتر از جعبه برای حل آن مشکلات.
- آموزش نحوه نوشتن کدهای ماژولار شده و کارآمد تجزیه و تحلیل داده و یادگیری ماشین برای بهبود بهره وری در موقعیت های مختلف - تجزیه و تحلیل داده های اکتشافی، تجسم، یادگیری عمیق و غیره.
- پوشش طیف گسترده ای از موضوعات جانبی مانند تست نرم افزار، توسعه ماژول، برنامه نویسی رابط کاربری گرافیکی, استقرار مدل ML بهعنوان برنامههای وب، که مهارتهای ارزشمندی برای دانشمندان در حال رشد دادهاند و به سختی میتوان آنها را در یک کتاب استاندارد علم داده یافت.
- محاسبات موازی را پوشش دهید (به عنوان مثال، داسک، ریمقیاس پذیری (به عنوان مثال، واکس، مودین، و پشته علم داده مبتنی بر GPU (سریع) با مثال های عملی.
- خوانندگان را به یک اکوسیستم بزرگتر و همیشه در حال گسترش پایتون از ابزارهای علم داده که به جنبه های گسترده تر مرتبط هستند، نشان دهید و راهنمایی کنید. مهندسی نرم افزار و استقرار در سطح تولید.
یک مثال عینی: علم داده مبتنی بر GPU و توزیع شده
در حالی که استفاده از پردازندههای گرافیکی و محاسبات توزیعشده به طور گسترده در محافل دانشگاهی و تجاری برای وظایف اصلی AI/ML مورد بحث قرار میگیرد، آنها پوشش کمتری در کاربردشان برای کارهای معمولی علم داده و مهندسی داده پیدا کردهاند. با این حال، استفاده از پردازندههای گرافیکی برای تجزیه و تحلیلهای آماری روزانه یا سایر وظایف علم داده میتواند راه درازی برای تبدیل شدن به ضرب المثل داشته باشد. «دانشمند داده تولیدی".
به عنوان مثال مجموعه ای از کتابخانه های نرم افزاری و API های RAPIDS به شما - یک دانشمند داده معمولی (و نه لزوماً یک متخصص یادگیری عمیق) - این گزینه و انعطاف پذیری را برای اجرا می دهد. خطوط لوله علوم داده و تجزیه و تحلیل انتها به انتها به طور کامل بر روی GPU ها.
منبع تصویر: نویسنده کلاژ ایجاد کرد
هنگامی که حتی با یک GPU متوسط استفاده می شود، این کتابخانه ها نسبت به همتایان پایتون معمولی خود بهبود قابل توجهی در سرعت نشان می دهند. طبیعتاً ما باید هر زمان که بتوانیم اینها را در آغوش بگیریم علم داده مولد گردش کار.
به طور مشابه، فرصتهای منبع باز بسیار خوبی برای فراتر رفتن از محدودیتهای ماهیت تک هستهای زبان پایتون و پذیرش پارادایم محاسباتی موازی بدون دور شدن از شخصیت دانشمند داده اساسی وجود دارد.
منبع تصویر: نویسنده کلاژ ایجاد کرد
خلاصه
ما در مورد ابزارها و اجزای اصلی a بحث کردیم علم داده مولد جریان کار. ما تصور می کردیم که یک دوره یا کتاب ایده آل در مورد این موضوع چه چیزی را به خوانندگان ارائه می دهد. ما به چند نمونه عینی اشاره کردیم و مزایای آن را توضیح دادیم. برخی منابع مرتبط نیز در زمینه مهارتها برای تسلط یافتن ارائه شد.
شما می توانید نویسنده را بررسی کنید GitHub مخازن برای کد، ایده ها و منابع در یادگیری ماشین و علم داده. اگر شما نیز مانند من به هوش مصنوعی/یادگیری ماشین/علم داده علاقه دارید، لطفاً با خیال راحت این کار را انجام دهید من را در لینکدین اضافه کنید or دنبال من در توییتر.
اصلی. مجدداً با اجازه دوباره ارسال شد.
مرتبط:
داستانهای برتر 30 روز گذشته | |||||
---|---|---|---|---|---|
|
|
منبع: https://www.kdnuggets.com/2021/07/learn-productive-data-science.html
- "
- &
- مزیت - فایده - سود - منفعت
- معرفی
- تحلیل
- علم تجزیه و تحلیل
- نرم افزار
- توسعه برنامه
- کاربرد
- برنامه های
- محدوده
- مقالات
- بلاگ
- جعبه
- ساختن
- کسب و کار
- موارد
- رمز
- برنامه نویسی
- محاسبه
- پارسیان
- داده ها
- تحلیل داده ها
- علم اطلاعات
- دانشمند داده
- یادگیری عمیق
- توسعه
- پروژه
- مدیر
- محاسبات توزیع شده
- اکوسیستم
- بهره وری
- مهندس
- مهندسی
- مورد تأیید
- و غیره
- اعدام
- FAST
- ویژگی
- انعطاف پذیری
- تمرکز
- چارچوب
- رایگان
- کامل
- طلا
- GPU
- GPU ها
- راهنمایی
- سیار
- سخت افزار
- زیاد
- چگونه
- چگونه
- HTTPS
- صدها نفر
- اندیشه
- تصویر
- IT
- کلید
- زبان
- بزرگ
- یاد گرفتن
- یادگیری
- سطح
- لینک
- طولانی
- فراگیری ماشین
- اندازه
- متوسط
- ML
- مدل
- مدل سازی
- ارائه
- آنلاین
- باز کن
- منبع باز
- فرصت ها
- گزینه
- دیگر
- نمونه
- پست ها
- بهره وری
- پــایتــون
- کیفیت
- محدوده
- خوانندگان
- مطالعه
- منابع
- مقیاس پذیری
- علم
- دانشمندان
- مهارت ها
- نرم افزار
- تست نرم افزار
- حل
- سرعت
- داستان
- تعلیم
- پیشرفته
- تست
- بالا
- تاپیک
- لمس
- us
- آب و برق
- سودمندی
- تجسم
- چه شده است
- WHO
- گردش کار
- نوشته
- X
- سال