poloniex-agrees-to-settle-with-the-sec-for-more-than-10m.png

چرا و چگونه باید "علم داده های تولیدی" را یاد بگیرید؟

گره منبع: 1858780

وبلاگ طلاچرا و چگونه باید "علم داده های تولیدی" را یاد بگیرید؟

علم داده تولیدی چیست و چه اجزایی دارد؟




منبع تصویرPixabay (تصویر رایگان)

کارایی در گردش کار علم داده

 
علم داده و یادگیری ماشین را می توان با درجات مختلفی از کارایی و بهره وری تمرین کرد. صرف نظر از حوزه کاربرد یا تخصص، یک متخصص داده – مبتدی یا حرفه ای – باید تلاش کند تا کارایی او را افزایش دهد در تمام جنبه های وظایف معمول علم داده،

  • تحلیل آماری،
  • تجسم،
  • انتخاب مدل، مهندسی ویژگی،
  • تست کیفیت کد، مدولارسازی،
  • پردازش موازی،
  • استقرار آسان برنامه وب



منبع تصویرPixabay (تصویر رایگان)

 

این یعنی انجام تمام این وظایف،

  • با سرعت بالاتر
  • با اشکال زدایی سریعتر
  • به صورت هماهنگ
  • با استفاده کامل از تمامی منابع سخت افزاری موجود

در این فرآیند چه چیزی باید یاد بگیرید؟

 
بیایید تصور کنیم کسی در حال آموزش یک "علم داده مولددوره آموزشی یا نوشتن کتابی در مورد آن – استفاده از پایتون به عنوان چارچوب زبان. انتظارات معمول از چنین دوره یا کتابی چه باید باشد؟



منبع تصویرPixabay (تصویر رایگان)

 

دوره/کتاب باید برای کسانی باشد که مایلند جهش فراتر از روش استاندارد انجام وظایف علم داده و یادگیری ماشین و استفاده از طیف کامل اکوسیستم علم داده پایتون برای سطح بسیار بالاتری از بهره وری.

باید به خوانندگان آموزش داده شود که چگونه به دنبال ناکارآمدی ها و تنگناها در فرآیند استاندارد باشند و چگونه فراتر از جعبه فکر کنند.

اتوماسیون کارهای تکراری علم داده یک ذهنیت کلیدی است که خوانندگان از خواندن این کتاب به آن دست خواهند یافت. در بسیاری از موارد، آنها همچنین یاد می‌گیرند که چگونه روش کدنویسی موجود را برای مدیریت مجموعه داده‌های بزرگتر با کارایی بالا با کمک ابزارهای نرم‌افزاری پیشرفته‌ای که قبلاً در اکوسیستم پایتون وجود دارند، اما در هیچ علم داده استانداردی آموزش داده نمی‌شوند، گسترش دهند.

این نباید یک کتاب آشپزی معمولی پایتون باشد که کتابخانه‌های استانداردی مانند Numpy یا Pandas را آموزش می‌دهد.

بلکه باید روی تکنیک های مفیدی مانند نحوه انجام تمرکز کند اندازه گیری ردپای حافظه و سرعت اجرا از مدل های ML، تست کیفیت خط لوله علم داده، مدولار کردن یک خط لوله علم داده برای توسعه برنامه و غیره. همچنین باید کتابخانه های پایتون را که برای آنها بسیار مفید هستند پوشش دهد اتوماسیون و بالا بردن سرعت وظایف روزمره هر دانشمند داده.

علاوه بر این، باید ابزارها و بسته هایی را که به یک دانشمند داده کمک می کند، لمس کند مقابله با مجموعه داده های بزرگ و پیچیده به روشی بسیار بهینه تر از آنچه که با پیروی از دانش استاندارد فن آوری علوم داده پایتون امکان پذیر بود.

برخی از مهارت های خاص برای تسلط

 



منبع تصویرPixabay (تصویر رایگان)

 

برای بیان دقیق موارد، اجازه دهید برخی از مهارت‌های خاصی را که برای یادگیری و تمرین باید تسلط پیدا کنیم، خلاصه کنیم علم داده مولد. من همچنین سعی کرده‌ام پیوندهایی را به برخی از مقاله‌های نماینده وارد کنم تا هر مهارت را به عنوان مرجع ارائه کنم.

  1. چگونه به کدهای سریع و کارآمد برای علم داده بنویسید/ML و نحوه اندازه گیری سرعت و کارایی آنها (این مقاله را ببینید)
  2. نحوه ایجاد خطوط لوله علوم داده مدولار شده و رسا برای بهبود بهره وری (این مقاله را ببینید)
  3. نحوه نوشتن ماژول های تست برای مدل های علم داده و ML (این مقاله را ببینید)
  4. نحوه مدیریت کارآمد مجموعه داده های بزرگ و پیچیده (که با ابزارهای سنتی DS دشوار بود)
  5. نحوه استفاده کامل از پردازنده‌های گرافیکی و چند هسته‌ای برای انواع کارهای علم داده و تجزیه و تحلیل، و نه فقط برای مدل‌سازی تخصصی یادگیری عمیق (این مقاله را ببینید)
  6. چگونه می توان برنامه های رابط کاربری گرافیکی سریع را برای نمایش یک ایده علم داده/ML یا تنظیم مدل ایجاد کرد (این مقاله را ببینید، یا نحوه استقرار آسان (و سریع) مدل های ML و کد تجزیه و تحلیل داده ها در سطح برنامه (این مقاله را ببینید)

یک کتاب ایده آل در این زمینه…

 



منبع تصویرPixabay (تصویر رایگان)

 

  1. یاد دهید که چگونه مراقب باشید ناکارآمدی ها و تنگناها در کد استاندارد علم داده و نحوه تفکر فراتر از جعبه برای حل آن مشکلات.
  2. آموزش نحوه نوشتن کدهای ماژولار شده و کارآمد تجزیه و تحلیل داده و یادگیری ماشین برای بهبود بهره وری در موقعیت های مختلف - تجزیه و تحلیل داده های اکتشافی، تجسم، یادگیری عمیق و غیره.
  3. پوشش طیف گسترده ای از موضوعات جانبی مانند تست نرم افزار، توسعه ماژول، برنامه نویسی رابط کاربری گرافیکیاستقرار مدل ML به‌عنوان برنامه‌های وب، که مهارت‌های ارزشمندی برای دانشمندان در حال رشد داده‌اند و به سختی می‌توان آن‌ها را در یک کتاب استاندارد علم داده یافت.
  4. محاسبات موازی را پوشش دهید (به عنوان مثال، داسک، ریمقیاس پذیری (به عنوان مثال، واکس، مودین، و پشته علم داده مبتنی بر GPU (سریع) با مثال های عملی.
  5. خوانندگان را به یک اکوسیستم بزرگتر و همیشه در حال گسترش پایتون از ابزارهای علم داده که به جنبه های گسترده تر مرتبط هستند، نشان دهید و راهنمایی کنید. مهندسی نرم افزار و استقرار در سطح تولید.

یک مثال عینی: علم داده مبتنی بر GPU و توزیع شده

 
در حالی که استفاده از پردازنده‌های گرافیکی و محاسبات توزیع‌شده به طور گسترده در محافل دانشگاهی و تجاری برای وظایف اصلی AI/ML مورد بحث قرار می‌گیرد، آنها پوشش کمتری در کاربردشان برای کارهای معمولی علم داده و مهندسی داده پیدا کرده‌اند. با این حال، استفاده از پردازنده‌های گرافیکی برای تجزیه و تحلیل‌های آماری روزانه یا سایر وظایف علم داده می‌تواند راه درازی برای تبدیل شدن به ضرب المثل داشته باشد. «دانشمند داده تولیدی".

به عنوان مثال مجموعه ای از کتابخانه های نرم افزاری و API های RAPIDS به شما - یک دانشمند داده معمولی (و نه لزوماً یک متخصص یادگیری عمیق) - این گزینه و انعطاف پذیری را برای اجرا می دهد. خطوط لوله علوم داده و تجزیه و تحلیل انتها به انتها به طور کامل بر روی GPU ها.



منبع تصویر: نویسنده کلاژ ایجاد کرد

 

هنگامی که حتی با یک GPU متوسط ​​استفاده می شود، این کتابخانه ها نسبت به همتایان پایتون معمولی خود بهبود قابل توجهی در سرعت نشان می دهند. طبیعتاً ما باید هر زمان که بتوانیم اینها را در آغوش بگیریم علم داده مولد گردش کار.


 

به طور مشابه، فرصت‌های منبع باز بسیار خوبی برای فراتر رفتن از محدودیت‌های ماهیت تک هسته‌ای زبان پایتون و پذیرش پارادایم محاسباتی موازی بدون دور شدن از شخصیت دانشمند داده اساسی وجود دارد.



منبع تصویر: نویسنده کلاژ ایجاد کرد

خلاصه

 
ما در مورد ابزارها و اجزای اصلی a بحث کردیم علم داده مولد جریان کار. ما تصور می کردیم که یک دوره یا کتاب ایده آل در مورد این موضوع چه چیزی را به خوانندگان ارائه می دهد. ما به چند نمونه عینی اشاره کردیم و مزایای آن را توضیح دادیم. برخی منابع مرتبط نیز در زمینه مهارت‌ها برای تسلط یافتن ارائه شد.

شما می توانید نویسنده را بررسی کنید GitHub مخازن برای کد، ایده ها و منابع در یادگیری ماشین و علم داده. اگر شما نیز مانند من به هوش مصنوعی/یادگیری ماشین/علم داده علاقه دارید، لطفاً با خیال راحت این کار را انجام دهید من را در لینکدین اضافه کنید or دنبال من در توییتر.

 
اصلی. مجدداً با اجازه دوباره ارسال شد.

مرتبط:

منبع: https://www.kdnuggets.com/2021/07/learn-productive-data-science.html

تمبر زمان:

بیشتر از kdnuggets