راهنمای روش‌های مدیریت پروژه علم داده - KDnuggets

راهنمای روش‌های مدیریت پروژه علم داده – KDnuggets

گره منبع: 2756610

راهنمای روش‌های مدیریت پروژه علم داده
تصویر توسط نویسنده
 

یک پروژه علم داده عناصر زیادی در خود دارد. افراد زیادی در این فرآیند دخیل هستند و در این مسیر با چالش های زیادی مواجه می شوند. بسیاری از شرکت ها نیاز به علم داده را می بینند و امروزه در زندگی ما پیاده سازی شده است. با این حال، برخی با نحوه استفاده از تجزیه و تحلیل داده‌های خود و اینکه از کدام مسیر برای رسیدن به آنجا استفاده کنند، مشکل دارند. 

The biggest assumption that companies make when using data science, is to imply that due to their use of programming language, it imitates the same methodology as software engineering. However, the models’ built-in data science and software are different. 

علم داده نیازمند چرخه حیات و متدولوژی های منحصر به فرد خود برای موفقیت است. 

چرخه حیات علم داده را می توان به 7 مرحله تقسیم کرد. 

درک کسب و کار

اگر چیزی برای یک شرکت تولید می کنید، سوال شماره 1 شما باید «چرا؟» باشد. چرا باید این کار را انجام دهیم؟ چرا برای کسب و کار مهم است؟ چرا؟ چرا؟ چرا؟

تیم علم داده مسئول ساخت مدل و تولید تجزیه و تحلیل داده بر اساس نیازهای کسب و کار است. در طول این مرحله از چرخه حیات علم داده، تیم علم داده و مدیران اجرایی شرکت باید اهداف اصلی پروژه را شناسایی کنند، برای مثال به دنبال متغیرهایی باشند که باید پیش‌بینی شوند. 

این پروژه مبتنی بر چه نوع پروژه علم داده است؟ آیا این یک کار رگرسیون یا طبقه بندی، خوشه بندی، یا تشخیص ناهنجاری است؟ هنگامی که هدف کلی شی خود را درک کردید، می توانید به این سوال ادامه دهید که چرا، چیست، کجا، چه زمانی و چگونه! پرسیدن سوالات درست یک هنر است و زمینه عمیق پروژه را در اختیار تیم علم داده قرار می دهد. 

داده کاوی

هنگامی که تمام درک تجاری مورد نیاز برای پروژه را به دست آورید، گام بعدی شما شروع پروژه با جمع آوری داده ها خواهد بود. مرحله داده کاوی شامل جمع آوری داده ها از منابع مختلف است که با هدف پروژه شما مطابقت دارند. 

سوالاتی که در این مرحله خواهید پرسید: چه داده هایی برای این پروژه نیاز دارم؟ این داده ها را از کجا می توانم دریافت کنم؟ آیا این داده ها به تحقق هدف من کمک می کند؟ این داده ها را کجا ذخیره کنم؟ 

تمیز کردن داده ها

برخی از دانشمندان داده تصمیم می گیرند که فازهای داده کاوی و پاکسازی داده را با هم ترکیب کنند. با این حال، خوب است که فازها را برای گردش کار بهتر تشخیص دهیم. 

Data cleaning is the most time-consuming phase in the data science workflow. The bigger your data, the longer it takes. It can typically take up to 50-80% of a data scientist’s time to complete. The reason it takes so long is because data is never clean. You can be dealing with data that has inconsistencies, missing data,  incorrect labels, spelling mistakes, and more. 

قبل از انجام هر کار تحلیلی، باید این خطاها را تصحیح کنید تا مطمئن شوید که داده هایی که قصد دارید با آنها کار کنید درست است و خروجی های دقیقی تولید می کند. 

اکتشاف داده ها

پس از صرف زمان و انرژی زیادی که برای تمیز کردن داده‌ها صرف کرده‌اید، اکنون داده‌های شفافی دارید که می‌توانید با آنها کار کنید. زمان اکتشاف داده ها! این مرحله طوفان فکری از هدف کلی پروژه شما است. شما می خواهید عمیقاً در آنچه می توانید از داده ها، الگوهای پنهان، ایجاد تجسم برای یافتن بینش بیشتر و موارد دیگر بیابید، غوطه ور شوید. 

با استفاده از این اطلاعات، می‌توانید فرضیه‌ای ایجاد کنید که مطابق با هدف کسب‌وکار شما باشد و از آن به عنوان یک نقطه مرجع برای اطمینان از انجام وظیفه خود استفاده کنید. 

مهندسی ویژگی

مهندسی ویژگی توسعه و ساخت ویژگی های داده جدید از داده های خام است. شما داده‌های خام را می‌گیرید و ویژگی‌های آموزنده‌ای را ایجاد می‌کنید که در راستای هدف کسب‌وکار شما هستند. فاز مهندسی ویژگی شامل انتخاب ویژگی و ساخت ویژگی است.

انتخاب ویژگی زمانی است که تعداد ویژگی‌هایی را که دارید کاهش می‌دهید که نویز بیشتری نسبت به اطلاعات ارزشمند واقعی به داده‌ها اضافه می‌کنند. داشتن ویژگی‌های بسیار زیاد می‌تواند منجر به لعنتی ابعاد، افزایش پیچیدگی در داده‌ها شود تا مدل به راحتی و به طور مؤثر از آن یاد بگیرد. 

ساخت ویژگی در نام است. این ساخت ویژگی های جدید است. با استفاده از ویژگی هایی که در حال حاضر دارید، می توانید ویژگی های جدیدی ایجاد کنید، به عنوان مثال، اگر هدف شما روی اعضای ارشد متمرکز است، می توانید یک آستانه برای سن مورد نظر خود ایجاد کنید.

این مرحله بسیار مهم است زیرا بر دقت مدل پیش بینی شما تأثیر می گذارد. 

مدل سازی پیش بینی کننده

اینجاست که سرگرمی شروع می شود و خواهید دید که آیا به هدف تجاری خود رسیده اید یا خیر. مدل‌سازی پیش‌بینی شامل آموزش داده‌ها، آزمایش آن‌ها و استفاده از روش‌های آماری جامع برای اطمینان از اینکه نتایج حاصل از مدل برای فرضیه ایجاد شده قابل توجه است. 

بر اساس تمام سوالاتی که در مرحله "تفاهم تجاری" پرسیده اید، می توانید تعیین کنید که کدام مدل برای کار شما مناسب است. انتخاب مدل شما ممکن است یک فرآیند آزمون و خطا باشد، اما این برای اطمینان از ایجاد یک مدل موفق که خروجی های دقیق تولید می کند، مهم است. 

هنگامی که مدل خود را ساختید، می خواهید آن را بر روی مجموعه داده خود آموزش دهید و عملکرد آن را ارزیابی کنید. می‌توانید از معیارهای ارزیابی مختلف مانند اعتبارسنجی متقاطع k-fold برای اندازه‌گیری دقت استفاده کنید و این کار را تا زمانی که از مقدار دقت خود راضی باشید ادامه دهید. 

آزمایش مدل خود با استفاده از داده های آزمایش و اعتبارسنجی، دقت و عملکرد خوب مدل شما را تضمین می کند. تغذیه داده‌های خود با داده‌های دیده نشده، راه خوبی برای مشاهده عملکرد مدل با داده‌هایی است که قبلاً روی آن‌ها آموزش ندیده‌اند. این مدل شما را به کار می گیرد!

تجسم داده ها

Once you are happy with your model’s performance, you are ready to go back and explain it all to the executives in the company. Creating data visualizations is a good way to explain your findings to people who are not technical, and is also a good way to tell a story about the data.

تجسم داده ها ترکیبی از ارتباطات، آمار و هنر است. راه‌های زیادی وجود دارد که می‌توانید یافته‌های داده‌های خود را به شیوه‌ای زیباشناختی ارائه کنید. می توانید از ابزارهایی مانند مستندات Matplotlib, آموزش Seabornو کتابخانه پلاتلی. اگر از پایتون استفاده می کنید، این را بخوانید: با گالری گراف پایتون تجسم های شگفت انگیزی ایجاد کنید

و دقیقاً به این ترتیب شما در پایان چرخه زندگی هستید، اما به یاد داشته باشید که این یک چرخه است. بنابراین باید به شروع بازگردید: درک تجاری. شما باید موفقیت مدل خود را با توجه به درک و هدف اصلی کسب و کار، همراه با فرضیه ایجاد شده ارزیابی کنید.

اکنون ما چرخه حیات علم داده را طی کرده‌ایم، باید فکر کنید که این بسیار ساده به نظر می‌رسد. این فقط یک قدم پس از دیگری است. اما همه ما می دانیم که همه چیز به این سادگی نیست. برای اینکه آن را تا حد امکان ساده و مؤثر کنیم، باید روش‌های مدیریتی در محل قرار گیرند. 

Data science projects are not solely under the data scientists’ responsibility anymore – it is a team effort. Therefore, standardizing project management is imperative, and there are methods that you can use to ensure this. Let’s look into them.

روش شناسی آبشار

درست مانند یک آبشار، متدولوژی آبشار یک فرآیند توسعه متوالی است که در تمام مراحل یک پروژه جریان دارد. هر مرحله باید تکمیل شود تا مرحله بعدی شروع شود. هیچ همپوشانی بین فازها وجود ندارد، و آن را به یک روش موثر تبدیل می کند زیرا هیچ برخوردی وجود ندارد. اگر مجبور شدید مراحل قبلی را مرور کنید، به این معنی است که تیم برنامه ریزی ضعیفی داشته است. 

از پنج مرحله تشکیل شده است:

  1. مورد نیاز
  2. طرح
  3. پیاده سازی
  4. تایید (تست)
  5. تعمیر و نگهداری (استقرار)

بنابراین چه زمانی باید از متدولوژی آبشار استفاده کنید؟ همانطور که مانند آب جریان دارد، همه چیز باید شفاف باشد. این بدان معناست که هدف تعریف شده است، تیم پشته فناوری را از درون می شناسد، و عناصر پروژه همه برای اطمینان از یک فرآیند روان و موثر در محل قرار دارند. 

اما بیایید به واقعیت برگردیم. آیا پروژه های علم داده به راحتی مانند آب جریان دارند؟ نه. آنها نیاز به آزمایش زیاد، تغییرات نیاز و موارد دیگر دارند. با این حال، این بدان معنا نیست که شما نمی توانید از عناصر متدولوژی آبشار استفاده کنید. روش شناسی آبشار نیاز به برنامه ریزی زیادی دارد. اگر همه چیز را برنامه ریزی کنید، بله، هنوز ممکن است با 1 یا 2 مشکل در راه مواجه شوید، اما چالش ها کمتر خواهند بود و در روند کار به آن سختی نمی رسند. 

روش چابک

La روش چابک در اوایل سال 2001 متولد شد، زمانی که 17 نفر گرد هم آمدند تا در مورد آینده توسعه نرم افزار بحث کنند. بر اساس 4 ارزش اصلی و 12 اصل بنا شده است.

The agile methodology is more in line with today’s technology, as it works in a fast-paced, ever-changing technology industry. If you are a tech professional, you know that the requirements in a data science or software project change all the time. Therefore, having the right method in place which allows you to quickly adapt to these changes is important.

The agile methodology is a perfect data science project management method as it allows the team to continuously review the requirements of the project as it grows. Executives and data science managers can make decisions about changes that need to be made during the development process, rather than at the end once it’s all complete. 

این نشان داده است که بسیار موثر است زیرا مدل تکامل می یابد تا خروجی های متمرکز بر کاربر را منعکس کند، در زمان، پول و انرژی صرفه جویی کند. 

نمونه ای از روش چابک است نوعی بازی فوتبال راگبی. روش اسکرام از چارچوبی استفاده می کند که به ایجاد ساختار در یک تیم با استفاده از مجموعه ای از ارزش ها، اصول و شیوه ها کمک می کند. به عنوان مثال، با استفاده از Scrum، یک پروژه علم داده می تواند پروژه بزرگتر خود را به مجموعه ای از پروژه های کوچکتر تقسیم کند. هر یک از این مینی پروژه ها اسپرینت نامیده می شوند و شامل برنامه ریزی اسپرینت برای تعریف اهداف، الزامات، مسئولیت ها و موارد دیگر می شوند. 

روش شناسی ترکیبی

چرا از دو روش مختلف با هم استفاده نمی کنید؟ این روش ترکیبی نامیده می شود، که در آن از دو یا چند روش برای ایجاد روشی استفاده می شود که کاملاً منحصر به فرد است. شرکت‌ها می‌توانند از روش‌های ترکیبی برای همه انواع پروژه‌ها استفاده کنند، با این حال، دلیل پشت آن به تحویل محصول برمی‌گردد. 

For example, if a customer requires a product but is not happy with the timeframe of production based on using sprints in an Agile method. So it seems like the company needs to do a bit more planning right? What method has a lot of planning? Yes, that’s right, Waterfall. The company can adopt waterfall into their method to cater specifically for the customer’s requirement. 

Some companies may have mixed emotions about combining an agile method with a non-agile method such as Waterfall. These two methods can co-exist, however, it is the company’s responsibility to ensure a simple approach that makes sense, measure the success of the hybrid method, and provide productivity. 

تحقیق و توسعه

برخی ممکن است این را به عنوان یک روش در نظر بگیرند، با این حال، من معتقدم که این یک پایه مهم برای فرآیند پروژه علم داده است. درست مانند متدولوژی آبشار، برنامه ریزی و آماده سازی خود با اطلاعات بیشتر هیچ ضرری ندارد.

اما این چیزی نیست که من در اینجا در مورد آن صحبت می کنم. بله، این عالی است که قبل از شروع یک پروژه در مورد همه چیز تحقیق کنید. اما یک راه خوب برای اطمینان از مدیریت اثربخش پروژه این است که به پروژه خود به عنوان یک پروژه تحقیق و توسعه نگاه کنید. این یک ابزار موثر برای همکاری تیم علم داده است.

شما می خواهید قبل از اجرا و اجرای پروژه علم داده خود مانند یک مقاله تحقیقاتی راه بروید. برخی از پروژه های علم داده دارای ضرب الاجل های سختی هستند که این فرآیند را دشوار می کند، با این حال، عجله در محصول نهایی شما همیشه با چالش های بیشتری همراه است. شما می خواهید یک مدل موثر و موفق بسازید که با فاز چرخه حیات علم داده اولیه شما مطابقت داشته باشد: درک تجاری. 

تحقیق و توسعه در یک پروژه علم داده، درها را برای نوآوری باز نگه می‌دارد، خلاقیت را افزایش می‌دهد و تیم را به توافق با چیزی که می‌تواند بسیار بزرگ‌تر باشد محدود نمی‌کند!

اگرچه روش‌های مختلفی برای انتخاب وجود دارد، اما در نهایت به عملیات کسب‌وکار مربوط می‌شود. برخی از روش‌هایی که در یک شرکت رایج هستند، ممکن است بهترین رویکرد برای شرکت دیگر نباشند. 

افراد ممکن است روش‌های متفاوتی برای کار داشته باشند، بنابراین بهترین رویکرد ایجاد روشی است که برای همه مفید باشد. 

اگر می خواهید در مورد خودکارسازی گردش کار علم داده خود بیاموزید، این را بخوانید: اتوماسیون در گردش کار علم داده.
 
 
نیشا آریا دانشمند داده، نویسنده فنی آزاد و مدیر انجمن در KDnuggets است. او به ویژه علاقه مند به ارائه مشاوره شغلی یا آموزش های علم داده و دانش مبتنی بر نظریه در مورد علم داده است. او همچنین مایل است راه‌های مختلفی را که هوش مصنوعی می‌تواند به طول عمر انسان کمک کند، کشف کند. یک یادگیرنده مشتاق که به دنبال گسترش دانش فنی و مهارت های نوشتاری خود است و در عین حال به راهنمایی دیگران کمک می کند.
 

تمبر زمان:

بیشتر از kdnuggets