تصویر توسط نویسنده
یک پروژه علم داده عناصر زیادی در خود دارد. افراد زیادی در این فرآیند دخیل هستند و در این مسیر با چالش های زیادی مواجه می شوند. بسیاری از شرکت ها نیاز به علم داده را می بینند و امروزه در زندگی ما پیاده سازی شده است. با این حال، برخی با نحوه استفاده از تجزیه و تحلیل دادههای خود و اینکه از کدام مسیر برای رسیدن به آنجا استفاده کنند، مشکل دارند.
The biggest assumption that companies make when using data science, is to imply that due to their use of programming language, it imitates the same methodology as software engineering. However, the models’ built-in data science and software are different.
علم داده نیازمند چرخه حیات و متدولوژی های منحصر به فرد خود برای موفقیت است.
چرخه حیات علم داده را می توان به 7 مرحله تقسیم کرد.
درک کسب و کار
اگر چیزی برای یک شرکت تولید می کنید، سوال شماره 1 شما باید «چرا؟» باشد. چرا باید این کار را انجام دهیم؟ چرا برای کسب و کار مهم است؟ چرا؟ چرا؟ چرا؟
تیم علم داده مسئول ساخت مدل و تولید تجزیه و تحلیل داده بر اساس نیازهای کسب و کار است. در طول این مرحله از چرخه حیات علم داده، تیم علم داده و مدیران اجرایی شرکت باید اهداف اصلی پروژه را شناسایی کنند، برای مثال به دنبال متغیرهایی باشند که باید پیشبینی شوند.
این پروژه مبتنی بر چه نوع پروژه علم داده است؟ آیا این یک کار رگرسیون یا طبقه بندی، خوشه بندی، یا تشخیص ناهنجاری است؟ هنگامی که هدف کلی شی خود را درک کردید، می توانید به این سوال ادامه دهید که چرا، چیست، کجا، چه زمانی و چگونه! پرسیدن سوالات درست یک هنر است و زمینه عمیق پروژه را در اختیار تیم علم داده قرار می دهد.
داده کاوی
هنگامی که تمام درک تجاری مورد نیاز برای پروژه را به دست آورید، گام بعدی شما شروع پروژه با جمع آوری داده ها خواهد بود. مرحله داده کاوی شامل جمع آوری داده ها از منابع مختلف است که با هدف پروژه شما مطابقت دارند.
سوالاتی که در این مرحله خواهید پرسید: چه داده هایی برای این پروژه نیاز دارم؟ این داده ها را از کجا می توانم دریافت کنم؟ آیا این داده ها به تحقق هدف من کمک می کند؟ این داده ها را کجا ذخیره کنم؟
تمیز کردن داده ها
برخی از دانشمندان داده تصمیم می گیرند که فازهای داده کاوی و پاکسازی داده را با هم ترکیب کنند. با این حال، خوب است که فازها را برای گردش کار بهتر تشخیص دهیم.
Data cleaning is the most time-consuming phase in the data science workflow. The bigger your data, the longer it takes. It can typically take up to 50-80% of a data scientist’s time to complete. The reason it takes so long is because data is never clean. You can be dealing with data that has inconsistencies, missing data, incorrect labels, spelling mistakes, and more.
قبل از انجام هر کار تحلیلی، باید این خطاها را تصحیح کنید تا مطمئن شوید که داده هایی که قصد دارید با آنها کار کنید درست است و خروجی های دقیقی تولید می کند.
اکتشاف داده ها
پس از صرف زمان و انرژی زیادی که برای تمیز کردن دادهها صرف کردهاید، اکنون دادههای شفافی دارید که میتوانید با آنها کار کنید. زمان اکتشاف داده ها! این مرحله طوفان فکری از هدف کلی پروژه شما است. شما می خواهید عمیقاً در آنچه می توانید از داده ها، الگوهای پنهان، ایجاد تجسم برای یافتن بینش بیشتر و موارد دیگر بیابید، غوطه ور شوید.
با استفاده از این اطلاعات، میتوانید فرضیهای ایجاد کنید که مطابق با هدف کسبوکار شما باشد و از آن به عنوان یک نقطه مرجع برای اطمینان از انجام وظیفه خود استفاده کنید.
مهندسی ویژگی
مهندسی ویژگی توسعه و ساخت ویژگی های داده جدید از داده های خام است. شما دادههای خام را میگیرید و ویژگیهای آموزندهای را ایجاد میکنید که در راستای هدف کسبوکار شما هستند. فاز مهندسی ویژگی شامل انتخاب ویژگی و ساخت ویژگی است.
انتخاب ویژگی زمانی است که تعداد ویژگیهایی را که دارید کاهش میدهید که نویز بیشتری نسبت به اطلاعات ارزشمند واقعی به دادهها اضافه میکنند. داشتن ویژگیهای بسیار زیاد میتواند منجر به لعنتی ابعاد، افزایش پیچیدگی در دادهها شود تا مدل به راحتی و به طور مؤثر از آن یاد بگیرد.
ساخت ویژگی در نام است. این ساخت ویژگی های جدید است. با استفاده از ویژگی هایی که در حال حاضر دارید، می توانید ویژگی های جدیدی ایجاد کنید، به عنوان مثال، اگر هدف شما روی اعضای ارشد متمرکز است، می توانید یک آستانه برای سن مورد نظر خود ایجاد کنید.
این مرحله بسیار مهم است زیرا بر دقت مدل پیش بینی شما تأثیر می گذارد.
مدل سازی پیش بینی کننده
اینجاست که سرگرمی شروع می شود و خواهید دید که آیا به هدف تجاری خود رسیده اید یا خیر. مدلسازی پیشبینی شامل آموزش دادهها، آزمایش آنها و استفاده از روشهای آماری جامع برای اطمینان از اینکه نتایج حاصل از مدل برای فرضیه ایجاد شده قابل توجه است.
بر اساس تمام سوالاتی که در مرحله "تفاهم تجاری" پرسیده اید، می توانید تعیین کنید که کدام مدل برای کار شما مناسب است. انتخاب مدل شما ممکن است یک فرآیند آزمون و خطا باشد، اما این برای اطمینان از ایجاد یک مدل موفق که خروجی های دقیق تولید می کند، مهم است.
هنگامی که مدل خود را ساختید، می خواهید آن را بر روی مجموعه داده خود آموزش دهید و عملکرد آن را ارزیابی کنید. میتوانید از معیارهای ارزیابی مختلف مانند اعتبارسنجی متقاطع k-fold برای اندازهگیری دقت استفاده کنید و این کار را تا زمانی که از مقدار دقت خود راضی باشید ادامه دهید.
آزمایش مدل خود با استفاده از داده های آزمایش و اعتبارسنجی، دقت و عملکرد خوب مدل شما را تضمین می کند. تغذیه دادههای خود با دادههای دیده نشده، راه خوبی برای مشاهده عملکرد مدل با دادههایی است که قبلاً روی آنها آموزش ندیدهاند. این مدل شما را به کار می گیرد!
تجسم داده ها
Once you are happy with your model’s performance, you are ready to go back and explain it all to the executives in the company. Creating data visualizations is a good way to explain your findings to people who are not technical, and is also a good way to tell a story about the data.
تجسم داده ها ترکیبی از ارتباطات، آمار و هنر است. راههای زیادی وجود دارد که میتوانید یافتههای دادههای خود را به شیوهای زیباشناختی ارائه کنید. می توانید از ابزارهایی مانند مستندات Matplotlib, آموزش Seabornو کتابخانه پلاتلی. اگر از پایتون استفاده می کنید، این را بخوانید: با گالری گراف پایتون تجسم های شگفت انگیزی ایجاد کنید.
و دقیقاً به این ترتیب شما در پایان چرخه زندگی هستید، اما به یاد داشته باشید که این یک چرخه است. بنابراین باید به شروع بازگردید: درک تجاری. شما باید موفقیت مدل خود را با توجه به درک و هدف اصلی کسب و کار، همراه با فرضیه ایجاد شده ارزیابی کنید.
اکنون ما چرخه حیات علم داده را طی کردهایم، باید فکر کنید که این بسیار ساده به نظر میرسد. این فقط یک قدم پس از دیگری است. اما همه ما می دانیم که همه چیز به این سادگی نیست. برای اینکه آن را تا حد امکان ساده و مؤثر کنیم، باید روشهای مدیریتی در محل قرار گیرند.
Data science projects are not solely under the data scientists’ responsibility anymore – it is a team effort. Therefore, standardizing project management is imperative, and there are methods that you can use to ensure this. Let’s look into them.
روش شناسی آبشار
درست مانند یک آبشار، متدولوژی آبشار یک فرآیند توسعه متوالی است که در تمام مراحل یک پروژه جریان دارد. هر مرحله باید تکمیل شود تا مرحله بعدی شروع شود. هیچ همپوشانی بین فازها وجود ندارد، و آن را به یک روش موثر تبدیل می کند زیرا هیچ برخوردی وجود ندارد. اگر مجبور شدید مراحل قبلی را مرور کنید، به این معنی است که تیم برنامه ریزی ضعیفی داشته است.
از پنج مرحله تشکیل شده است:
- مورد نیاز
- طرح
- پیاده سازی
- تایید (تست)
- تعمیر و نگهداری (استقرار)
بنابراین چه زمانی باید از متدولوژی آبشار استفاده کنید؟ همانطور که مانند آب جریان دارد، همه چیز باید شفاف باشد. این بدان معناست که هدف تعریف شده است، تیم پشته فناوری را از درون می شناسد، و عناصر پروژه همه برای اطمینان از یک فرآیند روان و موثر در محل قرار دارند.
اما بیایید به واقعیت برگردیم. آیا پروژه های علم داده به راحتی مانند آب جریان دارند؟ نه. آنها نیاز به آزمایش زیاد، تغییرات نیاز و موارد دیگر دارند. با این حال، این بدان معنا نیست که شما نمی توانید از عناصر متدولوژی آبشار استفاده کنید. روش شناسی آبشار نیاز به برنامه ریزی زیادی دارد. اگر همه چیز را برنامه ریزی کنید، بله، هنوز ممکن است با 1 یا 2 مشکل در راه مواجه شوید، اما چالش ها کمتر خواهند بود و در روند کار به آن سختی نمی رسند.
روش چابک
La روش چابک در اوایل سال 2001 متولد شد، زمانی که 17 نفر گرد هم آمدند تا در مورد آینده توسعه نرم افزار بحث کنند. بر اساس 4 ارزش اصلی و 12 اصل بنا شده است.
The agile methodology is more in line with today’s technology, as it works in a fast-paced, ever-changing technology industry. If you are a tech professional, you know that the requirements in a data science or software project change all the time. Therefore, having the right method in place which allows you to quickly adapt to these changes is important.
The agile methodology is a perfect data science project management method as it allows the team to continuously review the requirements of the project as it grows. Executives and data science managers can make decisions about changes that need to be made during the development process, rather than at the end once it’s all complete.
این نشان داده است که بسیار موثر است زیرا مدل تکامل می یابد تا خروجی های متمرکز بر کاربر را منعکس کند، در زمان، پول و انرژی صرفه جویی کند.
نمونه ای از روش چابک است نوعی بازی فوتبال راگبی. روش اسکرام از چارچوبی استفاده می کند که به ایجاد ساختار در یک تیم با استفاده از مجموعه ای از ارزش ها، اصول و شیوه ها کمک می کند. به عنوان مثال، با استفاده از Scrum، یک پروژه علم داده می تواند پروژه بزرگتر خود را به مجموعه ای از پروژه های کوچکتر تقسیم کند. هر یک از این مینی پروژه ها اسپرینت نامیده می شوند و شامل برنامه ریزی اسپرینت برای تعریف اهداف، الزامات، مسئولیت ها و موارد دیگر می شوند.
روش شناسی ترکیبی
چرا از دو روش مختلف با هم استفاده نمی کنید؟ این روش ترکیبی نامیده می شود، که در آن از دو یا چند روش برای ایجاد روشی استفاده می شود که کاملاً منحصر به فرد است. شرکتها میتوانند از روشهای ترکیبی برای همه انواع پروژهها استفاده کنند، با این حال، دلیل پشت آن به تحویل محصول برمیگردد.
For example, if a customer requires a product but is not happy with the timeframe of production based on using sprints in an Agile method. So it seems like the company needs to do a bit more planning right? What method has a lot of planning? Yes, that’s right, Waterfall. The company can adopt waterfall into their method to cater specifically for the customer’s requirement.
Some companies may have mixed emotions about combining an agile method with a non-agile method such as Waterfall. These two methods can co-exist, however, it is the company’s responsibility to ensure a simple approach that makes sense, measure the success of the hybrid method, and provide productivity.
تحقیق و توسعه
برخی ممکن است این را به عنوان یک روش در نظر بگیرند، با این حال، من معتقدم که این یک پایه مهم برای فرآیند پروژه علم داده است. درست مانند متدولوژی آبشار، برنامه ریزی و آماده سازی خود با اطلاعات بیشتر هیچ ضرری ندارد.
اما این چیزی نیست که من در اینجا در مورد آن صحبت می کنم. بله، این عالی است که قبل از شروع یک پروژه در مورد همه چیز تحقیق کنید. اما یک راه خوب برای اطمینان از مدیریت اثربخش پروژه این است که به پروژه خود به عنوان یک پروژه تحقیق و توسعه نگاه کنید. این یک ابزار موثر برای همکاری تیم علم داده است.
شما می خواهید قبل از اجرا و اجرای پروژه علم داده خود مانند یک مقاله تحقیقاتی راه بروید. برخی از پروژه های علم داده دارای ضرب الاجل های سختی هستند که این فرآیند را دشوار می کند، با این حال، عجله در محصول نهایی شما همیشه با چالش های بیشتری همراه است. شما می خواهید یک مدل موثر و موفق بسازید که با فاز چرخه حیات علم داده اولیه شما مطابقت داشته باشد: درک تجاری.
تحقیق و توسعه در یک پروژه علم داده، درها را برای نوآوری باز نگه میدارد، خلاقیت را افزایش میدهد و تیم را به توافق با چیزی که میتواند بسیار بزرگتر باشد محدود نمیکند!
اگرچه روشهای مختلفی برای انتخاب وجود دارد، اما در نهایت به عملیات کسبوکار مربوط میشود. برخی از روشهایی که در یک شرکت رایج هستند، ممکن است بهترین رویکرد برای شرکت دیگر نباشند.
افراد ممکن است روشهای متفاوتی برای کار داشته باشند، بنابراین بهترین رویکرد ایجاد روشی است که برای همه مفید باشد.
اگر می خواهید در مورد خودکارسازی گردش کار علم داده خود بیاموزید، این را بخوانید: اتوماسیون در گردش کار علم داده.
نیشا آریا دانشمند داده، نویسنده فنی آزاد و مدیر انجمن در KDnuggets است. او به ویژه علاقه مند به ارائه مشاوره شغلی یا آموزش های علم داده و دانش مبتنی بر نظریه در مورد علم داده است. او همچنین مایل است راههای مختلفی را که هوش مصنوعی میتواند به طول عمر انسان کمک کند، کشف کند. یک یادگیرنده مشتاق که به دنبال گسترش دانش فنی و مهارت های نوشتاری خود است و در عین حال به راهنمایی دیگران کمک می کند.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. خودرو / خودروهای الکتریکی، کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- BlockOffsets. نوسازی مالکیت افست زیست محیطی. دسترسی به اینجا.
- منبع: https://www.kdnuggets.com/2023/07/guide-data-science-project-management-methodologies.html?utm_source=rss&utm_medium=rss&utm_campaign=a-guide-to-data-science-project-management-methodologies
- : دارد
- :است
- :نه
- :جایی که
- $UP
- 1
- 12
- 17
- 2001
- 7
- a
- قادر
- درباره ما
- دقت
- دقیق
- در میان
- واقعی
- وفق دادن
- اضافه کردن
- اتخاذ
- نصیحت
- پس از
- سن
- فرز
- معرفی
- اجازه می دهد تا
- در امتداد
- همچنین
- همیشه
- am
- شگفت انگیز
- an
- تحلیلی
- علم تجزیه و تحلیل
- و
- تشخیص ناهنجاری
- دیگر
- هر
- دیگر
- هر چیزی
- روش
- هستند
- دور و بر
- هنر
- مصنوعی
- هوش مصنوعی
- AS
- فرض
- At
- اتوماسیون
- به عقب
- مستقر
- BE
- زیرا
- بوده
- قبل از
- شروع
- پشت سر
- باور
- سود
- بهترین
- بهتر
- میان
- بزرگتر
- بزرگترین
- بیت
- مخلوط
- متولد
- شکستن
- گسترده تر
- شکسته
- ساختن
- بنا
- ساخته
- ساخته شده در
- کسب و کار
- اما
- by
- نام
- آمد
- CAN
- نمی توان
- کاریابی
- تهیه کنید
- مرکزی
- چالش ها
- تغییر دادن
- تبادل
- انتخاب
- را انتخاب کنید
- طبقه بندی
- تمیز کاری
- واضح
- خوشه بندی
- همکاری
- ترکیب
- ترکیب
- بیا
- می آید
- ارتباط
- انجمن
- شرکت
- شرکت
- کامل
- تکمیل شده
- پیچیدگی
- جامع
- متمرکز
- در نظر بگیرید
- تشکیل شده است
- ساخت و ساز
- زمینه
- ادامه دادن
- به طور مداوم
- هسته
- ارزشهای اصلی
- اصلاح
- میتوانست
- ایجاد
- ایجاد شده
- ایجاد
- خلاقیت
- در حال حاضر
- لعنت
- مشتری
- برش
- چرخه
- داده ها
- تجزیه و تحلیل داده ها
- داده کاوی
- علم اطلاعات
- دانشمند داده
- معامله
- تصمیم گیری
- عمیق
- مشخص
- تحویل
- گسترش
- کشف
- مشخص کردن
- پروژه
- مختلف
- مشکل
- بحث و تبادل نظر
- تمیز دادن
- do
- میکند
- درب
- پایین
- دو
- در طی
- هر
- در اوایل
- به آسانی
- موثر
- به طور موثر
- تلاش
- عناصر
- احساسات
- پایان
- انرژی
- مهندسی
- اطمینان حاصل شود
- تضمین می کند
- به طور کامل
- خطا
- خطاهای
- ارزیابی
- ارزیابی
- همیشه در حال تغییر
- هر کس
- همه چیز
- تکامل می یابد
- مثال
- مدیران
- توضیح دهید
- اکتشاف
- اکتشاف
- در مواجهه
- سریع گام
- ویژگی
- امکانات
- تغذیه
- پیدا کردن
- یافته ها
- پنج
- در حال جریان
- جریانها
- برای
- پایه
- تاسیس
- چارچوب
- آزاد
- از جانب
- تکمیل کنید
- سرگرمی
- بیشتر
- آینده
- جمع آوری
- دریافت کنید
- Go
- رفته
- خوب
- گراف
- بزرگ
- رشد می کند
- راهنمایی
- دست
- خوشحال
- صدمه
- آیا
- داشتن
- کمک
- کمک
- کمک می کند
- او
- اینجا کلیک نمایید
- پنهان
- خیلی
- چگونه
- چگونه
- اما
- HTML
- HTTPS
- انسان
- ترکیبی
- i
- شناسایی
- if
- امری ضروری
- اجرا
- مهم
- in
- در عمق
- شامل
- افزایش
- افزایش
- صنعت
- نفوذ
- اطلاعات
- حاوی اطلاعات مفید
- اول
- شروع
- ابداع
- داخل
- بینش
- اطلاعات
- علاقه مند
- به
- گرفتار
- IT
- ITS
- تنها
- فقط یکی
- kdnuggets
- مشتاق
- نگاه داشتن
- نوع
- دانستن
- دانش
- برچسب ها
- زبان
- بزرگتر
- رهبری
- یاد گرفتن
- فراگیر
- کمتر
- زندگی
- wifecycwe
- پسندیدن
- محدود
- لاین
- لینک
- زندگی
- طولانی
- دیگر
- طول عمر
- نگاه کنيد
- به دنبال
- خیلی
- ساخته
- ساخت
- باعث می شود
- ساخت
- مدیریت
- مدیر
- مدیران
- بسیاری
- بسیاری از مردم
- ممکن است..
- متوسط
- به معنی
- اندازه
- ملاقات
- اعضا
- با
- روش
- متدولوژی ها
- روش شناسی
- روش
- متریک
- استخراج معدن
- گم
- اشتباهات
- مخلوط
- مدل
- مدل سازی
- مدل
- پول
- بیش
- اکثر
- بسیار
- باید
- my
- نام
- نیاز
- نیازهای
- هرگز
- جدید
- ویژگی های جدید
- بعد
- نه
- سر و صدا
- اکنون
- عدد
- تعداد 1
- هدف
- هدف
- اهداف
- of
- on
- یک بار
- ONE
- باز کن
- کار
- عملیات
- or
- سفارش
- اصلی
- دیگر
- دیگران
- ما
- خارج
- نتایج
- به طور کلی
- مقاله
- ویژه
- مسیر
- الگوهای
- مردم
- کامل
- کارایی
- انجام
- انجام می دهد
- فاز
- محل
- برنامه
- برنامه ریزی
- برنامه ریزی
- افلاطون
- هوش داده افلاطون
- PlatoData
- نقطه
- محبوب
- ممکن
- شیوه های
- پیش بینی
- آماده
- در حال حاضر
- قبلی
- از اصول
- مشکلات
- روند
- تولید کردن
- تولید می کند
- تولید
- محصول
- تولید
- بهره وری
- حرفه ای
- برنامه نويسي
- پروژه
- مدیریت پروژه
- پروژه ها
- ارائه
- ارائه
- قرار دادن
- قرار می دهد
- پــایتــون
- سوال
- سوالات
- به سرعت
- نسبتا
- خام
- داده های خام
- خواندن
- اماده
- واقعیت
- دلیل
- بازتاب
- با توجه
- رگرسیون
- به یاد داشته باشید
- نیاز
- نیاز
- مورد نیاز
- نیاز
- تحقیق
- تحقیق و توسعه
- مسئولیت
- مسئوليت
- مسئوليت
- این فایل نقد می نویسید:
- راست
- دویدن
- s
- همان
- صرفه جویی کردن
- علم
- دانشمند
- دانشمندان
- دیدن
- به دنبال
- به نظر می رسد
- انتخاب
- ارشد
- حس
- سلسله
- تنظیم
- واریز
- او
- باید
- نشان داده شده
- قابل توجه
- ساده
- مهارت ها
- کوچکتر
- هموار کردن
- So
- نرم افزار
- توسعه نرم افزار
- مهندسی نرم افزار
- فقط
- برخی از
- چیزی
- منابع
- به طور خاص
- هجی
- صرف
- با حداکثر سرعت دویدن
- پشته
- مراحل
- استاندارد
- شروع
- شروع می شود
- آماری
- ارقام
- گام
- مراحل
- هنوز
- opbevare
- داستان
- ساده
- ساختار
- مبارزه
- موفقیت
- موفق
- چنین
- گرفتن
- طول می کشد
- سخنگو
- کار
- تیم
- فن آوری
- فنی
- پیشرفته
- گفتن
- تست
- نسبت به
- که
- La
- آینده
- شان
- آنها
- نظریه
- آنجا.
- از این رو
- اینها
- آنها
- اشیاء
- تفکر
- این
- آستانه
- از طریق
- به
- زمان
- زمان بر
- دوره زمانی
- به
- امروز
- با هم
- هم
- ابزار
- ابزار
- قطار
- آموزش دیده
- آموزش
- محاکمه
- ازمایش و خطا
- آموزش
- دو
- انواع
- به طور معمول
- در نهایت
- زیر
- فهمیدن
- درک
- منحصر به فرد
- استفاده کنید
- استفاده
- استفاده
- با استفاده از
- اعتبار سنجی
- ارزشمند
- اطلاعات ارزشمند
- ارزش
- ارزشها
- تنوع
- بسیار
- تجسم
- می خواهم
- بود
- آب
- مسیر..
- راه
- we
- خوب
- چی
- چه زمانی
- که
- در حالیکه
- WHO
- چرا
- اراده
- خواسته
- با
- مهاجرت کاری
- گردش کار
- کارگر
- با این نسخهها کار
- نویسنده
- نوشته
- بله
- شما
- شما
- خودت
- زفیرنت