מדריך למתודולוגיות לניהול פרויקטים במדעי הנתונים - KDnuggets

מדריך למתודולוגיות לניהול פרויקטים במדעי הנתונים - KDnuggets

צומת המקור: 2756610

מדריך למתודולוגיות לניהול פרויקטים במדעי הנתונים
תמונה מאת המחבר
 

לפרויקט מדעי נתונים יש הרבה אלמנטים. ישנם אנשים רבים המעורבים בתהליך, ומתמודדים עם אתגרים רבים בדרך. הרבה חברות רואות את הצורך במדעי הנתונים, וזה מיושם בחיינו היום. עם זאת, חלקם נאבקים כיצד לעשות שימוש בניתוח הנתונים שלהם ובאיזה נתיב להשתמש כדי להגיע לשם. 

The biggest assumption that companies make when using data science, is to imply that due to their use of programming language, it imitates the same methodology as software engineering. However, the models’ built-in data science and software are different. 

מדעי הנתונים דורשים את מחזור החיים והמתודולוגיות הייחודיות שלו כדי להצליח. 

ניתן לחלק את מחזור החיים של מדעי הנתונים ל-7 שלבים. 

הבנה עסקית

אם אתה מייצר משהו עבור חברה, השאלה מספר 1 שלך צריכה להיות 'למה?'. למה אנחנו צריכים לעשות את זה? למה זה חשוב לעסק? למה? למה? למה?

צוות מדעי הנתונים אחראי על בניית מודל והפקת ניתוח נתונים על סמך מה שהעסק דורש. במהלך שלב זה של מחזור החיים של מדעי הנתונים, צוות מדעי הנתונים והמנהלים של החברה צריכים לזהות את היעדים המרכזיים של הפרויקט, למשל לבחון את המשתנים שיש לחזות. 

על איזה סוג של פרויקט מדעי נתונים זה מבוסס? האם זו משימת רגרסיה או סיווג, מקבץ או זיהוי אנומליות? ברגע שאתה מבין את המטרה הכוללת של האובייקט שלך, אתה יכול להמשיך לשאול למה, מה, איפה, מתי ואיך! שאילת השאלות הנכונות היא אומנות, והיא תספק לצוות מדעי הנתונים הקשר מעמיק לפרויקט. 

כריית נתונים

ברגע שיש לך את כל ההבנה העסקית הדרושה לך לפרויקט, השלב הבא שלך יהיה התחלת הפרויקט על ידי איסוף נתונים. שלב כריית הנתונים כולל איסוף נתונים ממגוון מקורות התואמים את מטרת הפרויקט שלך. 

השאלות שתשאלו בשלב זה הן: אילו נתונים אני צריך עבור הפרויקט הזה? מאיפה אני יכול לקבל את הנתונים האלה? האם הנתונים האלה יעזרו להגשים את המטרה שלי? איפה אני אחסן את הנתונים האלה? 

ניקוי נתונים

כמה מדעני נתונים בוחרים לשלב את שלבי כריית הנתונים וניקוי הנתונים יחד. עם זאת, כדאי להבחין בין השלבים לזרימת עבודה טובה יותר. 

Data cleaning is the most time-consuming phase in the data science workflow. The bigger your data, the longer it takes. It can typically take up to 50-80% of a data scientist’s time to complete. The reason it takes so long is because data is never clean. You can be dealing with data that has inconsistencies, missing data,  incorrect labels, spelling mistakes, and more. 

לפני ביצוע כל עבודה אנליטית, תצטרך לתקן שגיאות אלו כדי להבטיח שהנתונים שאתה מתכנן לעבוד איתם נכונים ויפיקו פלטים מדויקים. 

חיפוש נתונים

לאחר הרבה זמן ואנרגיה שהושקעו בניקוי הנתונים, כעת יש לכם נתונים נקיים ומצוירים שאיתם תוכלו לעבוד. זמן חיפוש נתונים! שלב זה הוא סיעור המוחות של מטרת הפרויקט הכוללת שלך. אתה רוצה לצלול עמוק לתוך מה שאתה יכול למצוא מהנתונים, דפוסים נסתרים, יצירת הדמיות כדי למצוא תובנות נוספות ועוד. 

בעזרת מידע זה, תוכל ליצור השערה התואמת את היעד העסקי שלך ולהשתמש בה כנקודת התייחסות כדי להבטיח שאתה עומד במשימה. 

הנדסת תכונות

הנדסת תכונות היא פיתוח ובנייה של תכונות נתונים חדשות מנתונים גולמיים. אתה לוקח את הנתונים הגולמיים ויוצר תכונות אינפורמטיביות התואמות את היעד העסקי שלך. שלב הנדסת התכונה מורכב מבחירת תכונה ובניית תכונה.

בחירת תכונה היא כאשר אתה מצמצם את מספר התכונות שיש לך המוסיפות יותר רעש לנתונים מאשר מידע בעל ערך אמיתי. תכונות רבות מדי עלולות להוביל לקללה של מימדיות, למורכבות מוגברת בנתונים כדי שהמודל יוכל ללמוד מהם בקלות וביעילות. 

בניית תכונה היא בשם. זוהי בנייה של תכונות חדשות. באמצעות התכונות שיש לך כרגע, תוכל ליצור תכונות חדשות, לדוגמה, אם המטרה שלך מרוכזת בחברים בכירים, תוכל ליצור סף לגיל שאתה רוצה.

שלב זה חשוב מאוד מכיוון שהוא ישפיע על הדיוק של מודל הניבוי שלך. 

דוגמנות ניבוי

כאן מתחיל הכיף, ותראה אם ​​עמדת ביעד העסקי שלך. מודל חזוי מורכב מאימון הנתונים, בדיקתם ושימוש בשיטות סטטיסטיות מקיפות כדי להבטיח שהתוצאות מהמודל משמעותיות להשערה שנוצרה. 

על סמך כל השאלות ששאלת בשלב 'הבנה עסקית', תוכל לקבוע איזה דגם מתאים למשימה שלך. בחירת הדגם שלך עשויה להיות תהליך ניסוי וטעייה, אך זה חשוב כדי להבטיח שתיצור מודל מוצלח שמפיק פלטים מדויקים. 

לאחר שבנית את המודל שלך, תרצה לאמן אותו במערך הנתונים שלך ולהעריך את הביצועים שלו. אתה יכול להשתמש במדדי הערכה שונים כגון אימות צולב פי קפל כדי למדוד את הדיוק ולהמשיך לעשות זאת עד שתהיה מרוצה מערך הדיוק שלך. 

בדיקת המודל שלך באמצעות נתוני בדיקה ואימות מבטיחה דיוק ושהמודל שלך מתפקד היטב. הזנת הנתונים שלך בנתונים בלתי נראים היא דרך טובה לראות כיצד המודל מתפקד עם נתונים שהוא לא עבר הכשרה עליהם בעבר. זה מכניס את המודל שלך לעבודה!

הדמיית נתונים

Once you are happy with your model’s performance, you are ready to go back and explain it all to the executives in the company. Creating data visualizations is a good way to explain your findings to people who are not technical, and is also a good way to tell a story about the data.

הדמיית נתונים היא שילוב של תקשורת, סטטיסטיקה ואמנות. יש כל כך הרבה דרכים שאתה יכול להציג את ממצאי הנתונים שלך בצורה אסתטית. ניתן להשתמש בכלים כגון תיעוד Matplotlib, הדרכה של Seaborn, ו ספריית עלילה. אם אתה משתמש ב-Python, קרא את זה: צור הדמיות מדהימות עם גלריית גרפי Python

ובדיוק ככה אתה בסוף מחזור החיים, אבל תזכור שזה מחזור. אז אתה צריך לחזור להתחלה: הבנה עסקית. יהיה עליך להעריך את הצלחת המודל שלך לגבי ההבנה והמטרה העסקית המקורית, יחד עם ההשערה שנוצרה.

עכשיו עברנו את מחזור החיים של מדעי הנתונים, אתה בטח חושב שזה נראה מאוד פשוט. זה רק צעד אחד אחרי השני. אבל כולנו יודעים שהדברים לא כל כך פשוטים. על מנת להפוך את זה לפשוט ויעיל ככל האפשר, יש להפעיל מתודולוגיות ניהול. 

Data science projects are not solely under the data scientists’ responsibility anymore – it is a team effort. Therefore, standardizing project management is imperative, and there are methods that you can use to ensure this. Let’s look into them.

מתודולוגיית מפל מים

בדיוק כמו מפל, מתודולוגיית המפל היא תהליך פיתוח רציף שזורם בכל שלבי הפרויקט. כל שלב יצטרך להסתיים כדי שהשלב הבא יתחיל. אין חפיפה בין שלבים, מה שהופך אותה לשיטה יעילה מכיוון שאין התנגשויות. אם אתה צריך לחזור על השלבים הקודמים, זה אומר שהצוות תכנן בצורה גרועה. 

הוא מורכב מחמישה שלבים:

  1. דרישות
  2. עיצוב
  3. יישום
  4. אימות (בדיקה)
  5. תחזוקה (פריסה)

אז מתי כדאי להשתמש במתודולוגיית המפל? מכיוון שהוא זורם כמו מים, הכל צריך להיות צלול. המשמעות היא שהמטרה מוגדרת, הצוות מכיר את ערימת הטכנולוגיה מבפנים, וכל מרכיבי הפרויקט נמצאים במקום כדי להבטיח תהליך חלק ויעיל. 

אבל בואו נחזור למציאות. האם פרויקטים של מדעי הנתונים זורמים בקלות כמו מים? לא. הם דורשים הרבה ניסויים, שינויים בדרישות ועוד. עם זאת, זה לא אומר שאתה לא יכול להשתמש באלמנטים של מתודולוגיית המפל. מתודולוגיית מפל דורשת תכנון רב. אם אתה מתכנן הכל, כן אתה עדיין עלול להיתקל בבעיה אחת או שתיים בדרך, אבל האתגרים יהיו פחותים ולא קשים באותה מידה בתהליך. 

מתודולוגיה זריזה

השמיים מתודולוגיה זריזה נולד בתחילת 2001 כאשר 17 אנשים התכנסו כדי לדון בעתיד של פיתוח תוכנה. הוא הושתת על 4 ערכי ליבה ו-12 עקרונות.

The agile methodology is more in line with today’s technology, as it works in a fast-paced, ever-changing technology industry. If you are a tech professional, you know that the requirements in a data science or software project change all the time. Therefore, having the right method in place which allows you to quickly adapt to these changes is important.

The agile methodology is a perfect data science project management method as it allows the team to continuously review the requirements of the project as it grows. Executives and data science managers can make decisions about changes that need to be made during the development process, rather than at the end once it’s all complete. 

זה הוכח כיעיל ביותר כאשר המודל מתפתח לשקף תפוקות ממוקדות משתמש, חוסך זמן, כסף ואנרגיה. 

דוגמה לשיטה זריזה היא Scrum. שיטת scrum משתמשת במסגרת המסייעת ליצור מבנה בצוות תוך שימוש בסט של ערכים, עקרונות ופרקטיקות. לדוגמה, באמצעות Scrum, פרויקט מדעי נתונים יכול לפצל את הפרויקט הגדול שלו לסדרה של פרויקטים קטנים יותר. כל אחד מהמיני-פרויקטים הללו ייקרא ספרינט ויורכב מתכנון ספרינט להגדרת יעדים, דרישות, אחריות ועוד. 

מתודולוגיה היברידית

למה לא להשתמש בשתי שיטות שונות ביחד? זה נקרא שיטה היברידית, כאשר שתי מתודולוגיות או יותר משמשות ליצירת שיטה שהיא ייחודית לחלוטין לעסק. חברות יכולות להשתמש בשיטות היברידיות עבור כל סוגי הפרויקטים, עם זאת, ההיגיון מאחורי זה תלוי באספקת המוצר. 

For example, if a customer requires a product but is not happy with the timeframe of production based on using sprints in an Agile method. So it seems like the company needs to do a bit more planning right? What method has a lot of planning? Yes, that’s right, Waterfall. The company can adopt waterfall into their method to cater specifically for the customer’s requirement. 

Some companies may have mixed emotions about combining an agile method with a non-agile method such as Waterfall. These two methods can co-exist, however, it is the company’s responsibility to ensure a simple approach that makes sense, measure the success of the hybrid method, and provide productivity. 

מחקר ופיתוח

חלקם עשויים לשקול זאת כמתודולוגיה, עם זאת, אני מאמין שזהו בסיס חשוב לתהליך פרויקט מדעי הנתונים. בדיוק כמו מתודולוגיית המפל, אין מזיק בתכנון והכנת עצמך עם כמה שיותר מידע.

אבל לא על זה אני מדבר כאן. כן, זה נהדר לחקור הכל לפני שמתחילים פרויקט. אבל דרך טובה להבטיח ניהול פרויקט יעיל היא לראות את הפרויקט שלך כפרויקט מחקר ופיתוח. זהו כלי יעיל לשיתוף פעולה עם צוותי מדעי הנתונים.

אתה רוצה ללכת לפני שאתה רץ ותפעיל את פרויקט מדעי הנתונים שלך כאילו זה עבודת מחקר. לכמה פרויקטים של מדעי הנתונים יש מועדים קשים שמקשים על התהליך הזה, עם זאת, הזרזת המוצר הסופי שלך תמיד מלווה באתגרים נוספים. אתה רוצה לבנות מודל יעיל ומוצלח העונה על שלב מחזור החיים הראשוני של מדעי הנתונים שלך: הבנה עסקית. 

מחקר ופיתוח בפרויקט מדעי נתונים שומרים על דלתות פתוחות לחדשנות, מגבירים את היצירתיות ואינם מגבילים את הצוות להסתפק במשהו שיכול להיות הרבה יותר גדול!

למרות שיש מתודולוגיות שונות לבחירה, בסופו של דבר זה מסתכם בפעילות העסק. שיטות מסוימות הפופולריות בחברה אחת, עשויות להיות לא הגישה הטובה ביותר עבור חברה אחרת. 

ליחידים עשויים להיות דרכי עבודה שונות, ולכן הגישה הטובה ביותר היא ליצור שיטה שמתאימה לכולם. 

רוצה ללמוד על אוטומציה של זרימת העבודה שלך במדעי הנתונים, קרא את זה: אוטומציה בתהליכי עבודה במדעי הנתונים.
 
 
נישה אריה הוא מדען נתונים, כותב טכני עצמאי ומנהל קהילה ב-KDnuggets. היא מעוניינת במיוחד במתן ייעוץ קריירה או הדרכות וידע מבוסס תיאוריה סביב Data Science. היא גם רוצה לחקור את הדרכים השונות שבהן אינטליגנציה מלאכותית יכולה להועיל לאריכות חיי האדם. לומדת נלהבת, המבקשת להרחיב את הידע הטכני וכישורי הכתיבה שלה, תוך כדי עזרה בהדרכת אחרים.
 

בול זמן:

עוד מ KDnuggets