Survey: Machine Learning Projects Still Routinely Fail To Deploy - KDnuggets

הועלה מחדש על ידי אפלטון

עוקב: 0

באיזו תדירות מגיעים פרויקטים של למידת מכונה לפריסה מוצלחת? לא מספיק פעמים. יש שפע of תעשייה מחקר הצגה שפרויקטי ML בדרך כלל לא מצליחים להניב תשואות, אבל מעטים יקרי הערך העריכו את היחס בין כישלון להצלחה מנקודת המבט של מדעני נתונים - האנשים שמפתחים את המודלים שהפרויקטים האלה אמורים לפרוס.

מעקב אחר סקר מדען נתונים שניהלתי עם KDnuggets בשנה שעברה, סקר מדעי הנתונים המוביל בתעשייה השנה המנוהל על ידי חברת הייעוץ ML Rexer Analytics התייחסה לשאלה - בין השאר משום שקרל רקסר, מייסד החברה ונשיא החברה, אפשר לכבודכם להשתתף, מה שהניע את הכללת שאלות על הצלחת הפריסה (חלק מהעבודה שלי במהלך פרופסורה של שנה לניתוח ניתוחים שמילאתי ב-UVA דרדן).

החדשות לא נהדרות. רק 22% ממדעני הנתונים אומרים שהיוזמות ה"מהפכניות" שלהם - מודלים שפותחו כדי לאפשר תהליך או יכולת חדשה - בדרך כלל פורסים. 43% אומרים ש-80% או יותר נכשלים בפריסה.

לרוחב את כל סוגים של פרויקטי ML - כולל מרענן מודלים לפריסות קיימות - רק 32% אומרים שהמודלים שלהם בדרך כלל פורסים.

להלן התוצאות המפורטות של אותו חלק של הסקר, כפי שהוצג על ידי Rexer Analytics, המפרט את שיעורי הפריסה על פני שלושה סוגים של יוזמות ML:

סקר: פרויקטי למידת מכונה עדיין נכשלים באופן שגרתי בפריסה

מפתח:

יוזמות קיימות: מודלים שפותחו כדי לעדכן/לרענן מודל קיים שכבר הופעל בהצלחה
יוזמות חדשות: מודלים שפותחו כדי לשפר תהליך קיים שעבורו לא נפרס כבר מודל
יוזמות מהפכניות: מודלים שפותחו כדי לאפשר תהליך או יכולת חדשה

לדעתי, המאבק הזה לפריסה נובע משני גורמים עיקריים: תת-תכנון אנדמי ובעלי עניין עסקיים חסרי נראות קונקרטית. אנשי מקצוע ומנהיגים עסקיים רבים לא הבינו כי יש לתכנן את התפעול המיועד של ML בפירוט רב ולהמשיך באגרסיביות מתחילתו של כל פרויקט ML.

למעשה, כתבתי ספר חדש בדיוק על זה: ספר הבינה המלאכותית: שליטה באמנות הנדירה של פריסת למידת מכונה. בספר זה, אני מציג תרגול ממוקד פריסה בן שישה שלבים להפעלת פרויקטים של למידת מכונה מהתפיסה ועד לפריסה שאני מכנה אותו. bizML (הזמינו מראש את הכריכה הקשה או הספר האלקטרוני ו קבל עותק מתקדם בחינם של גרסת ספר האודיו מיד).

בעל העניין המרכזי של פרויקט ML – האדם שאחראי על האפקטיביות התפעולית שמטרתה שיפור, כגון מנהל קו עסקי – זקוק לנראות במדויק כיצד ML ישפר את הפעילות שלהם וכמה ערך צפוי להניב השיפור. הם צריכים את זה כדי בסופו של דבר להאיר עיניים בפריסה של מודל, כמו גם כדי, לפני כן, לשקול את ביצוע הפרויקט לאורך שלבי הטרום-הפריסה.

אבל הביצועים של ML לרוב אינם נמדדים! כאשר הסקר של Rexer שאל, "באיזו תדירות החברה / הארגון שלך מודדים את הביצועים של פרויקטים אנליטיים?" רק 48% ממדעני הנתונים אמרו "תמיד" או "רוב הזמן". זה די פרוע. זה אמור להיות יותר כמו 99% או 100%.

וכאשר מודדים את הביצועים, זה במונחים של מדדים טכניים שהם עלובים ובעיקר לא רלוונטיים לבעלי עניין עסקיים. מדעני נתונים יודעים טוב יותר, אבל בדרך כלל לא עומדים - בין השאר מכיוון שכלי ML בדרך כלל משרתים רק מדדים טכניים. על פי הסקר, מדעני נתונים מדרגים מדדי KPI עסקיים כמו החזר ROI והכנסות כמדדים החשובים ביותר, אך הם מפרטים מדדים טכניים כמו עלייה ו-AUC כאלו הנמדדים ביותר.

מדדי ביצועים טכניים הם "חסרי תועלת ביסודו של בעלי עניין עסקיים ומנותקים מהם", לפי סקירת מדעי הנתונים של הרווארד. הנה הסיבה: הם אומרים לך רק את קרוב משפחה ביצועים של מודל, כגון איך הוא משתווה לניחוש או קו בסיס אחר. מדדים עסקיים אומרים לך את מוחלט ערך עסקי שהמודל צפוי לספק - או, בעת הערכה לאחר הפריסה, שהוא הוכיח שהוא מספק. מדדים כאלה חיוניים עבור פרויקטי ML ממוקדי פריסה.

מעבר לגישה למדדים עסקיים, בעלי עניין עסקיים צריכים גם להגדיל. כאשר הסקר של Rexer שאל, "האם המנהלים ומקבלי ההחלטות בארגון שלך שחייבים לאשר פריסת מודל הם בדרך כלל בעלי ידע מספיק כדי לקבל החלטות כאלה בצורה מושכלת?" רק 49% מהמשיבים ענו "רוב הזמן" או "תמיד".

הנה מה שאני מאמין שקורה. "הלקוח" של מדען הנתונים, בעל העניין העסקי, מקבל לעתים קרובות רגליים קרות כשזה מגיע לאשר פריסה, שכן המשמעות היא ביצוע שינוי תפעולי משמעותי בלחם ובחמאה של החברה, התהליכים בקנה מידה הגדול ביותר שלה. אין להם את המסגרת ההקשרית. לדוגמה, הם תוהים, "איך אני יכול להבין עד כמה המודל הזה, שמתפקד הרבה מאוד משלמות כדור בדולח, יעזור?" כך הפרויקט מת. ואז, יצירת סיבוב חיובי כלשהו על "התובנות שהושגו" משמשת לטאטא בצורה מסודרת את הכישלון מתחת לשטיח. הייפ של AI נשאר על כנו גם כשהערך הפוטנציאלי, מטרת הפרויקט, אובד.

בנושא זה - להגביר את בעלי העניין - אני אחבר את הספר החדש שלי, ספר הבינה המלאכותית, רק עוד פעם אחת. תוך כיסוי פרקטיקת bizML, הספר גם משפר את מיומנויותם של אנשי מקצוע עסקיים על ידי מתן מנה חיונית אך ידידותית של ידע רקע טכני למחצה שכל בעלי העניין צריכים על מנת להוביל או להשתתף בפרויקטים של למידת מכונה, מקצה לקצה. זה מציב את אנשי העסקים והנתונים על אותו עמוד, כך שהם יכולים לשתף פעולה בצורה מעמיקה, תוך ביסוס משותף במדויק איזו למידת מכונה נדרשת לחזות, עד כמה היא חוזה וכיצד פועלים התחזיות שלה כדי לשפר את הפעולות. המרכיבים החיוניים הללו יוצרים או שוברים כל יוזמה - ביצוע נכון סולל את הדרך לפריסה מונעת ערכים של למידת מכונה.

אפשר לומר בבטחה שזה סלעי בחוץ, במיוחד עבור יוזמות ML חדשות, ניסיון ראשון. מכיוון שהכוח העצום של ההייפ של AI מאבד את יכולתו לפצות ללא הרף

ערך מומש פחות מהמובטח, יהיה יותר ויותר לחץ להוכיח את הערך התפעולי של ML.? אז אני אומר, צא לפני זה עכשיו - התחל להטמיע תרבות יעילה יותר של שיתוף פעולה בין ארגונים ומנהיגות פרויקטים מוכוונת פריסה!

לתוצאות מפורטות יותר מה- 2023 Rexer Analytics Data Science Survey, לחץ על כאן. זהו הסקר הגדול ביותר של אנשי מקצוע בתחום מדעי הנתונים והאנליטיקה בתעשייה. הוא מורכב מכ-35 שאלות מרובות ושאלות פתוחות המכסות הרבה יותר מאשר אחוזי הצלחה בפריסה בלבד - שבעה תחומים כלליים של מדע ופרקטיקה של כריית נתונים: (1) תחום ויעדים, (2) אלגוריתמים, (3) מודלים, ( 4) כלים (חבילות תוכנה בשימוש), (5) טכנולוגיה, (6) אתגרים ו- (7) עתיד. הוא מתנהל כשירות (ללא חסות תאגידית) לקהילת מדעי הנתונים, והתוצאות בדרך כלל מתפרסמות ב- כנס שבוע למידת מכונה ומשותף באמצעות דוחות סיכום זמינים באופן חופשי.

מאמר זה הוא תוצר של עבודתו של הכותב בזמן שהוא מילא תפקיד של שנה כפרופסור לשנתיים באנליטיקה בבית הספר לעסקים של UVA Darden, שבסופו של דבר הגיע לשיאו עם פרסום ספר הבינה המלאכותית: שליטה באמנות הנדירה של פריסת למידת מכונה (הצעת ספרי שמע בחינם).

אריק סיגל, Ph.D., הוא יועץ מוביל ופרופסור לשעבר באוניברסיטת קולומביה שהופך למידת מכונה מובנת ושובה לב. הוא המייסד של ה עולם אנליטי חזוי ו עולם למידה עמוקה סדרות כנסים, ששירתו יותר מ-17,000 משתתפים מאז 2009, מדריכת הקורס עטור השבחים מנהיגות ותרגול למידת מכונה - שליטה מקצה לקצה, נואם פופולרי שהוזמן עבור 100+ כתובות מרכזיות, ועורך בכיר של זמני למידת המכונה. הוא חיבר את רב המכר ניתוח חיזוי: הכוח לחזות מי ילחץ, יקנה, ישקר או ימות, ששימש בקורסים ביותר מ-35 אוניברסיטאות, והוא זכה בפרסי הוראה כשהיה פרופסור באוניברסיטת קולומביה, שם שר שירים חינוכיים לתלמידיו. גם אריק מפרסם פעולות בנושא ניתוח וצדק חברתי. עקוב אחריו בשעה @predictanalytic.

עוד בנושא זה

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
מקור: https://www.kdnuggets.com/survey-machine-learning-projects-still-routinely-fail-to-deploy?utm_source=rss&utm_medium=rss&utm_campaign=survey-machine-learning-projects-still-routinely-fail-to-deploy

בול זמן: ינואר 8, 2024

בול זמן: נובמבר 23, 2023

הועלה מחדש על ידי אפלטון

עלייתם של ChatOps/LMOps

טכניקות תת-דגימה באמצעות Python - KDnuggets

7 שלבים לשליטה בטכניקות ניקוי ועיבוד מוקדם של נתונים - KDnuggets

מבוא לשרשראות מרקוב

כיצד מדעני נתונים יכולים להתחרות בשוק העבודה העולמי

סיפורים מובילים, 2-8 באוגוסט: 3 סיבות מדוע עליך להשתמש במודלים של רגרסיה לינארית במקום ברשתות עצביות; Bootstrap ערימת נתונים מודרנית תוך 5 דקות עם Terraform

Fake It Till You Make It: יצירת מערכי נתונים סינתטיים של לקוחות מציאותיים

היכרות עם PostHog: פלטפורמת ניתוח מוצרים של קוד פתוח

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן