הכשל בשיעור הבסיס והשפעתו על מדעי הנתונים

הכשל בשיעור הבסיס והשפעתו על מדעי הנתונים

צומת המקור: 2597848
הכשל בשיעור הבסיס והשפעתו על מדעי הנתונים
תמונה מאת המחבר
 

כשעובדים עם נתונים ומשתנים שונים, קל להקצות משתנה או ערך אחד לגדולים מהשני. אנו עשויים להניח שלמשתנה או נקודת נתונים ספציפיים הייתה השפעה רבה יותר על התפוקה, אך עד כמה אנו בטוחים שלשאר המשתנים יש השפעה שווה?

בסטטיסטיקה ניתן לראות את שיעור הבסיס כהסתברויות של מחלקות שאינן מותנות ב"ראיות תכונות". אתה יכול לראות את שיעור הבסיס כהנחת ההסתברות הקודמת שלך. 

שיעורי בסיס הם כלים חשובים במחקר. לדוגמה, אם אנחנו חברת תרופות ונמצאים בתהליך של פיתוח ושליחה של חיסון חדש, אנחנו רוצים לבדוק את הצלחת הטיפול. אם יש לנו 4000 אנשים שמוכנים לקחת את החיסון הזה, והשיעור הבסיסי שלנו הוא 1/25. 

המשמעות היא שרק 160 אנשים ירפאו בהצלחה על ידי הטיפול מתוך 4000 אנשים. בעולם התרופות מדובר בשיעור הצלחה נמוך מאוד. כך ניתן להשתמש בתעריפי בסיס כדי לשפר את המחקר והדיוק ולהבטיח שהמוצר יתפקד היטב. 

אם נחלק את המילים, זה ייתן לנו הבנה טובה יותר. כשל פירושו אמונה שגויה או נימוק שגוי. אם כעת נשלב את זה עם ההגדרה שלנו של שיעור הבסיס לעיל. 

הכשל בשיעור הבסיס, המכונה גם הטיית שיעור הבסיס והזנחת שיעור הבסיס, הוא הסבירות לשפוט מצב ספציפי, תוך אי התחשבות בכל הנתונים הרלוונטיים. 

לכשל של שיעור הבסיס יש מידע על שיעור הבסיס וכן מידע רלוונטי אחר. זה יכול לנבוע מסיבות שונות כמו אי בדיקה וניתוח מעמיק של הנתונים, או אי ידיעה להעדיף חלק מסוים בנתונים. 

הכשל של שיעור הבסיס מתאר את הנטייה של מישהו להתעלם ממידע התעריף הבסיסי הקיים, לדחוף ולהיות בעד המידע החדש. זה נוגד את הכללים הבסיסיים של חשיבה מבוססת ראיות.

בדרך כלל תשמע על זה קורה בתעשייה הפיננסית. למשל, המשקיעים יבססו את טקטיקת הקנייה או השיתוף שלהם על מידע לא הגיוני, מה שמוביל לתנודות בשוק - למרות שער הבסיס לידע שלהם. 

אז עכשיו יש לנו הבנה טובה יותר של התעריף הבסיסי והכשל של שיעור הבסיס. מה הרלוונטיות וההשפעה שלו ב-Data Science?

דיברנו על 'הסתברויות של שיעורים' ו'התחשבות בכל הנתונים הרלוונטיים'. אם אתה מדען נתונים, או מהנדס למידת מכונה, או מקבל רגל בדלת - תדע עד כמה חשובים ההסתברויות והנתונים הרלוונטיים להפקת תפוקות מדויקות, לתהליך הלמידה של מודל למידת המכונה שלך ולהפקת מודלים בעלי ביצועים גבוהים. 

כדי לנתח ולבצע תחזיות לגבי נתונים או שמודל למידת המכונה שלך יפיק תפוקות מדויקות - עליך לקחת בחשבון כל פיסת נתונים. כשאתה סורק את הנתונים שלך בפעם הראשונה שאתה רואה אותם, ייתכן שתראה חלקים מסוימים רלוונטיים וחלקים אחרים לא רלוונטיים. עם זאת, זה השיפוט שלך והוא עדיין לא עובדתי עד לניתוח נכון. 

כפי שהוזכר לעיל, שיעור הבסיס הראשוני עוזר לך להבטיח דיוק ולייצר דגמים בעלי ביצועים גבוהים. אז איך אנחנו יכולים לעשות את זה ב-Data Science?

מטריקס בלבול

מטריצת בלבול היא מדידת ביצועים המספקת סיכום של תוצאות חיזוי על בעיית סיווג. מטריצות הבלבול מבוססות כולן על התוצאה: נכון, לא נכון, חיובי ושלילי.

מטריצת הבלבול מייצגת את התחזיות של המודל שלנו במהלך שלב הבדיקה. ה-false-negative וה-false-positive במטריצת הבלבול הם דוגמאות לכשל בשיעור הבסיס.

  • חיובי אמיתי (TP) - המודל שלך חזה חיובי והוא חיובי 
  • שלילי אמיתי (TN) - המודל שלך חזה שלילי והוא שלילי
  • False Positive (FP) - המודל שלך ניבא חיובי והוא שלילי
  • שלילי כוזב (FN) - המודל שלך ניבא שלילי והוא חיובי 

מטריצת בלבול יכולה לחשב 5 מדדים שונים כדי לעזור לנו למדוד את תקפות המודל שלנו:

  1. סיווג שגוי = FP + FN / TP + TN + FP + FN
  2. דיוק = TP / TP + FP
  3. דיוק = TP + TN / TP + TN + FP + FN
  4. ספציפיות = TN / TN + FP
  5. רגישות aka Recall = TP / TP + FN

כדי להבין טוב יותר מטריצת בלבול, עדיף להסתכל על הדמיה: 
 

הכשל בשיעור הבסיס והשפעתו על מדעי הנתונים
תמונה מאת המחבר

בזמן שאתה עובר על מאמר זה, אתה כנראה יכול לחשוב על מגוון גורמים לכשל בשיעור הבסיס, כמו אי התחשבות בכל הנתונים הרלוונטיים, טעות אנוש או חוסר דיוק. 

למרות שכל אלה נכונים ומוסיפים לגורם לכשל בשיעור הבסיס. כולם מתייחסים לבעיה הגדולה ביותר של התעלמות ממידע התעריף הבסיסי מלכתחילה. לעתים קרובות מתעלמים ממידע על תעריף בסיס מכיוון שהוא נחשב לא רלוונטי, עם זאת, מידע על תעריף בסיס יכול לחסוך לאנשים הרבה זמן וכסף. שימוש במידע על שיעור הבסיס הזמין מאפשר לך לדייק יותר ביצירת הסתברויות לגבי האם אירוע נתון יתרחש. 

שימוש במידע על התעריף הבסיסי יעזור לך להימנע מכשל בתעריף הבסיס. 

מודע לכשלים כגון דעות, תהליכים אוטומטיים וכו' - יאפשר לך להילחם בסוגיית הכשל בשיעור הבסיס ולהפחית טעויות פוטנציאליות. כאשר אתה מודד את ההסתברות להתרחשות אירוע מסוים, שיטות בייסיאניות יכולות לעזור בכך כדי להפחית את הכשל בשיעור הבסיס.  

שיעור הבסיס חשוב במדעי הנתונים מכיוון שהוא מצייד אותך בהבנה בסיסית כיצד להעריך את המחקר או הפרויקט שלך, ולכוונן את המודל שלך - מספק עלייה כוללת ברמת הדיוק והביצועים.

אם תרצה לצפות בסרטון על כשל בשיעור הבסיס בתחום הרפואי, בדוק את הסרטון הזה: פרדוקס בדיקה רפואית
 
 
נישה אריה הוא מדען נתונים, כותב טכני עצמאי ומנהל קהילה ב-KDnuggets. היא מעוניינת במיוחד במתן ייעוץ קריירה או הדרכות וידע מבוסס תיאוריה סביב Data Science. היא גם רוצה לחקור את הדרכים השונות שבהן אינטליגנציה מלאכותית יכולה להועיל לאריכות חיי האדם. לומדת נלהבת, המבקשת להרחיב את הידע הטכני וכישורי הכתיבה שלה, תוך כדי עזרה בהדרכת אחרים.
 

בול זמן:

עוד מ KDnuggets