גישות להטלת נתונים

גישות להטלת נתונים

צומת המקור: 1895750

גישות להטלת נתונים
תמונה על ידי רון לאך
 

מערכי נתונים בעולם האמיתי הם לעתים רחוקות מושלמים ולעתים קרובות מגיעים עם ערכים חסרים או מידע חלקי. תקלות אלו עשויות לנבוע מהאלמנט האנושי (סקרים שגויים או לא מולאו) או טכנולוגיה (חיישנים לא תקינים). לא משנה מה המקרה, לעתים קרובות אתה נשאר עם ערכים או מידע חסרים.

כמובן שזה יוצר בעיה. ללא הערכים החסרים, כל מערך הנתונים עלול להיחשב בלתי שמיש. אבל מכיוון שנדרש זמן רב, מאמץ ו(במקרים רבים) כסף לרכוש נתונים באיכות גבוהה, ייתכן שסילוק הנתונים השגויים והתחיל מחדש לא יהיו אפשרויות ברות קיימא. במקום זאת, עלינו למצוא דרך לעקוף או להחליף את הערכים החסרים הללו. כאן נכנסת לתמונה זקיפת הנתונים. 

מדריך זה ידון מהי זקיפת נתונים וכן בסוגי הגישות שבהן הוא תומך.

למרות שאיננו יכולים להחליף נתונים חסרים או פגומים, ישנן שיטות שאנו יכולים להשתמש כדי לאפשר למערך הנתונים להיות עדיין שמיש. זקיפת נתונים היא אחת הטכניקות האמינות ביותר להשגת זאת. עם זאת, ראשית עלינו לזהות איזה סוג של נתונים חסר ומדוע. 

בסטטיסטיקה ובמדעי הנתונים, ישנם שלושה סוגים עיקריים של נתונים חסרים:

  • חסר באקראי (MAR), שבו הנתונים החסרים קשורים למשתנה ובסופו של דבר ניתן לצפות בהם או להתחקות אחריהם. במקרים רבים, זה יכול לספק לך מידע נוסף על הנתונים הדמוגרפיים או נושאי הנתונים. לדוגמה, אנשים בגיל מסוים עשויים להחליט לדלג על שאלה בסקר או להסיר מערכות מעקב מהמכשירים שלהם בזמנים מסוימים. 
  • חסר לגמרי באקראי (MCAR), שם מידע חסר לא ניתן לצפות או לעקוב אחר משתנה. כמעט בלתי אפשרי להבחין מדוע הנתונים חסרים.
  • חסרים נתונים שאינם חסרים באקראי (NMAR), כאשר הנתונים החסרים קשורים למשתנה בעל עניין. ברוב המקרים, ניתן להתעלם מהנתונים החסרים הללו. NMAR יכול להתרחש כאשר לוקח סקר מדלג על שאלה שאינה רלוונטית לו.

התמודדות עם נתונים חסרים

נכון לעכשיו, יש לך שלוש אפשרויות עיקריות להתמודד עם ערכי נתונים חסרים:

  • מחיקה
  • זקיפה
  • התעלם

במקום לזרוק את כל מערך הנתונים, אתה יכול להשתמש במה שמכונה מחיקה ברשימה. זה כולל מחיקת רשומות עם מידע או ערכים חסרים. היתרון העיקרי של מחיקה ברשימה הוא שהיא תומכת בכל שלוש הקטגוריות של נתונים חסרים. 

עם זאת, הדבר עלול לגרום לאובדן נתונים נוסף. מומלץ להשתמש רק מחיקה ברשימה במקרים שבהם יש מספר גדול יותר של ערכים חסרים (נצפים) מאשר ערכים נוכחים (נצפים), בעיקר בגלל שאין מספיק נתונים כדי להסיק או להחליף אותם. 

אם הנתונים החסרים שנצפו אינם חשובים (ניתן להתעלם מהם) ורק מספר ערכים חסרים, אתה יכול להתעלם מהם ולעבוד עם מה שיש לך. עם זאת, זו לא תמיד אפשרות. זקיפת נתונים מציעה פתרון שלישי ובעל פוטנציאל סביר יותר. 

זקיפת נתונים כרוכה בהחלפת ערכים נעדרים כך שקבוצות נתונים עדיין יהיו ניתנות לשימוש. קיימות שתי קטגוריות של גישות זקיפת נתונים:

  • יחיד
  • מְרוּבֶּה

זקיפה ממוצעת (MI) היא אחת הצורות המפורסמות ביותר של זקיפת נתונים בודדים.

זקיפה ממוצעת (MI)

MI הוא סוג של זקיפה פשוטה. זה כרוך בחישוב הממוצע של הערכים הנצפים ושימוש בתוצאות כדי להסיק את הערכים החסרים. למרבה הצער, שיטה זו הוכחה כלא יעילה. זה יכול להוביל להערכות מוטות רבות, גם כאשר הנתונים חסרים לחלוטין באקראי. בנוסף, "הדיוק" של האומדנים תלוי במספר הערכים החסרים. 

לדוגמה, אם חסרים מספר רב של ערכים נצפים, באמצעות זקיפה ממוצעת עלול להוביל לחוסר הערכת ערך. לפיכך, זה מתאים יותר לקבוצות נתונים ומשתנים עם רק כמה ערכים חסרים. 

החלפה ידנית

במצב זה, מפעיל יכול להשתמש בידע מוקדם של ערכי מערך הנתונים כדי להחליף את הערכים החסרים. זוהי שיטת זקיפה אחת המסתמכת על הזיכרון או הידע של המפעיל ולעיתים מכונה ידע מוקדם של מספר אידיאלי. הדיוק תלוי ביכולתו של המפעיל לזכור את הערכים, ולכן שיטה זו עשויה להתאים יותר למערכות נתונים עם מספר ערכים חסרים בלבד.

K-Nearest Neighbors (K-NN)

K-nearest neighbour היא טכניקה המפורסמת בשימוש בלמידת מכונה כדי לטפל בבעיות רגרסיה וסיווג. הוא משתמש בממוצע של ערך הנתונים החסרים של השכנים החסרים כדי לחשב ולזקוף אותו. ה שיטת K-NN יעיל הרבה יותר מאשר זקיפה ממוצעת פשוטה ואידיאלי עבור ערכי MCAR ו- MAR. 

החלפה

החלפה כרוכה במציאת אדם חדש או נושא לסקר או בדיקה. זה צריך להיות נושא שלא נבחר במדגם המקורי.

זקיפת רגרסיה

רגרסיה מנסה לקבוע את עוצמתו של משתנה תלוי (בדרך כלל מצוין כ-Y) לאוסף של משתנים בלתי תלויים (מסומן בדרך כלל כ-X). רגרסיה לינארית היא צורת הרגרסיה הידועה ביותר. הוא משתמש בקו ההתאמה הטוב ביותר כדי לחזות או לקבוע את הערך החסר. כתוצאה מכך, זוהי השיטה הטובה ביותר לייצוג נתונים חזותית באמצעות מודל רגרסיה.

כאשר רגרסיה לינארית היא צורה של רגרסיה דטרמיניסטית שבה נוצר קשר מדויק בין הערכים החסרים להווה, הערכים החסרים מוחלפים בחיזוי 100% של מודל הרגרסיה. עם זאת, ישנה מגבלה לשיטה זו. רגרסיה ליניארית דטרמיניסטית עלולה לגרום לרוב להערכת יתר של סמיכות הקשר בין הערכים.

סטוכסטיים רגרסיה לינארית מפצה על "דיוק היתר" של רגרסיה דטרמיניסטית על ידי הצגת מונח שגיאה (אקראי) מכיוון ששני מצבים או משתנים קשורים רק לעתים רחוקות באופן מושלם. זה הופך את מילוי הערכים החסרים באמצעות רגרסיה למתאים יותר.

דגימה של Hot Deck

גישה זו כוללת בחירה של ערך שנבחר באקראי מתוך נושא עם ערכים אחרים הדומים לנושא החסר את הערך. זה מחייב אותך לחפש נושאים או אנשים ולאחר מכן למלא את הנתונים החסרים באמצעות הערכים שלהם. 

שיטת הדגימה החמה מגבילה את טווח הערכים הניתנים להשגה. לדוגמה, אם המדגם שלך מוגבל לקבוצת גיל בין 20 ל-25, התוצאה שלך תהיה תמיד בין המספרים הללו, מה שמגדיל את הדיוק הפוטנציאלי של ערך החלפה. הנבדקים/היחידים לשיטת זקיפה זו נבחרים באקראי.

דגימת סיפון קר

שיטה זו כוללת חיפוש אחר פרט/נושא בעל ערכים דומים או זהים עבור כל שאר המשתנים/פרמטרים במערך הנתונים. לדוגמה, הנבדק עשוי להיות בעל אותו גובה, רקע תרבותי וגיל כמו הנושא שערכיו חסרים. זה שונה מדגימת סיפון חם בכך שהנושאים נבחרים באופן שיטתי ועושים בהם שימוש חוזר. 

אמנם ישנן אפשרויות וטכניקות רבות להתמודדות עם נתונים חסרים, אך מניעה תמיד עדיפה על תרופה. חוקרים חייבים ליישם מחמירים תכנון ניסויים ולימודים. למחקר חייב להיות הצהרת ייעוד או מטרה ברורה בראש. 

לעתים קרובות, חוקרים מסבכים יתר על המידה מחקר או לא מצליחים לתכנן נגד מכשולים, מה שגורם לנתונים חסרים או לא מספיקים. תמיד עדיף לפשט את עיצוב המחקר תוך התמקדות מדויקת באיסוף נתונים. 

אסוף רק את הנתונים הדרושים לך כדי לעמוד ביעדי המחקר ותו לא. כמו כן, עליך לוודא שכל המכשירים והחיישנים המעורבים במחקר או בניסויים פועלים באופן מלא בכל עת. שקול ליצור גיבויים קבועים של הנתונים/תגובות שלך עם התקדמות המחקר. 

נתונים חסרים הם תופעה שכיחה. גם אם אתה מיישם את השיטות המומלצות, אתה עדיין עלול לסבול מנתונים לא מלאים. למרבה המזל, יש דרכים לטפל בבעיה זו לאחר מעשה.   

 
 
נחלה דייויס הוא מפתח תוכנה וכותב טכנולוגי. לפני שהקדישה את עבודתה במשרה מלאה לכתיבה טכנית, היא הספיקה - בין השאר מסקרנים - לשמש כמתכנתת מובילה בארגון מיתוג חוויתי של Inc. 5,000 שעם לקוחותיו נמנים סמסונג, טיים וורנר, נטפליקס וסוני.
 

בול זמן:

עוד מ KDnuggets