הועלה מחדש על ידי אפלטון

עוקב: 0

נתונים סטטיסטיים חשובים מדענים צריכים לדעת

תגיות: משפט בייס, מדע נתונים, הסתברות, סטָטִיסטִיקָה

כמה מושגים סטטיסטיים בסיסיים חייבים להיות מוערכים היטב על ידי כל מדען נתונים - מהנלהב ועד למקצוען. כאן, אנו מספקים קטעי קוד ב-Python כדי להגביר את ההבנה כדי להביא לך כלים מרכזיים שמביאים תובנה מוקדמת על הנתונים שלך.

הערות

By לקשמי ס סוניל, IIT Indore '23 | למדן GHC '21.

ניתוח סטטיסטי מאפשר לנו להפיק תובנות חשובות מהנתונים העומדים לרשותנו. הבנה נכונה של המושגים והטכניקות הסטטיסטיות החשובות היא חיונית לחלוטין לניתוח הנתונים באמצעות כלים שונים.

לפני שניכנס לפרטים, בואו נסתכל על הנושאים המכוסים במאמר זה:

סטטיסטיקה תיאורית לעומת מסקנות
סוגי מידע
הסתברות ומשפט בייס
מדדים לנטייה מרכזית
סטייה
קורטוזיס
מדדי פיזור
משתנות
מתאם
התפלגויות הסתברות
בדיקת השערה
נסיגה

סטטיסטיקה תיאורית לעומת מסקנות

סטטיסטיקה בכללותה עוסקת באיסוף, ארגון, ניתוח, פרשנות והצגת נתונים. בתוך הסטטיסטיקה, ישנם שני ענפים עיקריים:

סטטיסטיקה תיאורית: זה כרוך בתיאור תכונות הנתונים, ארגון והצגת הנתונים באופן חזותי באמצעות תרשימים/גרפים או באמצעות חישובים מספריים תוך שימוש במדדים של נטייה מרכזית, שונות והתפלגות. נקודה ראויה לציון היא שמסקנות מוסקות על סמך נתונים ידועים כבר.
סטטיסטיקה היסקית: זה כרוך בהסקת מסקנות וביצוע הכללות לגבי אוכלוסיות גדולות יותר באמצעות מדגמים שנלקחו מהן. לפיכך, נדרשים חישובים מורכבים יותר. התוצאות הסופיות מופקות באמצעות טכניקות כמו בדיקת השערות, מתאם וניתוח רגרסיה. תוצאות צפויות ומסקנות עתידיות שהושקו חורגות מרמת הנתונים הזמינים.

סוגי מידע

כדי לבצע ניתוח נתונים חקרני (EDA) נכון תוך יישום הטכניקות הסטטיסטיות המתאימות ביותר, עלינו להבין על איזה סוג נתונים אנו עובדים.

נתונים קטגוריים

נתונים קטגוריים מייצגים משתנים איכותיים כמו מינו של הפרט, קבוצת הדם, שפת האם וכו'. נתונים קטגוריים יהיו גם בצורה של ערכים מספריים ללא כל משמעות מתמטית. לדוגמה, אם מגדר הוא המשתנה, נקבה יכולה להיות מיוצגת ב-1 וזכר ב-0.

נתונים נומינליים: ערכים מתייגים את המשתנים, ואין היררכיה מוגדרת בין הקטגוריות, כלומר, אין סדר או כיוון - למשל, דת, מגדר וכו'. סולמות נומינליים עם שתי קטגוריות בלבד מכונים "דיכוטומיים".
נתונים סדרתיים: קיים סדר או היררכיה בין הקטגוריות - לדוגמה, דירוגי איכות, רמת השכלה, ציוני אותיות תלמיד וכו'.

נתונים מספריים

נתונים מספריים מייצגים משתנים כמותיים המבוטאים רק במונחים של מספרים. לדוגמה, גובהו, משקלו וכו' של אדם.

נתונים דיסקרטיים: ערכים ניתנים לספירה והם מספרים שלמים (לרוב מספרים שלמים). לדוגמה, מספר המכוניות בחניון, מספר מדינות וכו'.
נתונים מתמשכים: ניתן למדוד תצפיות אך לא ניתן לספור. נתונים מניחים כל ערך בטווח - למשל משקל, גובה וכו'. ניתן לחלק נתונים רציפים לנתוני מרווחים (ערכים מסודרים בעלי אותם הבדלים ביניהם אך אין להם אפס אמיתי) ונתוני יחס (ערכים מסודרים בעלי אותם הבדלים ביניהם וקיים אפס אמיתי).

הסתברות ומשפט בייס

הסתברות היא מדד הסבירות שאירוע יתרחש.

P(A) + P(A') = 1
P(A∪B) = P(A) + P(B) − P(A∩B)
אירועים בלתי תלויים: שני אירועים הם בלתי תלויים אם התרחשות של אחד אינה משפיעה על ההסתברות להתרחשותו של השני. P(A∩B) = P(A)P(B) כאשר P(A) != 0 ו-P(B) != 0.
אירועים בלעדיים הדדית: שני אירועים סותרים זה את זה או נפרדים אם שניהם אינם יכולים להתרחש בו-זמנית. P(A∩B) = 0 ו-P(A∪B) = P(A)+P(B).
הסתברות מותנית: הסתברות לאירוע א', בהינתן שאירוע אחר ב' כבר התרחש. זה מיוצג על ידי P(A|B). P(A|B) = P(A∩B)/P(B), כאשר P(B)>0.
משפט בייס

מדדים לנטייה מרכזית

ייבא את מודול הסטטיסטיקה.

ממוצע: ערך ממוצע של מערך הנתונים.

ניתן להשתמש גם ב-numpy.mean( ).

חציון: ערך בינוני של מערך הנתונים.

ניתן להשתמש גם ב-numpy.median( ).

מצב: הערך השכיח ביותר במערך הנתונים.

מתי להשתמש בממוצע, חציון ומצב?

קשר בין ממוצע, חציון ומצב: מצב = 3 חציון - 2 ממוצע

סטייה

מדד לסימטריה, או ליתר דיוק, חוסר סימטריה (אסימטריה).

התפלגות נורמלית/סימטרית: מצב = חציון = ממוצע
הפצה מוטה חיובית (ימינה): מצב < חציון < ממוצע
התפלגות מוטה שלילית (שמאלית): ממוצע < חציון < מצב

קורטוזיס

מדד אם הנתונים הם בעלי זנב כבד או קל זנב ביחס להתפלגות נורמלית, כלומר, הם מודדים את "הזנב" או "השיא" של התפלגות.

Leptokurtic - קורטוזיס חיובי
Mesokurtic - התפלגות נורמלית
Platykurtic - קורטוזיס שלילי

עיוות וקרטוזיס באמצעות Python.

מדדי פיזור

מתאר את התפשטות/פיזור הנתונים סביב ערך מרכזי.

טווח: ההבדל בין הערך הגדול והקטן ביותר במערך הנתונים.

סטיית רבעונים: הרביעונים של מערך נתונים מחלקים את הנתונים לארבעה חלקים שווים - הרבעון הראשון (Q1) הוא המספר האמצעי בין המספר הקטן ביותר לחציון הנתונים. הרבעון השני (Q2) הוא החציון של מערך הנתונים. הרבעון השלישי (Q3) הוא המספר האמצעי בין החציון למספר הגדול ביותר. סטיית רבעון היא Q = ½ × (Q3 - Q1)

טווח בין-רבעוני: IQR = Q3 - Q1

שׁוֹנוּת: ההפרש הממוצע בריבוע בין כל נקודת נתונים לממוצע. מודד את מידת הפריסה של מערך הנתונים ביחס לממוצע.

סטיית תקן: שורש ריבועי של שונות.

שונות וסטיית תקן באמצעות Python.

משתנות

זהו הקשר בין זוג משתנים אקראיים כאשר שינוי במשתנה אחד גורם לשינוי במשתנה אחר.

שונות שלילית, אפס וחיובית.

מטריצת שיתופיות וייצוג מפת החום שלה באמצעות Python.

מתאם

זה מראה אם וכמה משתנים קשורים זה לזה.

מטריצת מתאם משתמשת באותם נתונים המשמשים לשונות.

שיתוף פעולה לעומת מתאם.

התפלגויות הסתברות

ישנם שני סוגים רחבים של התפלגויות הסתברות - התפלגויות הסתברות בדידות ורציפות.

התפלגות הסתברות נפרדת:

הפצת ברנולי

משתנה אקראי לוקח ניסוי בודד עם שתי תוצאות אפשריות בלבד: 1 (הצלחה) עם הסתברות p ו-0 (כישלון) עם הסתברות 1-p.

התפלגות הבינומית

כל ניסוי הוא עצמאי. יש רק שתי תוצאות אפשריות בניסוי- או הצלחה או כישלון. נערכים מספר כולל של n ניסויים זהים. ההסתברות להצלחה וכישלון זהה בכל הניסויים. (הניסויים זהים.)

חלוקת דגים

מודד את ההסתברות למספר נתון של אירועים שיתרחשו בפרק זמן מוגדר.

התפלגות הסתברות רציפה:

התפלגות אחידה

נקרא גם התפלגות מלבנית. כל התוצאות סבירות באותה מידה.

תפוצה רגילה / גאוסית

הממוצע, החציון ואופן ההתפלגות עולים בקנה אחד. עקומת ההתפלגות היא בצורת פעמון וסימטרית על הקו x = μ. השטח הכולל מתחת לעקומה הוא 1. בדיוק מחצית מהערכים נמצאים משמאל למרכז והחצי השני מימין.

התפלגות נורמלית שונה מאוד מהתפלגות בינומית. עם זאת, אם מספר הניסויים מתקרב לאינסוף, אז הצורות יהיו די דומות.

הפצה מעריכית

התפלגות ההסתברות של הזמן בין אירועים בתהליך נקודת Poisson, כלומר, תהליך שבו אירועים מתרחשים באופן רציף ובלתי תלוי בקצב ממוצע קבוע.

בדיקת השערה

ראשית, בואו נסתכל על ההבדל בין השערת האפס להשערת החלופה.

השערת אפס: הצהרה לגבי פרמטר האוכלוסייה שאומרים שהוא נכון או משמש להצגת טיעון אלא אם כן ניתן להוכיח שהוא שגוי על ידי בדיקת השערות.

השערה אלטרנטיבית: טענה לגבי האוכלוסייה שסותרת את השערת האפס ומה נסיק אם נדחה את השערת האפס.

שגיאה מסוג I: דחייה של השערת אפס אמיתית

שגיאה מסוג II: אי דחייה של השערת אפס שקרית

רמת מובהקות (α): הסתברות לדחיית השערת האפס כשהיא נכונה.

ערך p: ההסתברות שסטטיסטיקת המבחן תהיה קיצונית לפחות כמו זו שנצפה בהינתן שהשערת האפס נכונה.

כאשר p-value > α, איננו מצליחים לדחות את השערת האפס.
בעוד ש-p-value ≤ α, אנו דוחים את השערת האפס, ונוכל להסיק שיש לנו תוצאה משמעותית.

בבדיקת השערה סטטיסטית, לתוצאה יש משמעות סטטיסטית כאשר סביר מאוד שהיא התרחשה בהינתן השערת האפס.

ערך קריטי: נקודה בסולם של סטטיסטיקת המבחן שמעבר לה אנו דוחים את השערת האפס. זה תלוי בסטטיסטיקה של הבדיקה, הספציפית לסוג הבדיקה, וברמת המובהקות, α, המגדירה את רגישות הבדיקה.

ליניארי רגרסיה

רגרסיה לינארית היא בדרך כלל אלגוריתם ה-ML הראשון שאנו נתקלים בו. זה פשוט, והבנתו מניחה את הבסיס לאלגוריתמים מתקדמים אחרים של ML.

רגרסיה לינארית פשוטה

גישה לינארית למידול הקשר בין משתנה תלוי למשתנה בלתי תלוי אחד.

עלינו למצוא את הפרמטרים כך שהמודל יתאים בצורה הטובה ביותר לנתונים. קו הרגרסיה (כלומר, הקו המתאים ביותר) הוא הקו שעבורו השגיאה בין הערכים החזויים לערכים הנצפים הוא מינימום.