Outlier - מה זה, הגדרה ומושג

יוצא מן הכלל הוא תצפית חריגה וקיצונית במדגם סטטיסטי או בסדרת זמן שיכולה להשפיע על אומדן הפרמטרים שלו.

במילים פשוטות יותר, חריגה תהיה תצפית בתוך מדגם או סדרת זמן של נתונים שאינם תואמים את השאר. דמיין למשל שאנחנו מודדים את גובה התלמידים בכיתה.

בואו נדמיין מדגם של 10 תלמידים. גובה כל אחד מהם הוא כדלקמן:

דוגמא 1
סטוּדֶנטגובה במטרים
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

הגובה הממוצע של הכיתה יהיה 1.73. אם ניקח בחשבון את הגובה המרבי (1.85) ואת הגובה המינימלי (1.62) ואת המרחק ביניהם לממוצע, אנו רואים שהוא 0.113 ו- 0.117 בהתאמה. כפי שאנו רואים, הממוצע הוא בערך באמצע המרווח ויכול להיחשב הערכה טובה למדי.

האפקט החריג

בואו נחשוב על מדגם נוסף של 10 סטודנטים, שגובהם הוא הבא:

דוגמא 1
סטוּדֶנטגובה במטרים
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

במקרה זה, הגובה הממוצע של הכיתה יהיה 1.81. אם נסתכל כעת על הגובה המרבי (2.20) והגובה המינימלי (1.62) והמרחק ביניהם לממוצע, נראה שהוא 0.39 ו- 0.18 בהתאמה. במקרה זה הממוצע כבר לא נמצא באמצע הטווח.

ההשפעה של שתי התצפיות הקיצוניות ביותר (2.18 ו- 2.20) גרמה לכך שהממוצע החשבוני עבר לכיוון הערך המרבי של ההתפלגות.

בדוגמה זו אנו רואים את ההשפעה שיש לחריגים וכיצד הם יכולים לעוות את חישוב הממוצע.

איך לזהות חריגים?

כיצד לתקן את ההשפעה של חריגים

במצבים כאלה שבהם ישנם ערכים חריגים השונים מהותית מהשאר, החציון הוא הערכה טובה יותר לדעת באיזו נקודה מספר רב יותר של תצפיות מרוכז.

במקרה של שתי ההתפלגויות ומכיוון שיש לנו מספר זוגי של ערכים, אנחנו לא יכולים לקחת בדיוק את הערך שמחצית ההתפלגות כדי לחשב את החציון. בעזרתו לאחר הזמנת הערכים מהנמוך ביותר לגבוה ביותר, ניקח את התצפית החמישית והשישית (שניהם משאירים 4 תצפיות מכל צד) ונחשב את החציון באופן הבא:

דוגמה 1:

1,75+1,72/2 = 1,73

דוגמא 2:

1,79+1,71/2 = 1,75

כפי שאנו רואים, במדגם מספר 1, בהתחשב בכך שאין חריגות או תצפיות חריגות, החציון הוא 1.73 ובמקביל לממוצע. להפך, לדוגמא 2 הממוצע הוא 1.75. כפי שאנו רואים, ערך זה רחוק יותר מהגובה הממוצע, שהיה 1.81 ונותן לנו הערכת נקודת איכות גבוהה יותר בכדי לדעת באיזו נקודה מספר רב יותר של תצפיות מרוכזות.

הערכה