מודל ההסתברות הליניארי הוא מודל לבחירה בינארית. בכך, הציפייה המותנית של המשתנה התלוי היא פונקציה לינארית, כלומר, הקשר של המשתנה התלוי למשתנה / ההסברים קבוע.
כדי לראות זאת בדרך אחרת, מודל ההסתברות הליניארי הוא מודל שבו יש לנו משתנה תלוי ומשתנה (ים) עצמאיים כפולות במקדם קבוע.
עלינו לציין כי מודל ההסתברות הליניארי הוא מודל לבחירה בינארית, כלומר, כאשר המשתנה התלוי יכול לקחת שני ערכים. ערכים אלה הם 1 או 0, כדי לציין הצלחה או כישלון, בהתאמה.
מודל ההסתברות הליניארי מתבטא באופן הבא:
E (Y | X = x) = Pr (Y = 1 | X = x) = p (x) = β0 + β1x
במשוואה המוצגת, הציפייה המותנית של Y נתונה ל- X מתפרשת כשווה ל- β0 + β1x.
במקרה זה אנו לוקחים את הציפייה המותנית, מכיוון שאנו מעוניינים לדעת את ההסתברות שאדם מקבל החלטה בהתחשב במאפייניו, למשל (או שניתן לקחת כמשתנה משתנה עצמאי אחר).
חסרונות מודל ההסתברות הליניארית
כמה חסרונות במודל ההסתברות הליניארית הם כדלקמן:
- מודל ההסתברות הליניארי יכול להראות הטרוסקדסטיות. כלומר, שונות הטעויות אינה זהה בכל התצפיות שנעשו. במקרה כזה משתמשים בשגיאות סטנדרטיות.
- לא ניתן להניח כי השגיאות מופצות בדרך כלל.
- המשתנה התלוי יכול לקחת רק שני ערכים.
- ההנחה היא כי למשתנים הבלתי תלויים והתלויים יש קשר לינארי, כלומר קצב השינוי תמיד זהה. עם זאת, יתכן ומדויק יותר לבנות מודל שבו קצב השינוי עולה ככל ש- Y מגיע לערך גבוה יותר, וההפך קורה כאשר Y יורד.
בהתחשב בחסרונות אלה, ישנם דגמי logit ו- probit.
דוגמה למודל הסתברות לינארית
ניתן לבנות מודל הסתברות ליניארי, למשל, כאשר המשתנה התלוי הוא האם לאדם יש כיום עבודה רשמית בה החזיק שנה או יותר. המשתנים הבלתי תלויים יכולים להיות רמת הלימודים או רמת החינוך, המין והגיל.
בדוגמה המוצגת, המשתנה התלוי יהיה 1 או 0, אך יש לפרש אותו באופן איכותי, ללא קשר לערכו המספרי. לפיכך, 1 פירושו כי לאדם יש עבודה רשמית שנשמרת יותר משנה אחת, ו- 0 יהיה המצב בו הדבר אינו מתרחש.