מבחן קולמוגורוב - סמירנוף (K-S)

תוכן העניינים:

מבחן קולמוגורוב - סמירנוף (K-S)
מבחן קולמוגורוב - סמירנוף (K-S)
Anonim

מבחן Kolmogorov-Smirnoff (K-S) הוא מבחן לא פרמטרי שמטרתו לקבוע אם התדירות של שתי ערכות נתונים שונות עוקבת אחר אותה התפלגות סביב הממוצע שלהן.

במילים אחרות, מבחן Kolmogorov-Smirnoff (K-S) הוא מבחן המתאים את עצמו לצורת הנתונים ומשמש לבדיקה אם שתי דוגמאות שונות עוקבות אחר אותה התפלגות.

מדוע מדובר בבדיקה לא פרמטרית?

היופי במאפיין "הלא פרמטרי" הוא בכך שהוא מתאים לנתונים וכתוצאה מכך להתפלגויות שיכולות לעקוב אחר תדירות הנתונים. בנוסף, תכונה זו חוסכת מאיתנו להניח מראש לאיזו תפוצה המדגם עוקב.

חשיבות מבחן ה- K-S

כמה פעמים קיבלנו שתי דגימות וחישבנו את מקדם המתאם של פירסון מבלי לחשוב פעמיים? במילים אחרות, אם אנחנו רוצים לראות את הקשר הליניארי בין שתי מערכי נתונים, זה יהיה הוגן לחשב את המתאם, נכון?

ניכוי זה יהיה נכון אם התפלגויות שתי הדגימות עוקבות אחר התפלגות נורמלית. מקדם המתאם מניח שההתפלגויות תקינות, אם נדלג על הנחה זו, התוצאה של מקדם המתאם שגויה. למבחני ההשערה ומרווחי הביטחון אנו מניחים גם כי האוכלוסייה מופצת באמצעות התפלגות נורמלית.

כמו כל מבחני ההשערה הכוללים סטטיסטיקה, חשוב שיהיה נפח גדול של נתונים כדי לקבל תוצאות משמעותיות סטטיסטית. אנו עלולים לדחות בטעות השערת אפס מכיוון שהמדגם קטן. יתר על כן, חשוב כי למדגם זה יהיו מקרים קיצוניים (חריגים, באנגלית) כדי לתת עקביות לתוצאת הבדיקה.

נוהל בדיקה

נוהל השלבים הבאים.

הַשׁעָרָה

השלב הראשון יהיה לבדוק אם לשתי הדוגמאות יש אותה התפלגות. לשם כך אנו מבצעים בדיקת השערה בהנחה שלשני הדגימות יש אותה התפלגות לעומת ההשערה האלטרנטיבית שהם שונים.

סטָטִיסטִי

אנו עובדים עם פונקציות ההפצה המצטברות של שתי דוגמאות, F1(x) ו- F2(איקס):

לא להיבהל! אנו מנתחים את הנוסחה הנ"ל בשלווה:

  • החלק החשוב של הנוסחה הוא סימן הבדל (-). אנו מחפשים הבדלים אנכיים בהתפלגויות. אז נפחית את שתי פונקציות ההפצה המצטברות.
  • ה מפעיל "מקסימום". אנו מעוניינים למצוא את ההבדל הגדול ביותר או המרבי כדי לראות עד כמה שתי ההפצות יכולות להיות שונות.
  • ה ערך מוחלט. אנו משתמשים בערך המוחלט כך שסדר המפעילים לא ישנה את התוצאה. במילים אחרות, לא משנה איזה F (x) מכיל את הסימן השלילי:

ערך קריטי

עבור דגימות גדולות יש קירוב לערך הקריטי עבור K-S שתלוי ברמת המשמעות (%):

איפה1 ו- n2 הם גודל המדגם עבור מדגם F.1(x) ו- F2(x) בהתאמה.

כמה ערכים קריטיים מחושבים:

כלל דחייה

אפליקציה

לעתים קרובות אנו רוצים לבדוק האם שתי התפלגויות שונות זו מזו כאשר אנו רוצים לבנות תרחישי חיזוי (אנו עובדים עם שתי דוגמאות) או כאשר אנו רוצים להעריך איזו תפוצה מתאימה ביותר לנתונים (אנו עובדים עם מדגם אחד בלבד).