לזהות חריגים באמצעות ההתפלגות הנורמלית

תוכן העניינים:

לזהות חריגים באמצעות ההתפלגות הנורמלית
לזהות חריגים באמצעות ההתפלגות הנורמלית
Anonim

איתור חריגים באמצעות ההתפלגות הנורמלית הוא תהליך שכולל הגדרת סף סטיית תקן ובאמצעותו הוא נועד למצוא ערכים קיצוניים של מדגם.

במילים אחרות, לזהות חריגים באמצעות ההתפלגות הנורמלית זה למצוא ערכים קיצוניים של מערך נתונים באמצעות הנוסחה הרגילה הסטנדרטית.

  • הערכים קיצוניות נקראים חריגים באנגלית.
  • הערכים פְּנִימִי נקראים מקורבים באנגלית.

זיהוי ויזואלי של חריגים יכול להיות אפשרות כשיש לך מעט מאוד נתונים. בעבודה עם מאגרי מידע זה מאוד לא מעשי צריך למצוא חריגים באופן ידני. כדי לפתור בעיה זו, אנו יכולים לחשב מהם הערכים הנחשבים לקיצוניים על ידי השוואה עם סף סטיות.

במקרה של ההתפלגות הנורמלית, ערך נחשב לקיצוני כאשר הוא נמצא 3 סטיות תקן מהממוצע. מכיוון שההתפלגות הנורמלית כוללת 2 זנבות, עלינו לקחת בחשבון שניתן להגדיל אותה גם בצד השלילי וגם בחיובי.

פורמולה לאיתור חריגים באמצעות ההתפלגות הנורמלית

קבוצה של תצפיות יכולה לבוא לידי ביטוי בדרך הקודמת, כאשר x הוא הערך הממוצע עליו הערכים מתנדנדים וסיגמה את פיזור התנודה של הערכים האמורים. במילים אחרות, סיגמא הוא מרחק התצפיות מהערך הממוצע.

הגורם המכפיל קובע אם מדובר במגזר חריג או מבפנים. אם z לוקח את הערכים 3 או -3, אז לפי ההתפלגות הנורמלית התצפית y תהיה חריגה.

לדעת את הערך של z אנו משתמשים במשוואה הקודמת:

  • אם z> = 3 או z = <-3, אז על פי ההתפלגות הנורמלית, אנו יכולים לומר זאת י זהו ערך קיצוני או יוצא מן הכלל.
  • אם z <3 או z <-3, אז על פי ההתפלגות הנורמלית, אנו יכולים לומר זאת י הוא ערך פנימי או פנים.

תקן רגיל

האם המשוואה הנ"ל מוכרת?

בדיוק, זה הביטוי של תצפית העוקבת אחר התפלגות נורמלית לאחר שתוקננה או התאפיינה. זה נקרא ככה מכיוון שכאשר מחלקים לפי סטנדרטי או סטיית תקן, ההבדל של המונה מתבטא במונחים של סטיות.

מסיבה זו אנו יכולים לשייך ערכי סטייה z וכך להיות מסוגלים לקנות אותו עם סף של 3 סטיות.

דוגמא

מצא את הערכים הקיצוניים של התצפיות הבאות על פי ההתפלגות הנורמלית:

אנו מייצגים את התצפיות בגרף:

מלכתחילה אנחנו כבר יכולים לראות שהערך הכי רחוק מהשאר יכול להיות חריג.

ראשית אנו מחשבים את הממוצע וסטיית התקן:

x = ממוצע = 5.8

סיגמא = סטיית תקן = 10.51

ואז נחליף את הערכים לנוסחה ומחשב את הערך של z לכל תצפית:

הערכים הנ"ל הם הגורמים המרובים של סיגמא, כלומר z. כל דבר שגדול מ -3 או פחות מ -3 יהיה ערך קיצוני.

אנו יכולים לראות כי הערך של z העולה על 3 סטיות תקן הוא זה המקביל לתצפית 49.

לכן הערך הקיצוני או החריג של מערך הנתונים יהיה 49.