ניתוח אשכולות - מה זה, הגדרה ומושג

ניתוח אשכולות הוא קבוצה של טכניקות סטטיסטיות רב משתנות שמטרתן לקבץ קבוצה של מקרים או יחידים לאשכולות או אשכולות.

ניתוח אשכולות הוא אפוא סוג של קיבוץ סטטיסטי. המטרה היא להפוך את הנתונים בכל אשכול לכמה שיותר דומים זה לזה ושונים ככל האפשר ביחס לקבוצות האחרות. ניתן לעשות זאת גם עם משתנים.

שינוי נתונים בניתוח אשכולות

אחת הבעיות בהן אנו נתקלים כשאנו מקבצים נתונים היא שלעתים נתונים נמצאים ביחידות מדידה שונות. מסיבה זו יש לבצע שלב ניתוח טרום אשכול המאפשר אשכולות.

השיטה הנפוצה ביותר היא סטנדרטיזציה. זה משמש לשינוי הנתונים כך שיהיו להם יחידות מידה דומות. יש לקחת בחשבון שני כללים, משתנים בינאריים אינם סטנדרטיים, ואם הם קטגוריים הם הופכים לבינאריים (נוכחות / היעדרות).

שיטות בניתוח אשכולות

ישנן שיטות רבות לביצוע ניתוח האשכולות, אך ב- Economy-Wiki.com, בעקבות עקרון הפשטות המאפיין אותנו, נראה את הרלוונטי ביותר באופן סכמטי.

שיטות היררכיות

סיווג ראשון יהיה שיטות היררכיות או לא היררכיות. הקבוצה לשעבר מחייבת שלבים היררכיים (ומכאן שמם). באופן זה, רק אובייקט אחד משנה קבוצה בכל פעם, והשאר נשאר באותו מקום.

אלה, בתורם, מסווגים ל:

שיטות צבירה

זה מורכב מקיבוץ אנשים בפחות אשכולות בכל פעם. זה מתחיל ממספר קבוצות השווה למספר המקרים והוא הולך ופוחת.

הידועים ביותר הם:

  • שיטת השכן הקרובה ביותר: במקרה זה, אתה משתמש באלגוריתם כדי לקבץ את הנתונים. מה שאתה מחפש הוא המרחק המינימלי בין האנשים הקרובים ביותר. הוא רגיש מאוד לנתונים העלולים לגרום למה שמכונה "רעש". שיטת השכנים הרחוקה ביותר דומה.
  • שיטה ממוצעת בין קבוצות: מה שהוא עושה הוא לחשב את ממוצע המרחק בין הפרטים בקבוצה לבין אחד מהם בפרט. זה מאוד שימושי להפחית את מה שמכונה "רעש".
  • השיטה של ​​וורד: מה שהוא עושה זה להוסיף את ריבועי הסטיות בין כל פרט לבין ממוצע האשכול שלו, כדי למנוע אובדן מידע. זהו אחד הידועים ביותר ויש לו את היתרונות של השיטה המבוססת על כוח האפליה הממוצע, אך גדול יותר.

שיטות דיסוציאטיביות

במקרה זה, מה שאתה עושה הוא לחלק. זה מתחיל באשכול יחיד, וחלוקה מוצעת על בסיס סדרת דרישות.

הנפוצים ביותר הם:

  • ממוצע בין קבוצות, השכן הקרוב ביותר ושיטת השכן הרחוקה ביותר: שלוש השיטות הללו דומות למקרה הקודם, אך בשיטה הדיסוציאטיבית. כלומר, הפעם מה שאנחנו עושים הוא נפרד ולא קבוצתי.
  • שיטת Centroid: נעשה בו שימוש נרחב בבעיות אופטימיזציה של מיקום המתקן. השתמש בניתוח מסוג זה כדי למצוא את המתאימים ביותר.

שיטות לא היררכיות

במקרה זה הם מתחילים בפתרון מוגדר מראש. זוהי נקודת המוצא לניתוח אשכולות. באופן זה הקבוצות נקבעות מראש וכל מקרה יוצב באחת מהן, בהתאם למאפייניו. בתורנו, אנו יכולים לחלק אותם לתתי קבוצות אחרות.

  • שיטות השינוי מחדש: הרלוונטיות ביותר הן שיטות ה- centroid, כגון k-means. אלה של מדיומים, כמו PAM. או של עננים דינמיים.
  • שיטות ישירות: החשוב ביותר הוא אשכולות בלוקים, הנמצאים בשימוש נרחב בכריית נתונים.
  • שיטות רדוקטיביות: אלה מבוססים על ניתוח גורמים.
  • שיטות חיפוש צפיפות: מצד אחד יהיו אלה של גישות טיפולוגיות, כגון ניתוח מודאלי. מצד שני, יש לנו את ההסתברות, כמו של וולף.

דוגמאות לניתוח אשכולות

בואו נראה לבסוף כמה דוגמאות ליישומי ניתוח אשכולות.

  • בואו נדמיין שיש לנו קבוצת מדינות שאנחנו רוצים לקבץ על בסיס משתנים מקרו-כלכליים מסוימים, כמו אינפלציה או אבטלה. אנו יכולים להשתמש בסוג זה של ניתוח כדי ליצור קבוצות הומוגניות, למשל, למדינות מפותחות פחות או יותר.
  • דוגמה נוספת יכולה להיות סדרת צרכנים עם מאפיינים סוציואודוגרפיים מסוימים. הרעיון הוא ליצור קבוצות עם אנשים דומים ואלה, בתורם, שונים מאוד זה מזה.
  • אך בנוסף לכלכלה, ניתוח אשכולות שימושי במדעים אחרים. למשל בביולוגיה, כדי לסווג מינים, או בגיאולוגיה, לעשות את אותו הדבר עם מינרלים.

תוכל לעזור בפיתוח האתר, שיתוף הדף עם החברים שלך

wave wave wave wave wave