ניתוח אשכולות הוא טכניקה סטטיסטית המשמשת לזיהוי כיצד ניתן לקבץ יחידות שונות - כמו אנשים, קבוצות או חברות - בגלל מאפיינים המשותפים להם. המכונה גם אשכולות, זהו כלי ניתוח נתונים חוקר שמטרתו למיין עצמים שונים לקבוצות באופן שכאשר הם הם שייכים לאותה קבוצה יש להם דרגת אסוציאציה מרבית וכאשר הם לא שייכים לאותה קבוצה התואר שלהם הוא מינימלי. שלא כמו כמה אחרים טכניקות סטטיסטיות, המבנים שנחשפים באמצעות ניתוח אשכולות אינם צריכים שום הסבר או פרשנות - הוא מגלה מבנה בנתונים מבלי להסביר מדוע הם קיימים.
מה זה אשכול?
אשכול קיים כמעט בכל היבט בחיי היומיום שלנו. קח, למשל, פריטים במכולת. פריטים מסוגים שונים מוצגים תמיד באותו מקום או בקרבת מקום - בשר, ירקות, סודה, דגני בוקר, מוצרי נייר וכו '. החוקרים לרוב רוצים לעשות את אותו הדבר עם נתונים וקבצים אובייקטים או נושאים לאשכולים הגיוניים.
אם ניקח דוגמא ממדעי החברה, נניח שאנחנו מסתכלים על מדינות ורוצים לקבץ אותם לאשכולות על בסיס מאפיינים כמו חלוקת העבודה, צבאיות, טכנולוגיה או אוכלוסייה משכילה. היינו מגלים שלבריטניה, יפן, צרפת, גרמניה וארצות הברית יש מאפיינים דומים והן היו מקובצות זו לזו. אוגנדה, ניקרגואה ופקיסטן גם כן יתאגדו יחד באשכול אחר מכיוון שהם חולקים מערכת שונה של מאפיינים, כולל רמות נמוכות של עושר, חלוקות עבודה פשוטות יותר, מוסדות פוליטיים בלתי יציבים יחסית ולא דמוקרטיים וטכנולוגיים נמוכים התפתחות.
בדרך כלל נעשה שימוש בניתוח אשכולות בשלב הגישוש של המחקר כאשר לחוקר אין השערות מראש. בדרך כלל זו אינה השיטה הסטטיסטית היחידה בה נעשה שימוש, אלא נעשית בשלבים המוקדמים של הפרויקט כדי לעזור בהנחיית שאר הניתוח. מסיבה זו, בדיקת המשמעות לרוב אינה רלוונטית ואינה מתאימה.
ישנם כמה סוגים שונים של ניתוח אשכולות. שני השימוש הנפוצים ביותר הם אשכולות K- ואשכול היררכי.
K- פירושו אשכולות
פירושו של K- אשכול מתייחס לתצפיות בנתונים כאל אובייקטים עם מיקום ומרחקים אחד מהשני (שימו לב שהמרחקים המשמשים באשכולות לרוב אינם מייצגים מרחקים מרחביים). הוא מחלק את האובייקטים לאשכולות K המבדלים זה את זה, כך שהאובייקטים בתוך כל אשכול יהיו קרובים זה לזה ככל האפשר ובו זמנית, רחוקים מחפצים באשכולות אחרים ככל האפשר. כל אשכול מאופיין אז שלו נקודה ממוצעת או מרכזית.
אשכול היררכי
אשכול היררכי הוא דרך לחקור קבוצות בנתונים בו זמנית על מגוון סולמות ומרחקים. זה עושה זאת על ידי יצירת עץ אשכול עם רמות שונות. בניגוד לאמצעי K- פירושו לאשכול, העץ אינו קבוצה אחת של אשכולות. במקום זאת, העץ הוא היררכיה רב-מפלסית שבה מצטרפים אשכולות ברמה אחת כמקבצים ברמה הגבוהה הבאה. האלגוריתם שמשתמש בו מתחיל בכל מקרה או משתנה באשכול נפרד ומשלב אז אשכולות עד שנותר רק אחד. זה מאפשר לחוקר להחליט מהי רמת האשכול המתאימה ביותר למחקר שלו.
ביצוע ניתוח אשכול
רוב תוכנות סטטיסטיקה יכול לבצע ניתוח אשכול. ב- SPSS, בחר לנתח מהתפריט, אם כן לסווג ו ניתוח אשכול. ב- SAS, ה- אשכול proc ניתן להשתמש בפונקציה.
עודכן על ידי ניקי ליסה קול, ד.