ה מבחן התאמה של צ'י-ריבוע הוא שימושי להשוואה א מודל תיאורטי לנתונים שנצפו. מבחן זה הוא סוג של מבחן הצ'י-ריבוע הכללי יותר. כמו בכל נושא במתמטיקה או בסטטיסטיקה, יכול להיות מועיל לעבוד על דוגמא כדי להבין מה קורה, באמצעות דוגמא לאיכות הצ'י-ריבועית של מבחן התאמה.
שקול חבילה סטנדרטית של M & Ms שוקולד חלב. ישנם שישה צבעים שונים: אדום, כתום, צהוב, ירוק, כחול וחום. נניח שאנחנו סקרנים לגבי התפלגות הצבעים הללו ושואלים, האם כל ששת הצבעים מופיעים ביחס שווה? זה סוג השאלה שניתן לענות עליה במבחן טוב לב.
הגדרה
אנו מתחילים בלשים לב לתפאורה ולמה טובת מבחן הכושר מתאימה. משתנה הצבע שלנו הוא קטגורי. יש שש רמות של משתנה זה, המתאימות לששת הצבעים האפשריים. נניח שה- M&M שאנחנו סופרים יהיו מדגם אקראי פשוט מהאוכלוסייה של כל ה- M&M.
השערות אפס ואלטרנטיביות
ה השערות אפס ואלטרנטיביות למבחן הטוב של הכושר שלנו משקפים את ההנחה שאנחנו עושים לגבי האוכלוסייה. מכיוון שאנו בודקים אם הצבעים מופיעים בפרופורציות שוות, השערת האפס שלנו תהיה שכל הצבעים מופיעים באותה פרופורציה. באופן רשמי יותר, אם ע1 הוא שיעור האוכלוסייה של סוכריות אדומות,
ע2 הוא שיעור האוכלוסייה של סוכריות תפוז, וכן הלאה, אז השערת האפס היא זו ע1 = ע2 =... = ע6 = 1/6.ההשערה האלטרנטיבית היא שלפחות אחת משיעורי האוכלוסייה אינה שווה ל- 1/6.
ספירות בפועל וצפויות
הספירות בפועל הן מספר הסוכריות לכל אחד מששת הצבעים. הספירה הצפויה מתייחסת למה שהיינו מצפים אם השערת האפס הייתה נכונה. אנו ניתן n להיות בגודל המדגם שלנו. המספר הצפוי של סוכריות אדומות הוא ע1 n או n/6. למעשה, למשל, המספר הצפוי של סוכריות לכל אחד מששת הצבעים הוא פשוט n פעמים עאני, או n/6.
סטטיסטי לצ'י מרובע לטובת הכושר
כעת נחשב נתון צ'י-ריבוע לדוגמא ספציפית. נניח שיש לנו מדגם אקראי פשוט של 600 סוכריות M&M עם החלוקה הבאה:
- 212 מהסוכריות כחולות.
- 147 מהסוכריות כתומות.
- 103 מהסוכריות ירוקות.
- 50 מהסוכריות בצבע אדום.
- 46 מהסוכריות צהובות.
- 42 מהסוכריות חומות.
אם השערת האפס הייתה נכונה, הספירות הצפויות עבור כל אחד מהצבעים הללו היו (1/6) x 600 = 100. אנו משתמשים בזה בחישוב נתון הצ'י-ריבוע.
אנו מחשבים את התרומה לנתון שלנו מכל אחד מהצבעים. כל אחת מהצורות (בפועל - צפויה)2/Expected.:
- לכחול יש לנו (212 - 100)2/100 = 125.44
- לגבי תפוזים יש לנו (147 - 100)2/100 = 22.09
- עבור ירוק יש לנו (103 - 100)2/100 = 0.09
- לאדום יש לנו (50 - 100)2/100 = 25
- אצל צהוב יש לנו (46 - 100)2/100 = 29.16
- לגבי חום יש לנו (42 - 100)2/100 = 33.64
לאחר מכן אנו מסכמים את כל התרומות הללו וקובעים כי נתון הצ'י-ריבוע שלנו הוא 125.44 + 22.09 + 0.09 + 25 +29.16 + 33.64 = 235.42.
דרגות חופש
מספר ה דרגות חופש למען טוב לבדיקת התאמה הוא פשוט אחד פחות ממספר הרמות של המשתנה שלנו. מכיוון שהיו שישה צבעים, יש לנו 6 - 1 = 5 דרגות חופש.
שולחן צ'י מרובע וערך P
הנתון הצ'י-מרובע של 235.42 שחישבנו מתאים למיקום מסוים בפיזור צ'י-ריבוע עם חמש דרגות חופש. כעת אנו זקוקים ל ערך p, כדי לקבוע את ההסתברות לקבל נתון מבחן קיצוני לפחות כמו 235.42 תוך הנחה שהשערת האפס נכונה.
ניתן להשתמש באקסל של מיקרוסופט לחישוב זה. אנו מגלים כי לנתוני הבדיקה שלנו עם חמש דרגות חופש יש ערך p של 7.29 x 10-49. זהו ערך p קטן ביותר.
כלל החלטה
אנו מקבלים את החלטתנו אם לדחות את השערת האפס בהתבסס על גודל ה- p-value. מכיוון שיש לנו ערך p זעיר מאוד, אנו דוחים את השערת האפס. אנו מסיקים ש- M&M אינם מופצים באופן שווה בין ששת הצבעים השונים. ניתן להשתמש בניתוח מעקב לקביעת מרווח ביטחון לחלק האוכלוסייה בצבע מסוים.