מהי מתאם בסטטיסטיקה?

לפעמים נתונים מספריים מגיעים בזוגות. אולי א פליאונטולוג מודד את אורכי עצם הירך (עצם הרגל) והומרוס (עצם הזרוע) בחמישה מאובנים מאותו מין דינוזאור. יתכן שיהיה הגיוני לקחת בחשבון את אורכי הזרוע בנפרד מאורכי הרגליים, ולחשב דברים כמו הממוצע או סטיית התקן. אך מה אם החוקר סקרן לדעת אם יש קשר בין שתי המדידות הללו? זה לא מספיק רק להסתכל על הזרועות בנפרד מהרגליים. במקום זאת, הפליאונטולוג צריך להתאים את אורכי העצמות לכל שלד ולהשתמש באזור של נתונים סטטיסטיים המכונה מתאם.

מהי מתאם? בדוגמה לעיל נניח שהחוקר בחן את הנתונים והגיע למפתיע ביותר התוצאה שלמאובני הדינוזאורים עם הזרועות הארוכות יותר היו גם עם רגליים ארוכות יותר, ולמאובנים עם הזרועות הקצרות יותר רגליים קצרות יותר. מגרש פיזור של הנתונים הראה שנקודות הנתונים כולן מקובצות ליד קו ישר. לאחר מכן החוקר אמר שיש קשר חזק וישר, או מתאם, בין אורכי עצמות הזרוע לעצמות הרגליים של המאובנים. זה דורש עוד עבודה כדי לומר עד כמה המתאם חזק.

מתאם ופיזור עלילות

מכיוון שכל נקודת נתונים מייצגת שני מספרים, חלקת פיזור דו מימדית היא עזרה מצוינת בהמחשת הנתונים. נניח שלמעשה ידנו על נתוני הדינוזאור, ולחמשת המאובנים יש את המידות הבאות:

instagram viewer
  1. Femur 50 ס"מ, humerus 41 ס"מ
  2. Femur 57 ס"מ, humerus 61 ס"מ
  3. Femur 61 ס"מ, humerus 71 ס"מ
  4. Femur 66 ס"מ, humerus 70 ס"מ
  5. פמור 75 ס"מ, humerus 82 ס"מ

משטח פיזור של הנתונים, עם מדידת עצם הירך בכיוון האופקי ומדידת humerus בכיוון האנכי, מביא לתרשים לעיל. כל נקודה מייצגת את המדידות של אחת השלדים. למשל, הנקודה בחלק השמאלי התחתון תואמת לשלד מספר 1. הנקודה בחלק השמאלי העליון היא שלד מספר 5.

זה בהחלט נראה כאילו נוכל לצייר קו ישר שיהיה קרוב מאוד לכל הנקודות. אבל איך נוכל לדעת בוודאות? הסגירות נמצאת בעיני המתבונן. איך נדע שההגדרות שלנו ל"קרבה "תואמות מישהו אחר? האם יש דרך שנוכל לכמת את הקרבה הזו?

מקדם התאמה

כדי למדוד באופן אובייקטיבי כמה קרובים הנתונים להיות בקו ישר, מקדם המתאם ניצל. ה מקדם התאמה, בדרך כלל מצוין r, הוא מספר אמיתי בין -1 ל -1. הערך של r מודד את חוזק המתאם על בסיס נוסחה, ומבטל כל סובייקטיביות בתהליך. יש כמה הנחיות שכדאי לזכור כאשר אתה מפרש את הערך של r.

  • אם r = 0 אז הנקודות הן ערבוביה שלמה ללא שום קשר ישר בין הנתונים.
  • אם r = -1 או r = 1 ואז כל נקודות הנתונים מתיישרות בצורה מושלמת על קו.
  • אם r הוא ערך שאינו הקיצוניים האלה, אז התוצאה היא התאמה פחות מושלמת של קו ישר. במערכות נתונים בעולם האמיתי, זו התוצאה הנפוצה ביותר.
  • אם r הוא חיובי אז הקו עולה עם א שיפוע חיובי. אם r שלילי אז הקו יורד עם שיפוע שלילי.

חישוב מקדם המתאם

הנוסחה למקדם המתאם r זה מסובך, כפי שניתן לראות כאן. מרכיבי הנוסחה הם האמצעים וסטיות התקן של שתי קבוצות הנתונים המספריים, כמו גם מספר נקודות הנתונים. לרוב היישומים המעשיים r מייגע לחשב ביד. אם הנתונים שלנו הוזנו למחשבון או לתוכנית גיליון אלקטרוני עם פקודות סטטיסטיותיש בדרך כלל פונקציה מובנית לחישוב r.

מגבלות המתאם

למרות שהמתאם הוא כלי רב עוצמה, ישנם כמה מגבלות בשימוש בו:

  • המתאם לא לגמרי מגלה לנו הכל על הנתונים. אמצעים וסטיות תקן ממשיכים להיות חשובים.
  • ניתן לתאר את הנתונים על ידי עקומה מסובכת יותר מקו ישר, אך הדבר לא יופיע בחישוב של r.
  • מחיקים משפיעים מאוד על מקדם המתאם. אם אנו רואים מחיצות כלשהן בנתונים שלנו, עלינו להיזהר באילו מסקנות אנו מסיקים מהערך של r.
  • רק מכיוון ששתי קבוצות נתונים מתואמות, זה לא אומר שאחת מהן היא גורם של האחר.