פעמים רבות במחקר של נתונים סטטיסטיים חשוב ליצור קשרים בין נושאים שונים. נראה דוגמא לכך שבה שיפוע קו הרגרסיה קשור ישירות ל- מקדם התאמה. מכיוון ששני מושגים אלו כוללים קווים ישרים, אך טבעי הוא לשאול את השאלה, "כיצד מקדם המתאם ו קו ריבוע פחות קשור? "
ראשית, נסקור רקע מסוים לגבי שני הנושאים הללו.
פרטים לגבי מתאם
חשוב לזכור את הפרטים הנוגעים למקדם המתאם, שמסומן אותו r. נתון זה משמש כאשר התיישרנו מידע כמותי. ממגרש פיזור של נתונים מזוודים, אנו יכולים לחפש מגמות בהפצה הכוללת של הנתונים. חלק מהנתונים המזווגים מציגים דפוס ליניארי או ישר. אך בפועל, הנתונים לעולם אינם נופלים בדיוק לאורך קו ישר.
כמה אנשים מסתכלים על אותו הדבר גרף פיזור נתונים מזווגים לא היו מסכימים לגבי הקרבה להצגת מגמה לינארית כוללת. אחרי הכל, הקריטריונים שלנו לכך עשויים להיות סובייקטיביים במקצת. קנה המידה בו אנו משתמשים עשוי להשפיע גם על התפיסה שלנו לגבי הנתונים. מסיבות אלה ועוד אנו זקוקים לאיזה מידה אובייקטיבית כדי לספר עד כמה הנתונים הזוגיים שלנו קרובים ליניאריים. מקדם המתאם משיג זאת עבורנו.
כמה עובדות בסיסיות אודות r כולל:
- הערך של r נע בין כל מספר אמיתי בין -1 ל -1.
- ערכים של r קרוב ל -0 מרמז כי אין כמעט קשר ליניארי בין הנתונים.
- ערכים של r קרוב ל -1 מרמז שיש קשר לינארי חיובי בין הנתונים. משמעות הדבר היא שכ איקס מגדיל את זה y גם עולה.
- ערכים של r קרוב ל -1 רומז שיש קשר לינארי שלילי בין הנתונים. משמעות הדבר היא שכ איקס מגדיל את זה y יורדת.
שיפוע קו הכיכרות הכי פחות
שני הפריטים האחרונים ברשימה שלעיל מצביעים אותנו אל מדרון קו הקווים הכי פחות ריבועים בכושר הטוב ביותר. נזכיר כי שיפוע הקו הוא מדידה של כמה יחידות הוא עולה או מטה עבור כל יחידה שאנו עוברים ימינה. לפעמים זה נאמר כעליית הקו חלקי הריצה, או השינוי ב- y מחולק על ידי השינוי ב- איקס ערכים.
באופן כללי, בקווים ישרים יש מדרונות שהם חיוביים, שליליים או אפסיים. אם היינו בוחנים את קווי הרגרסיה הפחות-ריבועים שלנו ומשווים את הערכים המתאימים של r, נשים לב שבכל פעם שיש לנתונים שלנו מקדם מתאם שלילי, שיפוע קו הרגרסיה שלילי. באופן דומה, בכל פעם שיש לנו מקדם מתאם חיובי, שיפוע קו הרגרסיה הוא חיובי.
מן הראוי להיות ברור מהתצפית הזו כי בהחלט יש קשר בין הסימן של מקדם המתאם לבין שיפוע קו הפחות ריבועים. נותר רק כדי להסביר מדוע זה נכון.
הנוסחה למדרון
הסיבה לקשר בין הערך של r והשיפוע של קו הפחות ריבועים קשור לנוסחה שנותנת לנו את שיפוע הקו הזה. לנתונים מותאמים (x, y) אנו מציינים את סטיית תקן של ה איקס נתונים מאת sאיקס וסטיית התקן של y נתונים מאת sy.
הנוסחה למדרון א של קו הרגרסיה הוא:
- a = r (שy/ יםאיקס)
חישוב סטיית תקן כרוך בהשחתת השורש המרובע החיובי של מספר לא נגטיבי. כתוצאה, שתי סטיות התקן בנוסחה של המדרון צריכות להיות לא-שליליות. אם נניח שיש שונות כלשהי בנתונים שלנו, נוכל להתעלם מהאפשרות שאחת מסטיות התקן הללו היא אפס. לכן הסימן של מקדם המתאם יהיה זהה לסמל המדרון של קו הרגרסיה.