מה קו הרגרסיה הכי פחות ריבועים?

מגרש פיזור הוא סוג של גרף המשמש לייצוג נתונים מזוודים. משתנה ההסבר מתכנן לאורך הציר האופקי ומשתנה התגובה מצויר לאורך הציר האנכי. סיבה אחת לשימוש בסוג זה של גרף היא לחפש קשרים בין המשתנים.

התבנית הבסיסית ביותר לחפש בקבוצת נתונים מותאמים היא זו של קו ישר. באמצעות כל שתי נקודות, אנו יכולים לשרטט קו ישר. אם יש יותר משתי נקודות בפיזור המגרש שלנו, רוב הזמן לא נוכל לשרטט קו שעובר על כל נקודה. במקום זאת, נצייר קו העובר באמצע הנקודות ומציג את המגמה הליניארית הכוללת של הנתונים.

כאשר אנו מסתכלים על הנקודות בתרשים שלנו ומבקשים לשרטט קו דרך נקודות אלה, עולה שאלה. איזה קו עלינו לצייר? יש מספר אינסופי של שורות שניתן לצייר. על ידי שימוש בעיניים שלנו בלבד ברור כי כל אדם המתבונן במגרש הפיזור יכול לייצר קו שונה במקצת. העמימות הזו היא בעיה. אנו רוצים שתהיה דרך מוגדרת היטב לכולם להשיג את אותו קו. המטרה היא לקבל תיאור מדויק מבחינה מתמטית של איזה קו יש לצייר. הכי פחות ריבועים קו רגרסיה הוא קו כזה דרך נקודות הנתונים שלנו.

הכיכרות הכי פחות

שם קו הקווים הכי פחות ריבועים מסביר מה הוא עושה. נפתח עם אוסף נקודות עם קואורדינטות שניתנו על ידי (

instagram viewer
איקסאני, yאני). כל קו ישר יעבור בין הנקודות הללו ויעלה מעל או מתחת לכל אחת מאלה. אנו יכולים לחשב את המרחקים מנקודות אלה לקו על ידי בחירת ערך של איקס ואז מחסירים את הנצפים y קואורדינטות שמתאימות לזה איקס מ ה y קואורדינטת הקו שלנו.

קווים שונים דרך אותה קבוצת נקודות היו נותנים מערך מרחקים שונה. אנו רוצים שהמרחקים האלה יהיו קטנים ככל שנוכל לעשות אותם. אבל יש בעיה. מכיוון שהמרחקים שלנו יכולים להיות חיוביים או שליליים, סך כל המרחקים האלה יבטל זה את זה. סכום המרחקים תמיד יהיה שווה לאפס.

הפיתרון לבעיה זו הוא ביטול כל המספרים השליליים על ידי ריבוע המרחקים בין הנקודות לקו. זה נותן אוסף של מספרים לא שליליים. המטרה שהייתה לנו למצוא קו המתאים ביותר היא זהה להפוך את סכום המרחקים המרובעים הללו לקטן ככל האפשר. חשבון זה מציל כאן. תהליך ההבחנה בחשבון מאפשר למזער את סכום המרחקים בריבוע מקו נתון. זה מסביר את הביטוי "הכי פחות ריבועים" בשמנו עבור שורה זו.

קו הכושר הטוב ביותר

מכיוון שקו הריבועים הכי פחות ממזער את המרחקים בריבוע בין הקו לנקודות שלנו, אנו יכולים לחשוב על קו זה כמתאים ביותר לנתונים שלנו. זו הסיבה שקו הכי פחות ריבועים ידוע גם כקו המתאים ביותר. מבין כל הקווים האפשריים שניתן היה לצייר, קו הריבועים הכי פחות הוא הקרוב ביותר לסט הנתונים בכללותו. משמעות הדבר היא שהקו שלנו יחמיץ פגיעה באחת מהנקודות במערך הנתונים שלנו.

תכונות של קו הכיכרות הכי פחות

יש כמה תכונות שיש לכל קו ריבועים לפחות. פריט העניין הראשון עוסק בשיפוע הקו שלנו. למדרון יש קשר ל מקדם התאמה מהנתונים שלנו. למעשה, שיפוע הקו שווה ל r (שy/ יםאיקס). כאן s איקס מציין את סטיית התקן של איקס קואורדינטות ו s y סטיית התקן של y קואורדינטות של הנתונים שלנו. הסימן של מקדם המתאם קשור ישירות לסימן המדרון של קו הפחות ריבועים שלנו.

מאפיין נוסף של קו הפחות ריבועים נוגע לנקודה שהיא עוברת. בזמן ש y יירוט קו פחות ריבועים אולי לא מעניין מבחינה סטטיסטית, יש נקודה אחת שהיא. כל קו ריבועים לפחות עובר בנקודה האמצעית של הנתונים. לנקודה האמצעית הזו יש איקס לתאם שזה ה מתכוון של ה איקס ערכים ו y קואורדינטות זה הממוצע של y ערכים.

instagram story viewer