מהי הטיה בסטטיסטיקה?

הפצות מסוימות של נתונים, כגון עקומת פעמון או התפלגות רגילה, הם סימטריים. משמעות הדבר היא שהימין והשמאלי של התפוצה הם תמונות מראה מושלמות זו מזו. לא כל הפצת נתונים היא סימטרית. סטים של נתונים שאינם סימטריים אומרים שהם א-סימטריים. המדד לאופן שבו ניתן להתפלג א-סימטרית נקרא סקויות.

הממוצע, החציון והמצב הם כולם מדדי המרכז של סט נתונים. ניתן לקבוע את יכולות הנתונים לפי האופן שבו כמויות אלה קשורות זו לזו.

נעקר לימין

לנתונים הנגועים מימין יש זנב ארוך המשתרע לימין. דרך חלופית לדבר על מערך נתונים המגודל לימין היא לומר שהיא מוטה באופן חיובי. במצב זה, הממוצע וה- חציון שניהם גדולים מהמצב. ככלל, רוב הזמן עבור נתונים השונים ימינה, הממוצע יהיה גדול מהחציון. לסיכום, עבור מערך נתונים המגודל מימין:

  • תמיד: ממוצע גדול מהמצב
  • תמיד: חציון גדול מהמצב
  • רוב הזמן: ממוצע גדול מהחציון

נבלע לשמאל

המצב מתהפך כשאנחנו מתמודדים עם נתונים השונים שמאלה. לנתונים השונים שמאלה יש זנב ארוך המשתרע משמאל. דרך חלופית לדבר על מערך נתונים המגודל שמאלה היא לומר שהיא מוטה באופן שלילי. במצב זה, הממוצע והחציון שניהם פחות מהמצב. ככלל, רוב הזמן עבור נתונים מוטים שמאלה, הממוצע יהיה פחות מהחציון. לסיכום, עבור מערך נתונים המגודל שמאלה:

instagram viewer
  • תמיד: אומר פחות מהמצב
  • תמיד: חציון פחות ממצב
  • רוב הזמן: אומר פחות מחציון

מידות של טענה

דבר אחד להסתכל על שתי קבוצות נתונים ולקבוע שהאחת סימטרית ואילו השנייה אסימטרית. זה עוד להסתכל בשתי קבוצות של נתונים א-סימטריים ולהגיד שהאחת יותר מפותלת מהאחרות. זה יכול להיות מאוד סובייקטיבי לקבוע מי מוטה יותר פשוט על ידי התבוננות בתרשים של ההתפלגות. זו הסיבה שישנן דרכים לחשב בצורה מספרית את מידת השינויים.

מדד אחד למדי של השינויים, המכונה מקדם השיפוע הראשון של פירסון, הוא לחסר את הממוצע מהמצב ואז לחלק את ההבדל הזה על ידי סטיית תקן מהנתונים. הסיבה לחלוקת ההבדל היא כך שיש לנו כמות חסרת ממדים. זה מסביר מדוע נתונים השונים מימין הם בעלי מוטות חיובית. אם מערך הנתונים מוטה ימינה, הממוצע גבוה מהמצב, ולכן חיסור המצב מהממוצע נותן מספר חיובי. טיעון דומה מסביר מדוע נתונים מוטלים משמאל סובלים מסוכנות שלילית.

מקדם השיפוף השני של פירסון משמש גם למדידת הא-סימטריה של מערך נתונים. לכמות זו, אנו מחסירים את המצב מהחציון, מכפילים את המספר הזה בשלושה ואז נחלק בסטיית התקן.

יישומים של Skewed Data

נתונים מוטבעים מתעוררים באופן טבעי במצבים שונים. ההכנסות מוטות ימינה מכיוון שאפילו אנשים בודדים שמרוויחים מיליוני דולרים יכולים להשפיע מאוד על הממוצע, ואין הכנסות שליליות. באופן דומה, נתונים שמעורבים לאורך חייו של מוצר, כמו מותג נורה, מוטים ימינה. כאן הקטן ביותר שיכול להיות חייו הוא אפס, ונורות נמשכות לאורך זמן יעבירו נתונים מוטה חיובי.

instagram story viewer