כיצד למצוא את הגדרות הפנימיות והחיצוניות

תכונה אחת של מערך נתונים שחשוב לקבוע היא אם היא מכילה מחיצות כלשהן. מחשבים מוחשבים נחשבים באופן אינטואיטיבי כערכים במערך הנתונים שלנו הנבדלים מאוד מרוב שאר הנתונים. כמובן שההבנה הזו של הממדים אינה מעורפלת. כדי להיחשב כמתווך, כמה הערך צריך לסטות משאר הנתונים? האם מה שקורא חוקר אחד למבקר ישתלב עם זה של אחר? על מנת לספק עקביות מסוימת ומידה כמותית לקביעת הממדים, אנו משתמשים בגדרות פנימיות וחיצוניות.

כדי למצוא את הגדרות הפנימיות והחיצוניות של קבוצת נתונים, ראשית אנו זקוקים לכמה אחרים סטטיסטיקה תיאורית. נתחיל בחישוב רביעיות. זה יוביל לטווח הבין-רבעוני. לבסוף, עם החישובים הללו מאחורינו, נוכל לקבוע את הגדרות הפנימיות והחיצוניות.

רביעיות

ה רביעיות ראשונות ושלישיות הם חלק מה- סיכום חמישה מספרים מכל סט של נתונים כמותיים. נתחיל במציאת החציון או נקודת האמצע של הנתונים לאחר שכל הערכים מופיעים בסדר עולה. הערכים פחות מהחציון המתאימים לכמחצית מהנתונים. אנו מוצאים את החציון של מחצית מערך הנתונים, וזה הרביעון הראשון.

באופן דומה, אנו שוקלים כעת את המחצית העליונה של מערך הנתונים. אם נמצא את החציון למחצית הנתונים, אז יש לנו את הרבעונים השלישיים. רביעיות אלה מקבלות את שמם מהעובדה שהם מפצלים את מערך הנתונים לארבע חלקים בגודל שווה או רבעים. אז במילים אחרות, בערך 25% מכל ערכי הנתונים הם פחות מהרבעון הראשון. באופן דומה, כ 75% מערכי הנתונים הם פחות מהרבעון השלישי.

instagram viewer

טווח בין רבעוני

הבא עלינו למצוא את טווח בין רבעוני (IQR). זה קל יותר לחישוב מאשר הרבעון הראשון ש1 והרביעון השלישי ש3. כל שעלינו לעשות הוא לקחת את ההבדל בין שני הרביעונים הללו. זה נותן לנו את הנוסחה:

IQR = ש3 - ש1

ה- IQR מספר לנו עד כמה המחצית האמצעית של מערך הנתונים שלנו פרושה.

מצא את הגדרות הפנימיות

כעת אנו יכולים למצוא את הגדרות הפנימיות. אנו מתחילים עם ה- IQR ומכפילים את המספר הזה ב -1.5. לאחר מכן אנו מחסירים את המספר הזה מהרביעון הראשון. אנו מוסיפים גם את המספר הזה לרבעון השלישי. שני המספרים הללו מהווים את הגדר הפנימית שלנו.

מצא את הגדרות החיצוניות

עבור הגדרות החיצוניות, אנו מתחילים עם ה- IQR ומכפילים את המספר הזה ב -3. לאחר מכן, אנו מחסירים את המספר הזה מהרביעון הראשון ומוסיפים אותו לרבעון השלישי. שני המספרים הללו הם הגדרות החיצוניות שלנו.

איתור מחיצות

איתור של מחריגים עכשיו הופך להיות קל כמו לקבוע היכן ערכי הנתונים נמצאים בהתייחסות לגדרות הפנימיות והחיצוניות שלנו. אם ערך נתונים בודד הוא קיצוני יותר משתי הגדרות החיצוניות שלנו, אז זה מתווך ולפעמים מכונה מתווה חזק. אם ערך הנתונים שלנו הוא בין גדר פנימית וחיצונית המתאימה, אז ערך זה הוא חשד למוצא או לחילוץ קל. נראה כיצד זה עובד עם הדוגמה להלן.

דוגמא

נניח שחישבנו את הרבעון הראשון והשלישי של הנתונים שלנו, ומצאנו את הערכים הללו ל -50 ול -60 בהתאמה. הטווח הבין רבעוני IQR = 60 - 50 = 10. בשלב הבא אנו רואים כי 1.5 X IQR = 15. משמעות הדבר היא שהגדרות הפנימיות הן בגודל 50 - 15 = 35 ו 60 + 15 = 75. זהו 1.5 X IQR פחות מהרבעון הראשון, ויותר מהרבעון השלישי.

אנו מחשבים כעת 3 x IQR ורואים שזה 3 x 10 = 30. הגדרות החיצוניות 3 X IQR קיצוניות יותר מהרבעונים הראשון והשלישי. המשמעות היא שהגדרות החיצוניות הן 50 - 30 = 20 ו 60 + 30 = 90.

כל ערכי נתונים שהם פחות מ -20 ומעלה מ- 90, נחשבים למוצאי חוץ. כל ערכי נתונים שנמצאים בין 29 ל -35 או בין 75 ל -90 חשודים כמחשבים.