Outliers הם ערכי נתונים הנבדלים מאוד מרוב מערכת הנתונים. ערכים אלה נופלים מחוץ למגמה כוללת שנמצאת בנתונים. בחינה מדוקדקת של מערך נתונים כדי לחפש מחיצות גורמת לקושי מסוים. למרות שקל לראות, אולי באמצעות מגרש גזע, כי ערכים מסוימים נבדלים משאר הנתונים, עד כמה שונה הערך כדי להיחשב למוצא? אנו מסתכלים על מדידה ספציפית שתעניק לנו סטנדרט אובייקטיבי של מה שמהווה מתח.
טווח בין רבעוני
ה טווח בין רבעוני זה מה שאנו יכולים להשתמש בכדי לקבוע אם ערך קיצוני הוא אכן מתווה. הטווח הבין רבעוני מבוסס על חלק מה- סיכום בן חמישה מספרים של מערך נתונים, כלומר הרבעון הראשון והרביעייה השלישית. חישוב הטווח הבין-רבעוני כולל פעולה חשבון יחיד. כל שעלינו לעשות כדי למצוא את טווח הרביעייה הוא לחסר את הרבעון הראשון מהרביעון השלישי. ההבדל שהתקבל מספר לנו עד כמה המחצית האמצעית של הנתונים שלנו פרושה.
קביעת ממציאים
הכפלת הטווח הבין-רבעוני (IQR) ב -1.5 תיתן לנו דרך לקבוע אם ערך מסוים הוא ממציא. אם נפחית 1.5 X IQR מהרבעון הראשון, כל ערכי נתונים הנמוכים ממספר זה נחשבים למוצאי חוץ. באופן דומה, אם נוסיף 1.5 X IQR לרבעון השלישי, כל ערכי נתונים שהם גדולים ממספר זה נחשבים למוצאי חוץ.
מחריפים חזקים
חלק מהמחשבים מראים סטייה קיצונית משאר מערך הנתונים. במקרים אלה אנו יכולים לנקוט את הצעדים מלמעלה, לשנות רק את המספר שאנחנו מכפילים את ה- IQR על ידי, ולהגדיר סוג מסוים של מכפיל. אם נחסר 3.0 x IQR מהרבעון הראשון, כל נקודה שנמצאת מתחת למספר זה נקראת מתווך חזק. באותו אופן, הוספת 3.0 x IQR לרביעון השלישי מאפשרת לנו להגדיר מתארים חזקים על ידי התבוננות בנקודות הגדולות ממספר זה.
מחליפים חלשים
מלבד מחליפים חזקים, יש קטגוריה נוספת למתחרים. אם ערך נתונים הוא מכפיל, אך לא מתח גבוה, אנו אומרים שהערך הוא מכפיל חלש. אנו מסתכלים על מושגים אלה על ידי בירור של כמה דוגמאות.
דוגמא 1
ראשית, נניח שיש לנו את מערך הנתונים {1, 2, 2, 3, 3, 4, 5, 5, 9}. המספר 9 בהחלט נראה כאילו זה יכול להיות מתווך. זה גדול בהרבה מכל ערך אחר משאר הסט. כדי לקבוע באופן אובייקטיבי אם 9 הוא ממציא, אנו משתמשים בשיטות שלעיל. הרבעון הראשון הוא 2 והרביעון השלישי הוא 5, מה שאומר שטווח הבין-רבעונים הוא 3. אנו מכפילים את התחום הבין-רבעוני ב -1.5, מקבלים 4.5 ואז מוסיפים את המספר הזה לרבעון השלישי. התוצאה, 9.5, גדולה יותר מכל ערכי הנתונים שלנו. לפיכך אין מחיצות.
דוגמא 2
כעת אנו מסתכלים על אותה ערכת נתונים כמו קודם, למעט שהערך הגדול ביותר הוא 10 ולא 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. הרבעון הראשון, הרבעון השלישי והטווח הרביעי זהים לדוגמה 1. כאשר אנו מוסיפים 1.5 x IQR = 4.5 לרבעון השלישי, הסכום הוא 9.5. מכיוון ש -10 גדול מ -9.5 הוא נחשב למוצא.
האם 10 הוא מתח גבוה יותר או חלש? לשם כך עלינו להסתכל על 3 x IQR = 9. כשאנחנו מוסיפים 9 לרביעון השלישי, אנחנו בסופו של דבר עם סכום של 14. מכיוון ש -10 אינו גדול מ -14, הוא אינו מתגלה חזק יותר. לפיכך אנו מסיקים כי 10 הוא חלש חלש יותר.
הסיבות לזיהוי מחיצות
אנחנו תמיד צריכים להיות מחפשים אחר ממציאים. לפעמים הם נגרמים על ידי שגיאה. פעמים אחרות מחליפים מעידים על קיומה של תופעה שלא הייתה ידועה בעבר. סיבה נוספת לכך שאנו צריכים להיות שקדנים בבדיקת מחיצות היא בגלל כל סטטיסטיקה תיאורית שרגישים למחשבים. המשמעות, סטיית תקן ומקדם מתאם עבור נתונים מזוודים הם רק כמה מסוגים סטטיסטיים אלה.