יום אחד בארוחת הצהריים אישה צעירה אכלה קערה גדולה של גלידה, וחבר סגל עמית ניגש אליה ואמר, "עדיף שתיזהרי, יש גובה סטטיסטימתאם בין גלידה לטביעה. " היא בטח נתנה בו מבט מבולבל, כשהוא פירט עוד קצת. "בימים עם הכי הרבה מכירות גלידה רואים גם שרוב האנשים טובעים."
כשסיימה את הגלידה שלי, שני הקולגות דנו בעובדה שרק בגלל שמשתנה אחד קשור באופן סטטיסטי למשנהו, זה לא אומר שאחד הוא הגורם לשני. לפעמים יש משתנה המסתתר ברקע. במקרה זה, יום השנה מסתתר בנתונים. גלידה יותר נמכרת בימי קיץ חמים מאשר חורף מושלג. יותר אנשים שוחים בקיץ, ומכאן יותר טובעים בקיץ מאשר בחורף.
היזהרו ממשתנים אורבים
האנקדוטה שלעיל היא דוגמא עיקרית למה שמכונה משתנה אורב. כפי ששמו מרמז, משתנה אורב יכול להיות חמקמק וקשה לגילוי. כאשר אנו מגלים ששתי מערכי נתונים מספריים נמצאים בקורלציה חזקה, עלינו תמיד לשאול, "יכול להיות שיש משהו אחר הגורם לקשר הזה?"
להלן דוגמאות להתאמה חזקה הנגרמת על ידי משתנה אורב:
- המספר הממוצע של מחשבים לנפש במדינה ותוחלת החיים הממוצעת של המדינה.
- מספר הכבאים בשריפה והנזק שנגרם כתוצאה מהשריפה.
- גובה תלמיד בית הספר היסודי ורמת הקריאה שלו.
בכל המקרים הללו הקשר בין המשתנים הוא חזק מאוד. בדרך כלל זה מצוין על ידי א מקדם התאמה שיש לו ערך קרוב ל -1 או ל -1. לא משנה כמה מקדם המתאם הזה קרוב ל -1 או ל -1, הסטטיסטיקה הזו לא יכולה להראות שמשתנה אחד הוא הגורם למשתנה השני.
איתור משתנים אורבים
מטבעם קשה לשנות את המשתנים האורבים. אסטרטגיה אחת, אם קיימת, היא לבחון מה קורה לנתונים לאורך זמן. זה יכול לחשוף מגמות עונתיות, כמו דוגמת הגלידה, שמטשטשות כשהנתונים גושים יחד. שיטה נוספת היא להסתכל מחריגים ולנסות לקבוע מה גורם להם להיות שונה מהנתונים האחרים. לפעמים זה נותן רמז למתרחש מאחורי הקלעים. דרך הפעולה הטובה ביותר היא להיות פרואקטיבית; שאלות על הנחות וניסויי תכנון בזהירות.
למה זה משנה?
בתרחיש הפתיחה, נניח שחברי קונגרס בעלי משמעות טובה אך לא מוסמכים סטטיסטיים הציעו לחוקק את כל הגלידה על מנת למנוע טביעה. הצעת חוק כזו תקל על חלקים גדולים מהאוכלוסייה, תכריח כמה חברות לפשיטת רגל ותבטל אלפי משרות עם סגירת תעשיית הגלידות במדינה. למרות מיטב הכוונות, הצעת החוק הזו לא תפחית את מספר מקרי המוות הטובעים.
אם הדוגמה הזו נראית מעט רחוקה מדי, שקול את הדברים הבאים, שקרה בפועל. בתחילת המאה העשרים, רופאים הבחינו כי חלק מהתינוקות מתו באופן מסתורי משנתם מבעיות בדרכי הנשימה. זה נקרא מוות בעריסה וכיום מכונה מוות בעריסה. דבר אחד שבלט מנתיחות שלאחר המוות שנערכו על אלה שמתו מוות בעריסה היה תימוס מוגדל, בלוטה שנמצאת בחזה. מהמתאם של בלוטות התימוס המוגדלות אצל תינוקות בעריסה, הניחו הרופאים כי תימוס גדול באופן חריג גרם לנשימה ולמוות לא תקינים.
הפיתרון המוצע היה לכווץ את התימוס עם קרינה גבוהה או להסיר את הבלוטה לחלוטין. בהליכים אלה היה שיעור תמותה גבוה והוביל ליותר מקרי מוות. מה שעצוב הוא שהפעולות הללו לא היו חייבות להתבצע. מחקרים שלאחר מכן הראו כי רופאים אלה טועים בהנחותיהם וכי התימוס אינו אחראי למוות בעריסה בעריסה.
מתאם אינו מעיד על סיבה
האמור לעיל צריך לגרום לנו להשהות כשאנחנו חושבים שמשמשים עדויות סטטיסטיות כדי להצדיק דברים כמו משטרים רפואיים, חקיקה והצעות חינוך. חשוב שתהיה עבודה טובה בפירוש נתונים, במיוחד אם תוצאות הכרוכות בקורלציה הולכות להשפיע על חייהם של אחרים.
כאשר מישהו קובע, "מחקרים מראים כי א 'הוא גורם ל- B וכמה נתונים סטטיסטיים מגבים אותו," היה מוכן תשובה, "מתאם אינו מרמז על סיבתיות." תמיד היה על המשמר למה שמתארח מתחת ל נתונים.