כמה קלוריות אכל כל אחד מאיתנו לארוחת הבוקר? כמה רחוק מהבית כולם נסעו היום? כמה גדול המקום שאנחנו מכנים אותו הביתה? כמה אנשים אחרים קוראים לזה בית? כדי להבין את כל המידע הזה, יש צורך בכלים ודרכי חשיבה מסוימות. המדע המתמטי שנקרא סטטיסטיקה הוא זה שעוזר לנו להתמודד עם עומס מידע זה.
סטטיסטיקה היא מחקר של מידע מספרי, הנקרא נתונים. סטטיסטיקאים רוכשים, מארגנים ומנתחים נתונים. נבדק גם כל חלק מתהליך זה. טכניקות הסטטיסטיקה מיושמות על ריבוי תחומי ידע אחרים. להלן מבוא לכמה מהנושאים העיקריים בכל סטטיסטיקות.
אוכלוסיות ומדגמים
אחד הנושאים החוזרים על הסטטיסטיקות הוא שאנחנו יכולים לומר משהו על קבוצה גדולה על סמך מחקר של חלק קטן יחסית מאותה קבוצה. הקבוצה כולה מכונה האוכלוסייה. החלק בקבוצה אותה אנו לומדים הוא מדגם.
כדוגמה לכך, נניח שרצינו לדעת מה הגובה הממוצע של אנשים החיים בארצות הברית. נוכל לנסות למדוד יותר מ -300 מיליון איש, אבל זה יהיה בלתי ניתן להפשיל. זה יהיה סיוט לוגיסטי לערוך את המדידות בצורה כזו שאיש לא הוחמצ ואף אחד לא נספר פעמיים.
בשל האופי הבלתי אפשרי של מדידת כולם בארצות הברית, אנו יכולים במקום זאת להשתמש בסטטיסטיקה. במקום למצוא את הגבהים של כל האוכלוסייה, אנו לוקחים א
מדגם סטטיסטי של כמה אלפים. אם דגמנו נכון את האוכלוסייה, אז הגובה הממוצע של המדגם יהיה קרוב מאוד לגובה הממוצע של האוכלוסייה.קבלת נתונים
כדי להסיק מסקנות טובות, אנו זקוקים לנתונים טובים לעבוד איתם. תמיד יש לבחון את הדרך בה אנו מדגמים אוכלוסייה לקבלת נתונים אלה. איזה מדגם אנו משתמשים תלוי באיזו שאלה אנו שואלים לגבי האוכלוסייה. הדגימות הנפוצות ביותר הן:
- פשוט אקראי
- מרובד
- מקבץ
חשוב לא פחות לדעת כיצד מתבצעת מדידת המדגם. כדי לחזור לדוגמה לעיל, כיצד אנו משיגים את הגבהים של המדגם שלנו?
- האם אנו מאפשרים לאנשים לדווח על גובהם בשאלון?
- האם כמה חוקרים ברחבי הארץ מודדים אנשים שונים ומדווחים על תוצאותיהם?
- האם חוקר בודד מודד את כל המדגמים באותה מידה קלטת?
לכל אחת מהדרכים הללו לקבלת הנתונים יש יתרונות וחסרונות. כל מי שמשתמש בנתונים ממחקר זה ירצה לדעת כיצד הם מתקבלים.
ארגון הנתונים
לפעמים יש המון נתונים, ואנחנו ממש יכולים ללכת לאיבוד בכל הפרטים. קשה לראות את היער בין העצים. זו הסיבה שחשוב לשמור על הנתונים שלנו מסודרים היטב. ארגון זהיר מציג גרפי מהנתונים עוזרים לנו לאתר דפוסים ומגמות לפני שאנחנו באמת מבצעים חישובים.
מכיוון שהדרך בה אנו מציגים באופן גרפי את הנתונים שלנו תלויה במגוון גורמים. גרפים נפוצים הם:
- תרשימי עוגה או גרפי מעגל
- תרשימי בר או פרטו
- מפזרים
- מזימות זמן
- עלילות גבעול ועלים
- גרפי קופסא ופטיש
בנוסף לתרשימים ידועים אלה, ישנם אחרים המשמשים במצבים מיוחדים.
סטטיסטיקה תיאורית
אחת הדרכים לנתח נתונים נקראת סטטיסטיקה תיאורית. כאן המטרה היא לחשב כמויות המתארות את הנתונים שלנו. מספרים המכונים את הממוצע חציון והמצב משמש לציון ממוצע או מרכז הנתונים. הטווח וסטיית התקן משמשים כדי לומר עד כמה הנתונים מורחים. טכניקות מורכבות יותר, כמו מתאם ורגרסיה מתארת נתונים המתאימים.
סטטיסטיקה היסקית
כאשר אנו מתחילים במדגם ואז מנסים להסיק משהו על האוכלוסייה, אנו משתמשים סטטיסטיקה היסקית. בעבודה עם תחום סטטיסטיקות זה הנושא של בדיקת השערה עולה. כאן אנו רואים את האופי המדעי של נושא הסטטיסטיקה, כאשר אנו מציינים השערה ואז משתמשים כלים סטטיסטיים עם המדגם שלנו כדי לקבוע את הסבירות שאנו צריכים לדחות את ההשערה או לא. ההסבר הזה הוא ממש רק מגרד את פני השטח של החלק שימושי מאוד זה של סטטיסטיקה.
יישומים לסטטיסטיקה
אין זה מוגזם לומר שכלי הסטטיסטיקה משמשים כמעט בכל תחום של מחקר מדעי. להלן מספר תחומים המסתמכים מאוד על נתונים סטטיסטיים:
- פסיכולוגיה
- כלכלה
- תרופה
- פרסום
- דמוגרפיה
יסודות הסטטיסטיקה
למרות שחלק חושב על סטטיסטיקה כענף של מתמטיקה, עדיף לחשוב עליה כאל תחום שמושתת על מתמטיקה. באופן ספציפי, סטטיסטיקה בנויה מתחום המתמטיקה המכונה הסתברות. ההסתברות נותנת לנו דרך לקבוע עד כמה סביר להתרחש אירוע. זה גם נותן לנו דרך לדבר על אקראיות. זה המפתח לסטטיסטיקה מכיוון שיש לבחור באקראי את המדגם האופייני.
ההסתברות נחקרה לראשונה בשנות ה- 1700 על ידי מתמטיקאים כמו פסקל ופרמה. שנות ה- 1700 סימנו גם את תחילת הסטטיסטיקה. הסטטיסטיקה המשיכה לצמוח משורשי ההסתברות שלה ובאמת המריאה בשנות ה- 1800. כיום, ההיקף התיאורטי ממשיך להיות מורחב במה שמכונה סטטיסטיקה מתמטית.