ניקוי נתונים הוא חלק מכריע בניתוח הנתונים, במיוחד כאשר אתה אוסף נתונים כמותיים משלך. לאחר איסוף הנתונים, עליך להזין אותם בתוכנת מחשב כגון SAS, SPSS או Excel. במהלך תהליך זה, בין אם זה נעשה ביד או אם סורק מחשבים עושה זאת, יהיו שגיאות. לא משנה כמה בזהירות הוזנו הנתונים, טעויות הן בלתי נמנעות. פירוש הדבר יכול להיות קידוד שגוי, קריאה לא נכונה של קודים כתובים, חישה לא נכונה של סימנים מושחרים, נתונים חסרים וכן הלאה. ניקוי נתונים הוא תהליך גילוי ותיקון שגיאות קידוד אלה.
ישנם שני סוגים של ניקוי נתונים שצריך לבצע למערכות נתונים. מדובר בניקוי קוד וניקוי מגירה. שתיהן מכריעות לתהליך ניתוח הנתונים מכיוון שאם תתעלם מהן, כמעט תמיד תייצרו ממצא מחקרי מטעה.
ניקוי אפשרי-קוד
לכל משתנה נתון תהיה קבוצה מוגדרת של אפשרויות תשובה וקודים שתתאימו לכל בחירת תשובה. לדוגמא, המשתנה מין יהיו שלוש אפשרויות תשובה וקודים לכל אחד מהם: 1 לזכר, 2 לנשים, ו- 0 ללא תשובה. אם יש לך משיב המקודד כ -6 עבור משתנה זה, ברור שנעשתה שגיאה מכיוון שזה אינו קוד תשובה אפשרי. ניקוי קוד אפשרי הוא תהליך הבדיקה לראות שרק הקודים שהוקצו לבחירות התשובה לכל שאלה (קודים אפשריים) מופיעים בקובץ הנתונים.
חלק מתוכנות מחשב וחבילות תוכנה סטטיסטיות הזמינות להזנת נתונים בודקים אם סוגים אלה של שגיאות במהלך הזנת הנתונים. כאן המשתמש מגדיר את הקודים האפשריים לכל שאלה לפני הזנת הנתונים. לאחר מכן, אם מוזנים מספר מחוץ לאפשרויות שהוגדרו מראש, מופיעה הודעת שגיאה. לדוגמה, אם המשתמש ניסה להזין מגדר 6, המחשב עלול לצפצף ולסרב לקוד. תוכנות מחשב אחרות נועדו לבחון קודים לא לגיטימיים בקבצי נתונים שהושלמו. כלומר, אם הם לא נבדקו במהלך תהליך הזנת הנתונים כפי שתואר זה עתה, ישנן דרכים לבדוק בקבצים שגיאות קידוד לאחר השלמת הזנת הנתונים.
אם אינך משתמש בתוכנת מחשב שבודקת שגיאות קידוד בתהליך הזנת הנתונים, אתה יכול לאתר כמה שגיאות פשוט על ידי בחינת התפלגות התגובות לכל פריט בנתונים סט. לדוגמה, תוכל ליצור טבלת תדרים עבור המשתנה מין וכאן תוכלו לראות את המספר 6 שהוזן לא נכון. לאחר מכן תוכל לחפש את הרשומה בקובץ הנתונים ולתקן אותה.
ניקיון מגירה
הסוג השני של נתונים ניקוי נקרא ניקוי מגירה והוא קצת יותר מסובך מניקוי קוד אפשרי. המבנה הלוגי של הנתונים עשוי להציב גבולות מסוימים לתגובות של משיבים מסוימים או למשתנים מסוימים. ניקוי מגירות הוא תהליך הבדיקה שרק במקרים שצריכים להיות נתונים על משתנה מסוים אכן יש נתונים כאלה. לדוגמה, נניח שיש לך שאלון שבו אתה שואל את המשיבים כמה פעמים הם היו בהריון. על כל הנשאלות לקבל תגובה המקודדת בנתונים. עם זאת, זכרים צריכים להשאיר ריק או שיהיה להם קוד מיוחד לאי תשובה. אם זכרים כלשהם בנתונים מקודדים כמי שיש להם 3 הריונות, למשל, אתה יודע שיש שגיאה ויש לתקן אותה.
הפניות
באבי, א. (2001). העיסוק במחקר חברתי: מהדורה 9. בלמונט, קליפורניה: וודסוורת 'תומסון.