סטטיסטיקה א׳ — משתנים וסולמות מדידה
לפני שמנתחים נתונים צריך להבין מה בדיוק מדדנו. בסטטיסטיקה כל תכונה שאנו מודדים נקראת משתנה, ולכל משתנה יש סוג וסולם מדידה שקובעים אילו פעולות וחישובים מותרים עליו. בדף הזה נלמד להבחין בין ארבעת סולמות המדידה, בין משתנה בדיד לרציף, ובין משתנה תלוי, בלתי תלוי וקשר סיבתי.
רקע והגדרות בסיסיות
משתנה (Variable) הוא תכונה שיכולה לקבל ערכים שונים בין נחקרים שונים — למשל גובה, מין, ציון או צבע עיניים. מה שאינו משתנה (קבוע אצל כולם) נקרא קבוע.
ארבעת סולמות המדידה, מהפשוט למתוחכם:
- שמי (Nominal) — קטגוריות ללא סדר: מין, ארץ לידה, צבע. אפשר רק להבחין שווה/שונה ולספור שכיחויות.
- סדר (Ordinal) — קטגוריות מדורגות בסדר, אך המרחקים בין הדרגות אינם שווים: דירוג שביעות רצון (נמוך\u2013בינוני\u2013גבוה), מקום בתחרות.
- רווח (Interval) — יש סדר ומרחקים שווים, אך נקודת האפס שרירותית: טמפרטורה בצלזיוס, שנה לועזית. אין משמעות ליחס (\(20^\circ\) אינו "חם פי שניים" מ-\(10^\circ\)).
- מנה (Ratio) — כמו רווח אך עם אפס מוחלט ואמיתי: גובה, משקל, זמן, הכנסה. כאן גם היחס בעל משמעות (\(8\) ק"ג כבד פי שניים מ-\(4\) ק"ג).
בדיד מול רציף: משתנה בדיד מקבל ערכים נפרדים שסופרים (מספר ילדים, מספר מכוניות), ו-רציף מקבל כל ערך בתוך טווח, נמדד (גובה, זמן).
תפקיד המשתנה במחקר: משתנה בלתי תלוי הוא הגורם שהחוקר משנה או בודק (המשתנה ה"מסביר"), ו-משתנה תלוי הוא התוצאה שנמדדת. קשר סיבתי פירושו ששינוי במשתנה אחד גורם לשינוי בשני — וזאת בניגוד לקשר בלבד (מתאם), שעלול לנבוע ממשתנה מתערב שלישי.
שלבי פתרון
- שלב 1 — שאל מה בדיוק המשתנה מודד: קטגוריה (איכותי) או כמות (כמותי)?
- שלב 2 — אם איכותי: בדוק אם יש סדר בין הקטגוריות. אין סדר → שמי; יש סדר → סדר.
- שלב 3 — אם כמותי: בדוק אם יש אפס מוחלט שמשמעו "אין כלום". אין → רווח; יש → מנה.
- שלב 4 — לסיווג בדיד/רציף שאל: סופרים ערכים נפרדים (בדיד) או מודדים ברצף (רציף)?
- שלב 5 — בזיהוי תפקיד: ה"גורם" שמשנים הוא הבלתי תלוי, ה"תוצאה" שנמדדת היא התלוי.
- שלב 6 — לפני שטוענים לסיבתיות, ודא שאין משתנה מתערב שלישי המסביר את הקשר.
דוגמאות פתורות
דוגמה 1: זיהוי סולם מדידה
השאלה: חוקר רשם עבור כל משתתף: (א) מספר הטלפון, (ב) דרגת חגורה בג'ודו (לבן, צהוב, שחור), (ג) טמפרטורת הגוף במעלות צלזיוס, (ד) משקל בק"ג. סווג כל אחד לסולם מדידה.
פתרון:
- (א) מספר הטלפון הוא תווית מזהה ללא סדר או כמות — סולם שמי.
- (ב) דרגות החגורה מדורגות בסדר ברור אך ללא מרחק כמותי שווה ביניהן — סולם סדר.
- (ג) טמפרטורה בצלזיוס: יש מרחקים שווים אך האפס שרירותי (\(0^\circ\) אינו "אין חום") — סולם רווח.
- (ד) משקל: יש אפס מוחלט (\(0\) ק"ג = אין מסה) והיחס משמעותי — סולם מנה.
תשובה: שמי, סדר, רווח, מנה — בהתאמה.
דוגמה 2: בדיד או רציף
השאלה: סווג כל משתנה כבדיד או רציף: (א) מספר ההודעות שאדם שולח ביום, (ב) זמן הריצה של 100 מטר בשניות, (ג) מספר הנוסעים באוטובוס.
פתרון:
- (א) מספר הודעות הוא ערך שלם שסופרים, אין "3.5 הודעות" — בדיד.
- (ב) זמן ריצה אפשר למדוד בכל דיוק (\(11.43\) שנ', \(11.431\) שנ') — רציף.
- (ג) מספר נוסעים סופרים, תמיד מספר שלם — בדיד.
תשובה: בדיד, רציף, בדיד — בהתאמה.
דוגמה 3: משתנה תלוי ובלתי תלוי
השאלה: במחקר בודקים האם מספר שעות השינה בלילה משפיע על הציון במבחן למחרת. מהו המשתנה הבלתי תלוי ומהו התלוי?
פתרון:
- נשאל מי הגורם שאנו חושדים שמשפיע ומי התוצאה הנמדדת.
- שעות השינה הן הגורם המשפיע — לכן הן המשתנה הבלתי תלוי.
- הציון במבחן הוא התוצאה שנמדדת בעקבות השינה — לכן הוא המשתנה התלוי.
- טיפ לזיכרון: התלוי "תלוי" בבלתי תלוי, בדיוק כמו שהציון תלוי בשעות השינה.
תשובה: בלתי תלוי: שעות שינה. תלוי: הציון במבחן.
דוגמה 4: קשר סיבתי או משתנה מתערב
השאלה: נמצא שילדים עם נעליים גדולות יותר קוראים טוב יותר. האם גודל הנעל גורם לקריאה טובה? מהו ההסבר הסביר?
פתרון:
- לכאורה יש קשר (מתאם) חיובי בין גודל נעל ליכולת קריאה, אך זה אינו אומר סיבתיות.
- נחפש משתנה מתערב שלישי שמסביר את שני המשתנים יחד.
- הגיל הוא המשתנה המתערב: ילדים גדולים יותר גם נועלים נעליים גדולות יותר וגם קוראים טוב יותר.
- המסקנה: יש כאן קשר מדומה (מתאם בלבד), לא קשר סיבתי בין גודל הנעל לקריאה.
תשובה: לא קשר סיבתי; הגיל הוא המשתנה המתערב המסביר את הקשר.
דוגמה 5: פעולות מותרות לפי סולם
השאלה: תלמיד חישב את "הממוצע" של צבעי עיניים על ידי מיספור (כחול=1, ירוק=2, חום=3) וקיבל 2.1. האם החישוב תקף?
פתרון:
- צבע עיניים הוא משתנה בסולם שמי — המספרים הם רק תוויות מזהות.
- בסולם שמי הפעולה היחידה החוקית היא ספירת שכיחויות (וקביעת השכיח), לא חישובים אריתמטיים.
- ממוצע דורש לכל הפחות סולם רווח, שבו המרחקים בין הערכים שווים ובעלי משמעות.
- לכן הערך \(2.1\) חסר משמעות — אין "צבע ממוצע".
תשובה: החישוב אינו תקף; על סולם שמי אסור לחשב ממוצע.
טעויות נפוצות
✗ טעות נפוצה: מסיקים קשר סיבתי מעצם קיומו של מתאם ("X קשור ל-Y, אז X גורם ל-Y").
✓ הדרך הנכונה: מתאם אינו סיבתיות. כדי לטעון לסיבתיות צריך לשלול משתנים מתערבים, רצוי באמצעות ניסוי מבוקר שבו משנים את המשתנה הבלתי תלוי בלבד.
✗ טעות נפוצה: מבלבלים בין סולם רווח לסולם מנה ומחשבים יחסים בטמפרטורת צלזיוס ("\(30^\circ\) חם פי שלושה מ-\(10^\circ\)").
✓ הדרך הנכונה: יחסים מותרים רק בסולם מנה שיש בו אפס מוחלט. בסולם רווח (צלזיוס, שנה) האפס שרירותי, ולכן רק הפרשים בעלי משמעות ולא יחסים.
✗ טעות נפוצה: מסווגים מספר ילדים כרציף כי מופיע בו מספר (או גובה כבדיד כי נרשם כמספר שלם).
✓ הדרך הנכונה: השאלה היא אם סופרים (בדיד) או מודדים ברצף (רציף), לא אם מופיע מספר. מספר ילדים נספר ולכן בדיד; גובה נמדד ברצף ולכן רציף, גם אם עיגלנו אותו.
טיפים לתרגול
- טיפ — סדר הסולמות מהחלש לחזק: שמי \(\to\) סדר \(\to\) רווח \(\to\) מנה. כל סולם גבוה כולל את היכולות של הנמוכים ממנו.
- טיפ — אפשר תמיד להמיר מסולם גבוה לנמוך (למשל לדרג גבהים ל"נמוך/בינוני/גבוה"), אך לא להפך — בהמרה כלפי מטה מאבדים מידע.
- טיפ — לזיהוי בדיד/רציף שאל "האם יכול להיות ערך ביניים?". \(2.5\) אחים בלתי אפשרי (בדיד); \(2.5\) ק"ג אפשרי (רציף).
- טיפ — בניסוי החוקר שולט במשתנה הבלתי תלוי ומודד את התלוי; משתנה מתמתן (Moderator) משנה את עוצמת הקשר ביניהם.
סיכום ונוסחאות מפתח
סולמות מדידה:
| סולם | מאפיין | דוגמה |
|---|---|---|
| שמי | קטגוריות ללא סדר | מין, צבע |
| סדר | סדר ללא מרחק שווה | דירוג, מקום |
| רווח | מרחק שווה, אפס שרירותי | צלזיוס |
| מנה | אפס מוחלט, יחס משמעותי | משקל, זמן |
- בדיד = סופרים; רציף = מודדים.
- בלתי תלוי = הגורם; תלוי = התוצאה.
- מתאם \(\ne\) סיבתיות — היזהר ממשתנה מתערב.