סטטיסטיקה בסיסית — טבלת שכיחויות, התפלגות ותרשימים
כשאוספים נתונים — ציונים, גבהים, מספר אחים — מקבלים רשימה ארוכה וקשה לקריאה. הסטטיסטיקה התיאורית עוזרת לנו לארגן את הנתונים בצורה שמספרת סיפור: כמה פעמים מופיע כל ערך, היכן מתרכזים הנתונים, ומי הערכים החריגים. בדף הזה נלמד לבנות טבלת שכיחויות ולבחור את התרשים המתאים.
רקע והגדרות בסיסיות
נתחיל מהמושג המרכזי:
- שכיחות — מספר הפעמים שערך מסוים מופיע בנתונים.
- שכיחות יחסית — השכיחות חלקי סך כל התצפיות, \( \frac{f_i}{n} \). היא מציגה איזה חלק מהנתונים תופס כל ערך, ולרוב מוצגת כשבר עשרוני או באחוזים.
- התפלגות שכיחויות — הטבלה השלמה שמראה כל ערך (או טווח) מול השכיחות שלו.
סוג הנתונים קובע את התרשים:
- נתונים דיסקרטיים — ערכים בדידים, סופרים אותם (מספר אחים, מספר ספרים). מתאימים לדיאגרמת מקלות — קווים נפרדים שאינם נוגעים זה בזה, כי בין הערכים אין משמעות (אין 2.5 אחים).
- נתונים רציפים — ערכים בתוך טווח, מודדים אותם (גובה, זמן, משקל). מתאימים להיסטוגרמה — עמודות צמודות זו לזו, כי הנתונים זורמים ברצף.
כשיש הרבה ערכים שונים מקבצים אותם למחלקות (טווחים) כמו 60–69, 70–79. בהיסטוגרמה גובה העמודה מייצג את השכיחות בכל טווח.
שלבי פתרון
- שלב 1 — רשום את כל הערכים האפשריים (או את הטווחים) בעמודה אחת, מהקטן לגדול.
- שלב 2 — עבור על הנתונים וסמן ספירה (טלי) ליד כל ערך; ספור כדי לקבל את השכיחות.
- שלב 3 — בדוק את עצמך: סכום כל השכיחויות חייב להיות שווה למספר התצפיות הכולל \( n \).
- שלב 4 — אם נדרש, חשב שכיחות יחסית: \( \frac{f_i}{n} \) לכל שורה.
- שלב 5 — החלט על סוג הנתונים: דיסקרטיים → דיאגרמת מקלות, רציפים → היסטוגרמה.
- שלב 6 — שרטט את התרשים: גובה כל מקל/עמודה שווה לשכיחות, וסמן צירים ברורים.
דוגמאות פתורות
דוגמה 1: בניית שכיחות מרשימת נתונים
השאלה: נתון מספר חיות המחמד אצל 10 תלמידים: 0, 1, 1, 2, 0, 3, 1, 2, 1, 0. מהי השכיחות של הערך 1?
פתרון:
- נסמן ונספור כמה פעמים מופיע כל ערך.
- הערך 1 מופיע אצל התלמידים: 1, 1, 1, 1 — סך הכל ארבע פעמים.
- לכן השכיחות של הערך 1 היא 4.
תשובה: השכיחות של 1 היא \( 4 \).
דוגמה 2: טבלת שכיחויות מלאה ובדיקת סכום
השאלה: בכיתה נשאלו התלמידים כמה אחים יש להם. התקבלו הנתונים: 0, 2, 1, 1, 3, 2, 0, 1, 2, 1, 4, 1. בנה טבלת שכיחויות ובדוק אותה.
פתרון:
- הערכים האפשריים: 0, 1, 2, 3, 4. נספור כל אחד.
- 0 מופיע פעמיים; 1 מופיע חמש פעמים; 2 מופיע שלוש פעמים; 3 מופיע פעם אחת; 4 מופיע פעם אחת.
מספר אחים שכיחות 0 2 1 5 2 3 3 1 4 1 - בדיקה: \( 2 + 5 + 3 + 1 + 1 = 12 \), וזהו בדיוק מספר התלמידים — הטבלה תקינה.
- מספר האחים השכיח ביותר הוא 1 (שכיחות 5).
תשובה: הטבלה תקינה (סך השכיחויות 12), והערך השכיח הוא \( 1 \).
דוגמה 3: זיהוי הערך השכיח מטבלה נתונה
השאלה: נתונה טבלת שכיחויות של ציונים: 50→4, 60→6, 70→11, 80→5. איזה ציון שכיח ביותר, וכמה תלמידים נבחנו?
פתרון:
- הערך השכיח ביותר הוא זה עם השכיחות הגבוהה ביותר.
- השכיחויות הן 4, 6, 11, 5 — הגבוהה ביותר היא 11, השייכת לציון 70.
- מספר התלמידים הוא סכום השכיחויות: \( 4 + 6 + 11 + 5 = 26 \).
תשובה: הציון השכיח הוא \( 70 \), ונבחנו \( 26 \) תלמידים.
דוגמה 4: שכיחות יחסית
השאלה: במדגם של 40 משפחות, ב-10 מהן יש מכונית אחת. מהי השכיחות היחסית של "מכונית אחת"?
פתרון:
- השכיחות היחסית היא השכיחות חלקי סך התצפיות: \( \frac{f}{n} = \frac{10}{40} \).
- \( \frac{10}{40} = \frac{1}{4} = 0.25 \).
- באחוזים: \( 0.25 \times 100 = 25\% \).
תשובה: השכיחות היחסית היא \( 0.25 \), כלומר \( 25\% \).
דוגמה 5: בחירת התרשים המתאים
השאלה: מורה אספה את זמני הריצה (בשניות) של 50 תלמידים במקצה 100 מטר. האם עדיף להציג בדיאגרמת מקלות או בהיסטוגרמה, ומדוע?
פתרון:
- נזהה את סוג הנתונים: זמן הוא גודל שמודדים, ויכול לקבל כל ערך בתוך טווח (12.3 שניות, 12.31 שניות...).
- לכן מדובר בנתונים רציפים, ולא בערכים בדידים שסופרים.
- נתונים רציפים מקבצים לטווחים (למשל 12–13, 13–14 שניות) ומציגים בהיסטוגרמה, שבה העמודות צמודות כדי לשקף את הרציפות.
- דיאגרמת מקלות, לעומת זאת, מתאימה לנתונים דיסקרטיים שבהם יש פערים בין הערכים.
תשובה: עדיפה היסטוגרמה, כי זמן ריצה הוא נתון רציף.
טעויות נפוצות
✗ טעות נפוצה: מבלבלים בין הערך לבין השכיחות שלו — כששואלים "מהו השכיח ביותר" עונים את השכיחות הגבוהה במקום הערך.
✓ הדרך הנכונה: "השכיח ביותר" הוא הערך שמופיע הכי הרבה פעמים, לא מספר הפעמים. אם 70 מופיע 11 פעמים, התשובה היא 70 ולא 11.
✗ טעות נפוצה: משרטטים היסטוגרמה לנתונים דיסקרטיים (כמו מספר אחים) עם עמודות צמודות.
✓ הדרך הנכונה: לנתונים דיסקרטיים משתמשים בדיאגרמת מקלות עם קווים נפרדים. הרווח בין המקלות מדגיש שאין ערכי ביניים — אין משמעות ל-2.5 אחים.
✗ טעות נפוצה: מקבצים נתונים לטווחים חופפים, למשל 60–70 ו-70–80, ולא ברור לאן שייך הערך 70.
✓ הדרך הנכונה: הגדר טווחים שאינם חופפים, למשל 60–69 ו-70–79, או קבע חוק ברור ("הגבול העליון שייך לטווח הבא"). כל תצפית חייבת ליפול בדיוק לטווח אחד.
טיפים לתרגול
- טיפ — תמיד בדוק שסכום השכיחויות שווה למספר התצפיות \( n \). אם לא, ספרת שגוי או דילגת על נתון.
- טיפ — לזכור את ההבדל: "סופרים" → דיסקרטי → מקלות; "מודדים" → רציף → היסטוגרמה.
- טיפ — היסטוגרמה מצוינת לאיתור ערכים קיצוניים: עמודה מבודדת בקצה הגרף מסמנת תלמיד עם שימוש חריג (גבוה מאוד או נמוך מאוד).
- טיפ — כשמקבצים לטווחים, שמור על רוחב טווח אחיד (כולם בני 10, למשל). טווחים ברוחב שונה מעוותים את התמונה הויזואלית.
סיכום ונוסחאות מפתח
- שכיחות = מספר ההופעות של ערך; שכיחות יחסית \( = \frac{f_i}{n} \).
- סכום כל השכיחויות שווה תמיד למספר התצפיות \( n \).
- דיסקרטי (סופרים) → דיאגרמת מקלות (קווים נפרדים).
- רציף (מודדים) → היסטוגרמה (עמודות צמודות).
- גובה המקל/העמודה = השכיחות באותו ערך או טווח.