סטטיסטיקה בסיסית — טבלת שכיחויות, התפלגות ותרשימים

סטטיסטיקה בסיסית — טבלת שכיחויות, התפלגות ותרשימים

כשאוספים נתונים — ציונים, גבהים, מספר אחים — מקבלים רשימה ארוכה וקשה לקריאה. הסטטיסטיקה התיאורית עוזרת לנו לארגן את הנתונים בצורה שמספרת סיפור: כמה פעמים מופיע כל ערך, היכן מתרכזים הנתונים, ומי הערכים החריגים. בדף הזה נלמד לבנות טבלת שכיחויות ולבחור את התרשים המתאים.

רקע והגדרות בסיסיות

נתחיל מהמושג המרכזי:

  • שכיחות — מספר הפעמים שערך מסוים מופיע בנתונים.
  • שכיחות יחסית — השכיחות חלקי סך כל התצפיות, \( \frac{f_i}{n} \). היא מציגה איזה חלק מהנתונים תופס כל ערך, ולרוב מוצגת כשבר עשרוני או באחוזים.
  • התפלגות שכיחויות — הטבלה השלמה שמראה כל ערך (או טווח) מול השכיחות שלו.

סוג הנתונים קובע את התרשים:

  • נתונים דיסקרטיים — ערכים בדידים, סופרים אותם (מספר אחים, מספר ספרים). מתאימים לדיאגרמת מקלות — קווים נפרדים שאינם נוגעים זה בזה, כי בין הערכים אין משמעות (אין 2.5 אחים).
  • נתונים רציפים — ערכים בתוך טווח, מודדים אותם (גובה, זמן, משקל). מתאימים להיסטוגרמה — עמודות צמודות זו לזו, כי הנתונים זורמים ברצף.

כשיש הרבה ערכים שונים מקבצים אותם למחלקות (טווחים) כמו 60–69, 70–79. בהיסטוגרמה גובה העמודה מייצג את השכיחות בכל טווח.

שלבי פתרון

  1. שלב 1 — רשום את כל הערכים האפשריים (או את הטווחים) בעמודה אחת, מהקטן לגדול.
  2. שלב 2 — עבור על הנתונים וסמן ספירה (טלי) ליד כל ערך; ספור כדי לקבל את השכיחות.
  3. שלב 3 — בדוק את עצמך: סכום כל השכיחויות חייב להיות שווה למספר התצפיות הכולל \( n \).
  4. שלב 4 — אם נדרש, חשב שכיחות יחסית: \( \frac{f_i}{n} \) לכל שורה.
  5. שלב 5 — החלט על סוג הנתונים: דיסקרטיים → דיאגרמת מקלות, רציפים → היסטוגרמה.
  6. שלב 6 — שרטט את התרשים: גובה כל מקל/עמודה שווה לשכיחות, וסמן צירים ברורים.

דוגמאות פתורות

דוגמה 1: בניית שכיחות מרשימת נתונים

השאלה: נתון מספר חיות המחמד אצל 10 תלמידים: 0, 1, 1, 2, 0, 3, 1, 2, 1, 0. מהי השכיחות של הערך 1?

פתרון:

  1. נסמן ונספור כמה פעמים מופיע כל ערך.
  2. הערך 1 מופיע אצל התלמידים: 1, 1, 1, 1 — סך הכל ארבע פעמים.
  3. לכן השכיחות של הערך 1 היא 4.

תשובה: השכיחות של 1 היא \( 4 \).

דוגמה 2: טבלת שכיחויות מלאה ובדיקת סכום

השאלה: בכיתה נשאלו התלמידים כמה אחים יש להם. התקבלו הנתונים: 0, 2, 1, 1, 3, 2, 0, 1, 2, 1, 4, 1. בנה טבלת שכיחויות ובדוק אותה.

פתרון:

  1. הערכים האפשריים: 0, 1, 2, 3, 4. נספור כל אחד.
  2. 0 מופיע פעמיים; 1 מופיע חמש פעמים; 2 מופיע שלוש פעמים; 3 מופיע פעם אחת; 4 מופיע פעם אחת.
  3. מספר אחיםשכיחות
    02
    15
    23
    31
    41
  4. בדיקה: \( 2 + 5 + 3 + 1 + 1 = 12 \), וזהו בדיוק מספר התלמידים — הטבלה תקינה.
  5. מספר האחים השכיח ביותר הוא 1 (שכיחות 5).

תשובה: הטבלה תקינה (סך השכיחויות 12), והערך השכיח הוא \( 1 \).

דוגמה 3: זיהוי הערך השכיח מטבלה נתונה

השאלה: נתונה טבלת שכיחויות של ציונים: 50→4, 60→6, 70→11, 80→5. איזה ציון שכיח ביותר, וכמה תלמידים נבחנו?

פתרון:

  1. הערך השכיח ביותר הוא זה עם השכיחות הגבוהה ביותר.
  2. השכיחויות הן 4, 6, 11, 5 — הגבוהה ביותר היא 11, השייכת לציון 70.
  3. מספר התלמידים הוא סכום השכיחויות: \( 4 + 6 + 11 + 5 = 26 \).

תשובה: הציון השכיח הוא \( 70 \), ונבחנו \( 26 \) תלמידים.

דוגמה 4: שכיחות יחסית

השאלה: במדגם של 40 משפחות, ב-10 מהן יש מכונית אחת. מהי השכיחות היחסית של "מכונית אחת"?

פתרון:

  1. השכיחות היחסית היא השכיחות חלקי סך התצפיות: \( \frac{f}{n} = \frac{10}{40} \).
  2. \( \frac{10}{40} = \frac{1}{4} = 0.25 \).
  3. באחוזים: \( 0.25 \times 100 = 25\% \).

תשובה: השכיחות היחסית היא \( 0.25 \), כלומר \( 25\% \).

דוגמה 5: בחירת התרשים המתאים

השאלה: מורה אספה את זמני הריצה (בשניות) של 50 תלמידים במקצה 100 מטר. האם עדיף להציג בדיאגרמת מקלות או בהיסטוגרמה, ומדוע?

פתרון:

  1. נזהה את סוג הנתונים: זמן הוא גודל שמודדים, ויכול לקבל כל ערך בתוך טווח (12.3 שניות, 12.31 שניות...).
  2. לכן מדובר בנתונים רציפים, ולא בערכים בדידים שסופרים.
  3. נתונים רציפים מקבצים לטווחים (למשל 12–13, 13–14 שניות) ומציגים בהיסטוגרמה, שבה העמודות צמודות כדי לשקף את הרציפות.
  4. דיאגרמת מקלות, לעומת זאת, מתאימה לנתונים דיסקרטיים שבהם יש פערים בין הערכים.

תשובה: עדיפה היסטוגרמה, כי זמן ריצה הוא נתון רציף.

טעויות נפוצות

✗ טעות נפוצה: מבלבלים בין הערך לבין השכיחות שלו — כששואלים "מהו השכיח ביותר" עונים את השכיחות הגבוהה במקום הערך.

✓ הדרך הנכונה: "השכיח ביותר" הוא הערך שמופיע הכי הרבה פעמים, לא מספר הפעמים. אם 70 מופיע 11 פעמים, התשובה היא 70 ולא 11.

✗ טעות נפוצה: משרטטים היסטוגרמה לנתונים דיסקרטיים (כמו מספר אחים) עם עמודות צמודות.

✓ הדרך הנכונה: לנתונים דיסקרטיים משתמשים בדיאגרמת מקלות עם קווים נפרדים. הרווח בין המקלות מדגיש שאין ערכי ביניים — אין משמעות ל-2.5 אחים.

✗ טעות נפוצה: מקבצים נתונים לטווחים חופפים, למשל 60–70 ו-70–80, ולא ברור לאן שייך הערך 70.

✓ הדרך הנכונה: הגדר טווחים שאינם חופפים, למשל 60–69 ו-70–79, או קבע חוק ברור ("הגבול העליון שייך לטווח הבא"). כל תצפית חייבת ליפול בדיוק לטווח אחד.

טיפים לתרגול

  • טיפ — תמיד בדוק שסכום השכיחויות שווה למספר התצפיות \( n \). אם לא, ספרת שגוי או דילגת על נתון.
  • טיפ — לזכור את ההבדל: "סופרים" → דיסקרטי → מקלות; "מודדים" → רציף → היסטוגרמה.
  • טיפ — היסטוגרמה מצוינת לאיתור ערכים קיצוניים: עמודה מבודדת בקצה הגרף מסמנת תלמיד עם שימוש חריג (גבוה מאוד או נמוך מאוד).
  • טיפ — כשמקבצים לטווחים, שמור על רוחב טווח אחיד (כולם בני 10, למשל). טווחים ברוחב שונה מעוותים את התמונה הויזואלית.

סיכום ונוסחאות מפתח

  • שכיחות = מספר ההופעות של ערך; שכיחות יחסית \( = \frac{f_i}{n} \).
  • סכום כל השכיחויות שווה תמיד למספר התצפיות \( n \).
  • דיסקרטי (סופרים) → דיאגרמת מקלות (קווים נפרדים).
  • רציף (מודדים) → היסטוגרמה (עמודות צמודות).
  • גובה המקל/העמודה = השכיחות באותו ערך או טווח.