סטטיסטיקה ב׳ — אומדן פרמטרים

סטטיסטיקה ב׳ — אומדן פרמטרים

כמעט לעולם איננו יכולים למדוד אוכלוסייה שלמה, ולכן אנו אומדים את הפרמטרים שלה מתוך מדגם. אך לא כל אומדן טוב באותה מידה: אנו רוצים אומדן שאינו מוטה ושמשתנותו קטנה ככל האפשר. בדף הזה נלמד מהו אומדן חסר הטיה, מהי יעילות, נחשב את הטעות הריבועית הממוצעת (MSE) ואת שגיאת התקן של הממוצע, ונראה כיצד גודל המדגם משפיע על הדיוק.

רקע והגדרות בסיסיות

פרמטר הוא ערך מספרי המתאר את האוכלוסייה (כמו הממוצע \(\mu\) או השונות \(\sigma^2\)), בעוד אומדן (Estimator) הוא נוסחה המחושבת מן המדגם ומשמשת לניחוש הפרמטר (כמו ממוצע המדגם \(\bar{x}\)). הערך המספרי שמתקבל נקרא אומדן נקודתי.

תכונות אומדן טוב:

  • חוסר הטיה (Unbiased): בממוצע על פני מדגמים רבים האומדן פוגע בפרמטר, כלומר \( E(\hat{\theta}) = \theta \). ההטיה היא \( \text{Bias} = E(\hat{\theta}) - \theta \).
  • יעילות (Efficiency): בין שני אומדנים חסרי הטיה, היעיל יותר הוא בעל השונות הקטנה יותר — הוא "מתבדר" פחות סביב הפרמטר.

טעות ריבועית ממוצעת (MSE) מודדת את איכות האומדן הכוללת:

\[ \text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) + \big(\text{Bias}(\hat{\theta})\big)^2 \]

עבור אומדן חסר הטיה ההטיה אפס, ולכן \( \text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) \).

ממוצע המדגם הוא האומדן הנקודתי הטוב ביותר ל-\(\mu\), והוא חסר הטיה: \( E(\bar{x}) = \mu \). פיזורו נמדד בשגיאת התקן של הממוצע:

\[ \text{SE}(\bar{x}) = \frac{\sigma}{\sqrt{n}} \]

השונות חסרת ההטיה של האוכלוסייה נאמדת באמצעות שונות המדגם, עם חלוקה ב-\((n-1)\):

\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} \]

שלבי פתרון

  1. שלב 1 — זהה מהו הפרמטר שאתה אומד (\(\mu\), \(\sigma^2\), \(p\)) ומהו האומדן המתאים.
  2. שלב 2 — לבדיקת חוסר הטיה חשב את \( E(\hat{\theta}) \) והשווה לפרמטר; שווים \(\Rightarrow\) חסר הטיה.
  3. שלב 3 — להשוואת יעילות בין אומדנים חסרי הטיה, בחר את זה בעל השונות הקטנה יותר.
  4. שלב 4 — לחישוב MSE השתמש ב-\( \text{Var} + \text{Bias}^2 \); אם חסר הטיה, \( \text{MSE} = \text{Var} \).
  5. שלב 5 — לשגיאת התקן של הממוצע חלק את \(\sigma\) בשורש \(n\): \( \text{SE} = \frac{\sigma}{\sqrt{n}} \).
  6. שלב 6 — לגודל מדגם נדרש בודד \(n\) מתוך משוואת ה-SE: \( n = \left(\frac{\sigma}{\text{SE}}\right)^2 \).

דוגמאות פתורות

דוגמה 1: שגיאת התקן של הממוצע

השאלה: בקרב אוכלוסייה ידוע שסטיית התקן היא \( \sigma = 20 \). דוגמים מדגם בגודל \( n = 25 \). מהי שגיאת התקן של ממוצע המדגם?

פתרון:

  1. נשתמש בנוסחה \( \text{SE}(\bar{x}) = \frac{\sigma}{\sqrt{n}} \).
  2. נציב: \( \text{SE} = \frac{20}{\sqrt{25}} = \frac{20}{5} \).
  3. נחשב: \( \frac{20}{5} = 4 \).
  4. שים לב: ככל שהמדגם גדול יותר, שגיאת התקן קטנה — כי \(\sqrt{n}\) במכנה גדל.

תשובה: שגיאת התקן היא \( 4 \).

דוגמה 2: גודל מדגם נדרש

השאלה: רוצים שגיאת תקן של הממוצע שלא תעלה על \( 2 \). סטיית התקן של האוכלוסייה היא \( \sigma = 16 \). מהו גודל המדגם הנדרש?

פתרון:

  1. נצא מהנוסחה \( \text{SE} = \frac{\sigma}{\sqrt{n}} \) ונבודד את \(n\).
  2. נבודד את השורש: \( \sqrt{n} = \frac{\sigma}{\text{SE}} = \frac{16}{2} = 8 \).
  3. נעלה בריבוע: \( n = 8^2 = 64 \).
  4. בדיקה: \( \frac{16}{\sqrt{64}} = \frac{16}{8} = 2 \) — בדיוק כנדרש.

תשובה: נדרש מדגם בגודל \( n = 64 \).

דוגמה 3: שונות מדגם מתצפיות

השאלה: מדגם בן ארבע תצפיות: \( 4, 7, 9, 12 \). חשב את שונות המדגם חסרת ההטיה \( s^2 \).

פתרון:

  1. תחילה הממוצע: \( \bar{x} = \frac{4+7+9+12}{4} = \frac{32}{4} = 8 \).
  2. סטיות מהממוצע: \( -4, -1, 1, 4 \); ריבועיהן: \( 16, 1, 1, 16 \).
  3. סכום ריבועי הסטיות: \( 16 + 1 + 1 + 16 = 34 \).
  4. נחלק ב-\( (n-1) = 3 \): \( s^2 = \frac{34}{3} \approx 11.33 \).

תשובה: \( s^2 = \frac{34}{3} \approx 11.33 \).

דוגמה 4: MSE של אומדן חסר הטיה

השאלה: ממוצע המדגם \( \bar{x} \) הוא אומדן חסר הטיה ל-\(\mu\). נתון \( \sigma = 12 \) ו-\( n = 9 \). מהו \( \text{MSE}(\bar{x}) \)?

פתרון:

  1. מכיוון ש-\( \bar{x} \) חסר הטיה, ההטיה אפס, ולכן \( \text{MSE}(\bar{x}) = \text{Var}(\bar{x}) \).
  2. שונות ממוצע המדגם היא \( \text{Var}(\bar{x}) = \frac{\sigma^2}{n} \).
  3. נציב: \( \frac{12^2}{9} = \frac{144}{9} \).
  4. נחשב: \( \frac{144}{9} = 16 \) (שימו לב שזה גם \( \text{SE}^2 = 4^2 \)).

תשובה: \( \text{MSE}(\bar{x}) = 16 \).

דוגמה 5: בחירת האומדן היעיל

השאלה: שני אומדנים חסרי הטיה ל-\(\theta\): לאומדן \(A\) שונות \( \text{Var}(A) = 9 \), ולאומדן \(B\) שונות \( \text{Var}(B) = 4 \). איזה אומדן עדיף?

פתרון:

  1. שני האומדנים חסרי הטיה, כלומר \( E(A) = E(B) = \theta \) — אין הבדל בהטיה.
  2. במצב כזה הקריטריון הוא יעילות: עדיף האומדן בעל השונות הקטנה יותר.
  3. מכיוון ש-\( \text{Var}(B) = 4 \lt 9 = \text{Var}(A) \), אומדן \(B\) יעיל יותר.
  4. עבור אומדנים חסרי הטיה, MSE שווה לשונות, ולכן ל-\(B\) גם MSE קטן יותר.

תשובה: אומדן \(B\) עדיף (יעיל יותר, שונות קטנה יותר).

טעויות נפוצות

✗ טעות נפוצה: מחשבים שונות מדגם בחלוקה ב-\(n\) במקום ב-\((n-1)\).

✓ הדרך הנכונה: חלוקה ב-\(n\) נותנת אומדן מוטה כלפי מטה (קטן מדי). האומדן חסר ההטיה לשונות האוכלוסייה משתמש ב-\((n-1)\): \( s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} \).

✗ טעות נפוצה: מבלבלים בין סטיית התקן של המדגם \(s\) לבין שגיאת התקן של הממוצע \(\text{SE}\).

✓ הדרך הנכונה: \(s\) מתאר את פיזור התצפיות הבודדות, בעוד \( \text{SE} = \frac{\sigma}{\sqrt{n}} \) מתאר את פיזור הממוצע בין מדגמים. ה-SE תמיד קטן יותר וקטן עוד עם גדילת \(n\).

✗ טעות נפוצה: שוכחים להוציא שורש מ-\(n\) ומחשבים \( \text{SE} = \frac{\sigma}{n} \).

✓ הדרך הנכונה: במכנה עומד \(\sqrt{n}\) ולא \(n\). לכן הכפלת המדגם פי \(4\) מקטינה את שגיאת התקן רק פי \(2\), כי \( \sqrt{4} = 2 \).

טיפים לתרגול

  • טיפ — כדי לחצות את שגיאת התקן (לקבל אותה קטנה פי \(2\)) צריך להגדיל את המדגם פי \(4\), כי \(n\) נמצא תחת שורש.
  • טיפ — אומדן טוב = חסר הטיה + יעיל. ראשית ודא חוסר הטיה, ורק אז השווה שונויות לבחירת היעיל.
  • טיפ — לזכור את MSE: \( \text{MSE} = \text{Var} + \text{Bias}^2 \). אם האומדן חסר הטיה, ה-MSE מצטמצם לשונות בלבד.
  • טיפ — לחישוב גודל מדגם השתמש ישירות ב-\( n = \left(\frac{\sigma}{\text{SE}}\right)^2 \) ועגל כלפי מעלה לשלם הקרוב.

סיכום ונוסחאות מפתח

  • אומדן חסר הטיה: \( E(\hat{\theta}) = \theta \).
  • יעילות: מבין חסרי ההטיה, היעיל = בעל השונות הקטנה ביותר.
  • MSE \( = \text{Var}(\hat{\theta}) + \text{Bias}^2 \); לחסר הטיה \( \text{MSE} = \text{Var} \).
  • שגיאת תקן של הממוצע: \( \text{SE} = \frac{\sigma}{\sqrt{n}} \).
  • גודל מדגם: \( n = \left(\frac{\sigma}{\text{SE}}\right)^2 \).
  • שונות מדגם: \( s^2 = \frac{\sum (x_i-\bar{x})^2}{n-1} \).