בדיקת השערות — H₀, H₁ ורמת מובהקות

בדיקת השערות

בדיקת השערות היא הכלי הסטטיסטי המרכזי לקבלת החלטות על אוכלוסיה על סמך מדגם. במקום לטעון משהו ודאי על פרמטר בלתי ידוע (למשל הממוצע \( \mu \) או השכיחות \( p \)), אנו מנסחים שתי טענות מתחרות — השערת האפס \( H_0 \) וההשערה האלטרנטיבית \( H_1 \) — אוספים נתונים, ומחליטים אם הראיות מהמדגם חזקות מספיק כדי לדחות את \( H_0 \). מסגרת זו מאפשרת לכמת את הסיכון לטעות בהחלטה, ולכן היא נמצאת בלב כל מחקר מדעי, ניסוי קליני או בדיקת איכות.

רקע והגדרות בסיסיות

השערת האפס \( H_0 \): טענה ברירת המחדל, בדרך כלל של "אין שינוי" או "אין הבדל", למשל \( H_0: \mu = \mu_0 \).

השערה אלטרנטיבית \( H_1 \): הטענה שאנו מנסים להוכיח. יכולה להיות דו-צדדית \( H_1: \mu \neq \mu_0 \) או חד-צדדית \( H_1: \mu > \mu_0 \) או \( H_1: \mu < \mu_0 \).

רמת מובהקות \( \alpha \): ההסתברות המקסימלית שאנו מוכנים לקבל לדחיית \( H_0 \) כאשר היא נכונה (טעות מסוג I). ערכים נפוצים: \( \alpha = 0.05, 0.01 \).

סטטיסטי המבחן Z: כאשר \( \sigma \) ידוע והמדגם גדול או הנתונים נורמליים, מחשבים

\[ Z = \dfrac{\bar{X} - \mu_0}{\sigma/\sqrt{n}} \]

p-value: ההסתברות לקבל סטטיסטי קיצוני לפחות כמו זה שהתקבל, בהנחה ש-\( H_0 \) נכונה.

אזור דחייה: תחום הערכים של \( Z \) שעבורם נדחה את \( H_0 \). למשל במבחן דו-צדדי ברמה \( \alpha = 0.05 \): \( |Z| > 1.96 \).

סוג מבחן	\( H_1 \)	אזור דחייה ב-\( \alpha=0.05 \)
דו-צדדי	\( \mu \neq \mu_0 \)	\( \|Z\| > 1.96 \)
חד-צדדי ימני	\( \mu > \mu_0 \)	\( Z > 1.645 \)
חד-צדדי שמאלי	\( \mu < \mu_0 \)	\( Z < -1.645 \)

שלבי הפתרון

ניסוח השערות: רושמים \( H_0 \) ו-\( H_1 \). מזהים אם המבחן חד-צדדי או דו-צדדי לפי ניסוח השאלה ("שונה מ-" → דו-צדדי, "גדול מ-" / "קטן מ-" → חד-צדדי).
קביעת רמת מובהקות \( \alpha \): אם לא נתון במפורש, הערך המקובל הוא \( \alpha = 0.05 \).
בחירת סטטיסטי המבחן: ל-\( \sigma \) ידוע משתמשים ב-\( Z \); ל-\( \sigma \) לא ידוע משתמשים ב-\( t \) (כאן נתמקד ב-Z).
חישוב הסטטיסטי מהמדגם: \( Z = \dfrac{\bar{X} - \mu_0}{\sigma/\sqrt{n}} \) או נוסחה מתאימה לשיעורים/הפרשים.
מציאת אזור הדחייה או p-value: משווים את \( Z \) לערך הקריטי \( Z_{\alpha} \) או מחשבים p-value מטבלת ההתפלגות הנורמלית.
קבלת החלטה והסקת מסקנה: אם \( Z \) באזור הדחייה (או p-value \( < \alpha \)) — דוחים את \( H_0 \); אחרת — לא דוחים. מנסחים את המסקנה במילים, בהקשר של הבעיה.

דוגמאות פתורות

דוגמה 1 — מבחן ממוצע חד-צדדי: יצרן טוען שאורך החיים הממוצע של נורה הוא לפחות 1000 שעות. במדגם של \( n=36 \) נורות התקבל \( \bar{X}=970 \) שעות. ידוע \( \sigma=60 \). בדקו ברמת \( \alpha=0.05 \) האם הטענה נכונה.

\( H_0: \mu = 1000 \), \( H_1: \mu < 1000 \) (חד-צדדי שמאלי).

\( Z = \dfrac{970 - 1000}{60/\sqrt{36}} = \dfrac{-30}{10} = -3 \).

ערך קריטי: \( -Z_{0.05} = -1.645 \). מאחר ש-\( -3 < -1.645 \) — דוחים את \( H_0 \). יש ראיה שאורך החיים הממוצע קטן מ-1000 שעות.

דוגמה 2 — מבחן ממוצע דו-צדדי עם p-value: משקל ממוצע של חבילה צריך להיות 500 גרם. נמדדו \( n=64 \) חבילות, \( \bar{X}=504 \), \( \sigma=16 \). בדקו \( \alpha=0.05 \).

\( H_0: \mu = 500 \), \( H_1: \mu \neq 500 \).

\( Z = \dfrac{504-500}{16/\sqrt{64}} = \dfrac{4}{2} = 2 \).

\( \text{p-value} = 2 \cdot P(Z > 2) = 2 \cdot 0.0228 = 0.0456 \). מאחר ש-\( 0.0456 < 0.05 \) — דוחים את \( H_0 \).

דוגמה 3 — מבחן שיעור (proportion): מועמד טוען שיתמכו בו לפחות 50% מהבוחרים. בסקר של \( n=400 \) נמצאו 184 תומכים. בדקו ברמת \( \alpha=0.05 \).

\( H_0: p = 0.5 \), \( H_1: p < 0.5 \). \( \hat{p} = 184/400 = 0.46 \).

\( Z = \dfrac{0.46 - 0.5}{\sqrt{0.5 \cdot 0.5 / 400}} = \dfrac{-0.04}{0.025} = -1.6 \).

\( -1.6 > -1.645 \) — לא דוחים את \( H_0 \). אין מספיק ראיות לפסול את טענת המועמד.

דוגמה 4 — השוואת שני ממוצעים: שתי מכונות. מ-1: \( n_1=50, \bar{X}_1=102, \sigma_1=8 \). מ-2: \( n_2=50, \bar{X}_2=99, \sigma_2=10 \). האם יש הבדל ברמת \( \alpha=0.05 \)?

\( H_0: \mu_1 = \mu_2 \), \( H_1: \mu_1 \neq \mu_2 \).

\( Z = \dfrac{102-99}{\sqrt{8^2/50 + 10^2/50}} = \dfrac{3}{\sqrt{1.28+2}} = \dfrac{3}{\sqrt{3.28}} \approx \dfrac{3}{1.811} \approx 1.657 \).

\( |1.657| < 1.96 \) — לא דוחים את \( H_0 \). אין הבדל מובהק.

דוגמה 5 — טעויות מסוג I ו-II: במבחן עם \( H_0: \mu = 100 \) מול \( H_1: \mu = 105 \), \( \sigma=10, n=25, \alpha=0.05 \) (חד-צדדי ימני). מהי עוצמת המבחן?

ערך קריטי: \( \bar{X}_c = 100 + 1.645 \cdot (10/5) = 103.29 \).

\( \beta = P(\bar{X} < 103.29 \mid \mu=105) = P\!\left(Z < \dfrac{103.29-105}{2}\right) = P(Z < -0.855) \approx 0.196 \).

עוצמה \( = 1 - \beta \approx 0.804 \). טעות מסוג I: \( \alpha=0.05 \). טעות מסוג II: \( \beta \approx 0.196 \).

טעויות נפוצות

בלבול בין \( H_0 \) ל-\( H_1 \): \( H_0 \) היא תמיד ברירת המחדל (שוויון), והטענה שרוצים להוכיח עוברת ל-\( H_1 \). אם "רוצים להראות שהממוצע גדל" — זה ב-\( H_1 \), לא ב-\( H_0 \).
פירוש שגוי של p-value: p-value אינו ההסתברות ש-\( H_0 \) נכונה. הוא ההסתברות לקבל נתונים קיצוניים לפחות כמו אלו שהתקבלו, בהינתן ש-\( H_0 \) נכונה.
בחירת מבחן חד-צדדי במקום דו-צדדי (או להפך): "האם שונה מ-" → דו-צדדי עם ערך קריטי \( 1.96 \). "האם גדול/קטן מ-" → חד-צדדי עם \( 1.645 \). שימוש לא נכון משנה את אזור הדחייה ומוביל למסקנה שגויה.

טיפים לתרגול

תמיד התחילו ברישום ברור של \( H_0 \) ו-\( H_1 \) לפני כל חישוב — זה מונע 90% מהטעויות.
שרטטו את ההתפלגות הנורמלית עם אזור הדחייה מוצלל — זה עוזר לוודא חד-צדדי/דו-צדדי וסימן ה-\( Z \).
שננו את הערכים הקריטיים השכיחים: \( Z_{0.05}=1.645 \), \( Z_{0.025}=1.96 \), \( Z_{0.01}=2.326 \), \( Z_{0.005}=2.576 \).
בדקו עקביות: אם \( Z \) קיצוני מאוד (\( |Z|>3 \)) צפויים p-value קטן מאוד והחלטת דחייה — אם קיבלתם אחרת, בדקו את חישוב סטיית התקן \( \sigma/\sqrt{n} \).

סיכום ונוסחאות מפתח

סטטיסטי \( Z \) לממוצע (\( \sigma \) ידוע): \[ Z = \dfrac{\bar{X} - \mu_0}{\sigma/\sqrt{n}} \]

סטטיסטי \( Z \) לשיעור: \[ Z = \dfrac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)/n}} \]

סטטיסטי \( Z \) להפרש ממוצעים (\( \sigma_1,\sigma_2 \) ידועים): \[ Z = \dfrac{\bar{X}_1 - \bar{X}_2}{\sqrt{\sigma_1^2/n_1 + \sigma_2^2/n_2}} \]

כלל החלטה: דוחים \( H_0 \) אם p-value \( < \alpha \), או באופן שקול אם \( Z \) נופל באזור הדחייה.

ערכים קריטיים נפוצים: דו-צדדי \( \alpha=0.05 \Rightarrow |Z|>1.96 \); חד-צדדי \( \alpha=0.05 \Rightarrow |Z|>1.645 \).

טעויות: טעות מסוג I — דחיית \( H_0 \) נכונה, הסתברות \( \alpha \). טעות מסוג II — אי-דחיית \( H_0 \) שגויה, הסתברות \( \beta \). עוצמה \( =1-\beta \).

למעבר לתרגול: בדיקות השערות (מבחן 108) ←