תרגול מדדי קשר - סטטיסטיקה
תרגול מדדי קשר - סטטיסטיקה. שאלות לתרגול ולהעמקת ההבנה בנושא מדדי קשר - סטטיסטיקה. תרגול סטטיסטיקה אונליין עם פתרונות והסברים מפורטים.
תרגול מדדי קשר סטטיסטיקה - מתאם פירסון, מקדם הקביעה R², קורלציה וסיבתיות, נקודות חריגות.
🔗 מהו מדד הקשר המתאים למשתנים שמיים (קטגוריאליים)?
🔗 בחירת מדד קשר לפי סוג המשתנים:
• משתנים שמיים (קטגוריאליים, ללא סדר): למדה (λ) או קרמר (V)
• משתנים סידוריים (יש סדר): ספירמן (rₛ)
• משתנים רווחיים/מנתיים: פירסון (r)
💡 למדה מבוסס על שגיאות ניבוי, קרמר מבוסס על χ².
📊 מהו התחום האפשרי של מקדם המתאם של פירסון (r)?
📊 תחום מקדם המתאם של פירסון:
ערכי r נעים בין -1 ל-+1:
• r = +1: קשר ליניארי חיובי מושלם (כל הנקודות על ישר עולה)
• r = -1: קשר ליניארי שלילי מושלם (כל הנקודות על ישר יורד)
• r = 0: אין קשר ליניארי
💡 הסימן מציין את הכיוון, הערך המוחלט מציין את העוצמה.
📐 מהי נוסחת מדד למדה (λ)?
📐 נוסחת מדד למדה:
λ = (E₁ − E₂) / E₁
כאשר:
• E₁ = שגיאות ניבוי ללא ידיעת X = n − max(שולי Y)
• E₂ = שגיאות ניבוי עם ידיעת X = Σ(סכום עמודה − מקסימום בעמודה)
💡 פירוש: λ מודד את אחוז הצמצום בשגיאות הניבוי כאשר יודעים את X.
📈 אם r = 0.9, מה מקדם הקביעה R²?
📈 מקדם הקביעה R²:
R² = r²
אם r = 0.9:
R² = (0.9)² = 0.81
💡 פירוש: 81% מהשונות ב-Y מוסברת על ידי הקשר הליניארי עם X.
19% הנותרים מוסברים על ידי גורמים אחרים.
📊 בטבלה 2×2, מהו המדד המתאים ביותר מבין מדדי הקשר לשמיים?
📊 מדד פי (φ) - מקרה פרטי של קרמר:
מדד פי מתאים רק לטבלת 2×2:
φ = √(χ² / n)
למעשה, פי הוא קרמר כאשר k = min(שורות, עמודות) = 2:
קרמר: V = √(χ² / (n·(k−1)))
כש-k=2: V = √(χ² / n) = φ
💡 לטבלאות גדולות יותר משתמשים בקרמר (V).
🔢 מהי נוסחת ספירמן?
🔢 נוסחת מקדם המתאם של ספירמן:
rₛ = 1 − (6·Σdᵢ²) / (n·(n²−1))
כאשר:
• dᵢ = הפרש הדירוגים של תצפית i
• n = מספר התצפיות
💡 שלבי החישוב:
1. דרג את X וגם את Y
2. חשב d = דירוג X − דירוג Y
3. חשב d²
4. הצב בנוסחה
📊 נתון: r = 0.7, sᵧ = 10. מהי שונות הניבויים (s²ŷ)?
📊 שונות הניבויים:
s²ŷ = r² · sᵧ²
נתונים:
• r = 0.7
• sᵧ = 10 → sᵧ² = 100
חישוב:
s²ŷ = (0.7)² × 100
s²ŷ = 0.49 × 100 = 49
💡 שונות הניבויים היא החלק מהשונות הכוללת שמוסבר על ידי X.
📈 מהי משוואת קו הניבויים (רגרסיה)?
📈 משוואת קו הניבויים (רגרסיה לינארית):
ŷ = a + bx
כאשר:
• b = שיפוע הישר = r · (sᵧ / sₓ)
• a = חותך (נקודת החיתוך עם ציר Y) = ȳ − b·x̄
• ŷ = הערך החזוי של Y
💡 קו הניבויים עובר תמיד דרך הנקודה (x̄, ȳ).
🔗 מה מציין r = 0?
🔗 פירוש r = 0:
r = 0 אומר אין קשר ליניארי בין המשתנים.
⚠️ חשוב להבין:
• יכול להיות קשר לא ליניארי חזק מאוד גם כש-r = 0!
• לדוגמה: קשר פרבולי (U) ייתן r ≈ 0
💡 r מודד רק קשר ליניארי. לזיהוי קשרים אחרים צריך לבחון את דיאגרמת הפיזור.
📐 נתון: x̄ = 50, ȳ = 80, b = 0.6. מהו a (החותך)?
📐 חישוב החותך (a):
נוסחה: a = ȳ − b·x̄
נתונים:
• x̄ = 50
• ȳ = 80
• b = 0.6
חישוב:
a = 80 − (0.6 × 50)
a = 80 − 30 = 50
💡 משוואת קו הניבויים: ŷ = 50 + 0.6x
📊 מהו הקשר בין שונות הניבויים ושונות הטעויות?
📊 פירוק השונות:
שונות כוללת = שונות הניבויים + שונות הטעויות
sᵧ² = s²ŷ + s²ₑ
כאשר:
• s²ŷ = r² · sᵧ² (מוסבר על ידי X)
• s²ₑ = (1−r²) · sᵧ² (לא מוסבר)
💡 זה מסביר למה R² = r² מייצג את אחוז השונות המוסברת.
🔢 בספירמן, כיצד מטפלים בדירוגים שווים (ties)?
🔢 טיפול בדירוגים שווים (Ties):
כאשר יש ערכים שווים, נותנים להם את הדירוג הממוצע.
דוגמה:
ערכים: 10, 20, 20, 30, 40
שני הערכים 20 היו צריכים לקבל דירוג 2 ו-3.
לכן שניהם יקבלו: (2+3)/2 = 2.5
הדירוגים הסופיים: 1, 2.5, 2.5, 4, 5
📈 נתון: r = -0.8. מה אפשר להסיק?
📈 פרשנות r = -0.8:
• הסימן (−): קשר שלילי = כש-X עולה, Y יורד
• הערך המוחלט (0.8): קשר חזק
💡 סולם עוצמה מקובל:
• 0.00 - 0.29: חלש
• 0.30 - 0.49: בינוני
• 0.50 - 0.69: חזק
• 0.70 - 1.00: חזק מאוד
|r| = 0.8 → קשר חזק מאוד
📊 מהו ההבדל בין ספירמן לפירסון?
📊 הבדלים בין ספירמן לפירסון:
ספירמן (rₛ):
• מודד קשר מונוטוני (עולה או יורד, לא בהכרח בקצב קבוע)
• מבוסס על דירוגים
• מתאים למשתנים סידוריים
• עמיד יותר לערכים חריגים
פירסון (r):
• מודד קשר ליניארי בלבד (על קו ישר)
• מבוסס על ערכים מקוריים
• מתאים למשתנים רווחיים/מנתיים
📐 נתון: r = 0.5, sₓ = 4, sᵧ = 8. מהו שיפוע קו הרגרסיה (b)?
📐 חישוב שיפוע קו הרגרסיה:
נוסחה: b = r · (sᵧ / sₓ)
נתונים:
• r = 0.5
• sₓ = 4
• sᵧ = 8
חישוב:
b = 0.5 × (8 / 4)
b = 0.5 × 2 = 1
💡 כל עלייה של יחידה אחת ב-X מנבאת עלייה של יחידה אחת ב-Y.
🔗 נתון: E₁ = 40, E₂ = 20. מהו מדד למדה?
🔗 חישוב מדד למדה:
נוסחה: λ = (E₁ − E₂) / E₁
נתונים:
• E₁ = 40 (שגיאות ללא ידיעת X)
• E₂ = 20 (שגיאות עם ידיעת X)
חישוב:
λ = (40 − 20) / 40
λ = 20 / 40 = 0.5
💡 פירוש: ידיעת X מפחיתה 50% מהשגיאות בניבוי Y.
📊 מתי נעדיף להשתמש בספירמן במקום בפירסון?
📊 מתי להשתמש בספירמן?
ספירמן עדיף על פירסון כאשר:
• יש ערכים חריגים (outliers) - ספירמן עמיד יותר
• הנתונים לא מתפלגים נורמלית
• המשתנים סידוריים (לא רווחיים)
• הקשר מונוטוני אך לא ליניארי
💡 ספירמן מבוסס על דירוגים, ולכן פחות רגיש לערכים קיצוניים.
📈 מה הקשר בין r ו-b (שיפוע הרגרסיה)?
📈 הקשר בין r ו-b:
b = r · (sᵧ / sₓ)
מכיוון ש-sᵧ ו-sₓ הם תמיד חיוביים (סטיות תקן):
• אם r > 0 → b > 0 (שיפוע חיובי)
• אם r < 0 → b < 0 (שיפוע שלילי)
• אם r = 0 → b = 0 (קו אופקי)
💡 r ו-b תמיד באותו סימן! שניהם חיוביים או שניהם שליליים.
🔗 מה נכון לגבי קורלציה וסיבתיות?
🔗 קורלציה ≠ סיבתיות (Correlation ≠ Causation):
קשר סטטיסטי חזק לא מוכיח שמשתנה אחד גורם לשני!
סיבות אפשריות לקורלציה:
• X גורם ל-Y
• Y גורם ל-X
• גורם שלישי (Z) גורם לשניהם
• מקריות
💡 דוגמה קלאסית: מכירות גלידה וטביעות מתואמות - אבל גלידה לא גורמת לטביעות! שניהם נגרמים מהחום בקיץ.
📐 אם r² = 0.64, מהי שונות הטעויות כאחוז מהשונות הכוללת?
📐 חישוב שונות הטעויות:
R² = r² מייצג את אחוז השונות המוסברת.
אם R² = 0.64:
• שונות מוסברת: 64%
• שונות הטעויות (לא מוסברת): 1 − 0.64 = 36%
נוסחה:
s²ₑ = (1 − r²) · sᵧ²
💡 36% מהשונות ב-Y נובעת מגורמים אחרים שאינם X.