תרגול מתאם - קורולציה - מקדם המתאם של פירסון חלק ד'

תרגול מתאם - קורולציה - מקדם המתאם של פירסון חלק ד'. שאלות לתרגול ולהעמקת ההבנה בנושא מתאם - קורולציה - מקדם המתאם של פירסון חלק ד'. תרגול סטטיסטיקה אונליין עם פתרונות והסברים מפורטים.

תרגול מתאם פירסון חלק ד מתקדם - חישוב+פרשנות עומק, מגבלות r, נקודות קיצון, הטיות, מתי פירסון לא מתאים.

הבנה + חישובים + פרשנות עומק (שלב 4 – מתקדם אך עדיין ברור) התרגול מחבר הכול: חישוב מלא של r פרשנות מתקדמת נתוני אמת עם כיווניות הסקת מסקנות ממצבים אמיתיים זיהוי מצבים שבהם פירסון לא מתאים זיהוי הטיות, נקודות קיצון, קנה מידה לא עקבי ״חכמה״ סטטיסטית אמיתית—לא רק מספרים זה תרגול שמרגיש מאוד מקצועי ולימודי יחד.

30 questions

Question 1
3.33 pts

📈 שאלה 1 — Outlier שמשנה את כל התמונה:
בגרף מפוזר של X ו־Y נראה קשר חיובי חלש (r≈0.20). לאחר הוספת נקודת outlier אחת בקצה העליון־ימני, r קפץ ל־0.85.

מה המסקנה הנכונה?

Explanation:
r הוא מדד מאוד רגיש לנקודות קיצון. נקודה אחת רחוקה גורמת לקו המגמה “להימתח” לכיוונה ← ולכן r עולה מאוד.

הטעות הנפוצה: לפרש את העלייה ב־r כ”התחזקות אמיתית של הקשר”. בפועל — זה פשוט עיוות שנגרם מה־outlier.
Question 2
3.33 pts

📉 שאלה 2 — קשר חזק אך לא קווי:
בגרף רואים צורת U: ככל ש־X מתרחק מהאמצע, Y גדל. מה יהיה r?

Explanation:
הקשר כאן חזק — אבל לא קווי. פירסון r מודד רק קשר ישר, ולכן במקרה של צורת U הוא יצא נמוך. זו טעות קלאסית של סטודנטים: לחשוב ש"הקשר נראה חזק" → r אמור להיות גבוה. לא נכון. r מזהה ישרות, לא עוצמה כללית.
Question 3
3.33 pts

📊 שאלה 3 — שני עננים שונים:
שני ענני נקודות הם “X נגד Y”. לשניהם אותו r = 0.70.

באחד הפיזור קטן מאוד, ובשני הפיזור עצום — אבל בכיוון עקבי.

מה מסקנה נכונה?

Explanation:
פירסון r מודד יחסיות — לא מרחקים מוחלטים. אם שני העננים שונים בגודל אבל מקיימים את אותו יחס בין סטיות, r יכול להיות זהה. טעות נפוצה: לחשוב ש”פיזור גדול” → r קטן. זה נכון רק אם הפיזור גורם לירידה בישרות — לא בגלל הגודל.
Question 4
3.33 pts

🔄 שאלה 4 — היפוך תפקידים:
מה יקרה לערך r אם נחליף בין X ל־Y?

Explanation:
פירסון סימטרי לחלוטין: \[ r_{xy} = r_{yx} \] החלפת ציר X וציר Y לא משנה את הקשר הקווי ולכן לא משנה את r. טעות נפוצה: לחשוב שעליית X → Y שונה מעליית Y → X. בפירסון — הם שווים.
Question 5
3.33 pts

📐 שאלה 5 — קשר כמעט מושלם, אך עם קפיצה אחת:
בגרף רואים קו ישר עולה כמעט מושלם, חוץ מנקודה אחת שנמצאת קצת רחוק.

מה אפקט נקודה זו על r?

Explanation:
נקודה אחת רחוקה מעט תוריד את r — אבל אם שאר הנקודות על קו ישר, הירידה תהיה קטנה. זה לא כמו outlier קיצוני שמשנה הכל. שגיאה נפוצה: לחשוב שכל נקודת חריגה “מפוצצת” את המתאם. זה תלוי עד כמה היא רחוקה.
Question 6
3.33 pts

🧮 שאלה 6 — יחסיות במקום ערכים מוחלטים:
בקבוצת נתונים אחת X ו־Y נעים בין 1–5. בקבוצה אחרת X ו־Y נעים בין 100–500. אך המבנה זהה: כל נקודות הקבוצה השנייה הן פי 100 מהראשונה.

מה יקרה ל־r?

Explanation:
r אינו מתחשב בקנה מידה. כפל בקבוע או שינוי גודל לא משנה את היחסים בין הסטיות ולכן r זהה. זוהי אחת הסיבות ש־r נקרא מדד “מנורמל”.
Question 7
3.33 pts

📊 שאלה 7 — קשר שלילי כמעט מושלם:
הגרף מראה קו ישר יורד עם פיזור כמעט אפסי.

איזה r ייתכן?

Explanation:
קשר שלילי כמעט מושלם פירושו r קרוב ל־-1. הערך -0.98 מתאים לנתונים שבהם כמעט כל הנקודות על קו יורד. טעות נפוצה: לחשוב שקשר שלילי חייב להיות “חלש” — ממש לא.
Question 8
3.33 pts

🧠 שאלה 8 — קשר לא מונוטוני:
בגרף רואים ש־Y גדל עם X בתחילה, ואז מתחיל לרדת. איזה r יתקבל?

Explanation:
זהו קשר לא מונוטוני (לא תמיד עולה ולא תמיד יורד). פירסון מחפש תבנית של “ככל ש־X עולה Y עולה/יורד”. כאן יש שני חלקים הפוכים → המכפלות מבטלות אחת את השניה → r קרוב לאפס. רוב הסטודנטים טועים ומנחשים מתאם חיובי “כי בהתחלה זה עולה”.
Question 9
3.33 pts

🧮 שאלה 9 — מדגם קטן במיוחד:
יש רק 3 זוגות נתונים. מה נכון לגבי r?

Explanation:
אפשר לחשב r גם ב־3 נקודות — אבל הוא קיצוני ורגיש. נקודה אחת יכולה להפוך מגמה. שגיאה נפוצה: לחשוב שמדגם קטן "מגדיל" את r — לא נכון, הוא פשוט הופך אותו לבלתי יציב.
Question 10
3.33 pts

📊 שאלה 10 — נקודות צפופות באמצע:
בגרף הנקודות רובן מרוכזות באמצע, אך יש כמה נקודות רחוקות בפינות.

מה צפוי לקרות ל־r?

Explanation:
כאשר רוב הנתונים צפופים אך יש מספר נקודות רחוקות, אלה מושכות את הקו ופוגעות בישרות → r יורד. הטעות הקלאסית של תלמידים: “הרוב קובע”. בפועל — הנקודות הרחוקות חזקות יותר מ"רוב".
Question 11
3.33 pts

📈 שאלה 11 — קשר חזק אך עם שני Outliers מנוגדים:
בגרף רואים קו כמעט ישר עולה, אך בקצה שמאל למטה ובקצה ימין למעלה יש שתי נקודות קיצון הפוכות.

מה צפוי לקרות ל־r?

Explanation:
כאשר יש שני outliers הפוכים — אחד מושך את הקו כלפי מעלה והשני כלפי מטה — שניהם ביחד פוגעים בצורה חמורה בישרות, ולכן r יורד בצורה גדולה. טעות נפוצה: לחשוב ש”outlier אחד מנטרל את השני”. בפועל — שניהם מזיקים למתאם.
Question 12
3.33 pts

📉 שאלה 12 — שונות שונה מאוד בין X ל־Y:
ל־X שונות עצומה (ערכים 1 עד 1,000). ל־Y שונות קטנה (ערכים 10 עד 12). אך מבנה הקשר ליניארי. מה יקרה ל־r?

Explanation:
r אינו מודד קנה מידה — הוא מנרמל את הסטיות במונחים יחסיים ולא מוחלטים. לכן גם אם X פוחת ו-Y כמעט קבוע — אם המבנה הוא קווי, r יהיה גבוה מאוד. שגיאה נפוצה: “אם X מפוזר ו-Y לא — אין קשר”. בפועל r רגיל לזה.
Question 13
3.33 pts

🧠 שאלה 13 — שני משתנים עם מדגם קטן + Outlier:
במדגם של 4 נקודות, שלוש נקודות מראות מגמה עולה, ואז נקודת Outlier אחת הפוכה לגמרי.

מה נכון?

Explanation:
במדגמים קטנים אפילו נקודה אחת יכולה להפוך את הסימן ולהפיל את הישרות. זו תכונה ידועה: r במדגם קטן אינו יציב בכלל. טעות נפוצה: לחשוב ש”הרוב קובע”. בפועל — נקודת outlier מקבלת משקל גדול יותר.
Question 14
3.33 pts

📈 שאלה 14 — קשר מושלם בתיאוריה, אבל עם רעש אקראי קטן:
הקשר בין X ל־Y מוגדר על ידי Y = 3X במדויק, אבל המדידות בפועל מכילות רעש קטן כך שיש פיזור זעיר.

מה יקרה ל־r?

Explanation:
קשר מושלם בתיאוריה + רעש קטן = r גבוה מאוד אך לעולם לא בדיוק 1. בנתונים אמיתיים כמעט אי אפשר לקבל 1. טעות נפוצה: לחשוב ש”קשר ליניארי” = r=1. רעש קטן מוריד מעט את r — וזה תקין.
Question 15
3.33 pts

🔄 שאלה 15 — הפיכת כל ערכי Y ל־1/Y:
אם הופכים את הערכים באמצעות פונקציה לא ליניארית (לדוגמה 1/Y), מה קורה ל־r?

Explanation:
טרנספורמציה לא ליניארית (כמו 1/Y) משנה את מבנה הקשר. אם הקשר היה קווי — הוא עלול להיהרס. r מודד רק קשר קווי ולכן עשוי לצנוח. זוהי בדיוק הסיבה שעושים לפעמים לוג או שורש — כדי לתקן קשר לא קווי.
Question 16
3.33 pts

📊 שאלה 16 — קשר מדומה (spurious correlation):
מתקבל r גבוה בין מספר מקררי הגלידות בעיר לבין ציוני מתמטיקה.

מה ההסבר הנכון?

Explanation:
לעיתים שני משתנים עולים ביחד בגלל גורם שלישי (אוכלוסייה/אקלים וכו). r אינו אומר “מי גורם למי”. r גבוה ≠ סיבתיות. זוהי אחת הטעויות הנפוצות ביותר בסטטיסטיקה.
Question 17
3.33 pts

📉 שאלה 17 — קשר שלילי אך עקום:
הנקודות יוצרות צורה של ירידה מתונה ואז נפילה חדה. מה יהיה r?

Explanation:
כיוון שלילי קיים — אבל הוא לא קווי. בחלק הראשון הירידה מתונה, בסוף תלולה. זה גורם למכפלות לא רציפות → r שלילי אבל קרוב לאפס ולא גדול בערך מוחלט. תלמידים רבים טועים ומנחשים r≈-0.9 “כי זה יורד חזק”. אבל זה לא קו ישר.
Question 18
3.33 pts

🧮 שאלה 18 — שינוי סקאלה לא אחיד:
X מוכפל ב־2, אבל Y מוכפל ב־3. מה קורה ל־r?

Explanation:
גם אם כל משתנה מוכפל בקבוע אחר, אמרנו: r מנרמל כל משתנה לפי סטיית התקן שלו. לכן כפל בקבועים שונים לא משפיע עליו כלל. טעות נפוצה: לחשוב ש”Y גדל יותר → r גדל יותר”. לא נכון.
Question 19
3.33 pts

📊 שאלה 19 — נתונים על שני תחומים שונים:
משווים בין הסכמה בין משקל ותצרוכת דלק של רכבים; ובין זמן לימוד וציון במבחן. בשניהם r≈0.75.

מה זה אומר?

Explanation:
r הוא מדד מתמטי טהור — הוא מתייחס לצורה הקווית בלבד. לכן אפשר להשוות אותו בין כל שני משתנים כמותיים. המשמעות: בשני המקרים החוזק הקווי דומה. אך חשוב: r לא מספר לנו שום דבר על סיבתיות.
Question 20
3.33 pts

🧠 שאלה 20 — מה קורה אם מוסיפים נתונים זהים לגמרי?
מוסיפים לכל זוג הנתונים זוג חדש שהוא בדיוק אותו זוג (שכפול). מה יקרה ל־r?

Explanation:
אם מכפילים את הנתונים (פשוט מוסיפים עוד העתק של אותו מבנה), המבנה היחסי לא משתנה ולכן r לא משתנה כלל. טעות נפוצה: “יותר נתונים = יותר r”. לא נכון — איכות המבנה קובעת, לא הכמות.
Question 21
3.33 pts

📉 שאלה 21 — נתונים מפוצלים לשתי קבוצות:
בגרף רואים שתי קבוצות נפרדות: קבוצת נקודות עולה, וקבוצת נקודות יורדת. כאשר מסתכלים על שתי הקבוצות יחד — הקשר נראה כאילו אין מגמה ברורה.

מה צפוי לקרות ל־r?

Explanation:
כאשר שני חלקים של הנתונים מראים כיוונים הפוכים — אחד חיובי ואחד שלילי — המכפלות במונה של r מתאפסות זו עם זו. התוצאה: r≈0 למרות שיש קשר חזק בתוך כל קבוצה. זוהי תופעה ידועה בסטטיסטיקה: קשר גלובלי “נעלם” בגלל תת־קבוצות.
Question 22
3.33 pts

🧮 שאלה 22 — קשר חיובי אך מנהלי (non-linear monotonic):
הגרף עולה כל הזמן, אך בצורה קעורה (כמו שורש). מה יהיה r?

Explanation:
קשר שעולה תמיד (מונוטוני) אבל בקצב משתנה (לא קו ישר), יוצר מתאם חיובי גבוה אך לא מושלם. פירסון “מסתדר” עם קשר עולה, אבל “נפגע” מחוסר קוּוּת. לכן r גבוה אך מתחת ל־1.
Question 23
3.33 pts

📈 שאלה 23 — קשר המושפע ממשתנה שלישי (הטיית מתאם):
הקשר בין X ל־Y נראה חיובי וחזק (r≈0.8). לאחר בדיקה מתגלה שמשתנה Z גורם לשניהם לעלות יחד. מה המשמעות?

Explanation:
כשמשתנה שלישי Z גורם ל־X ול־Y לעלות יחד, r עשוי להיות גבוה בלי קשר אמיתי בין X ל־Y. זה נקרא קשר מדומה (spurious correlation). טעות נפוצה: “אם r גבוה — יש סיבתיות”. לא נכון. ייתכן מתאם חזק שנובע רק מגורם משותף.
Question 24
3.33 pts

🧠 שאלה 24 — עוצמת קשר מול שונות:
ל־X שונות ענקית, ל־Y שונות קטנה מאוד. אך למרות זאת, r≈0.90. מה זה מלמד?

Explanation:
פירסון r מנרמל כל משתנה בסטיית התקן שלו. כלומר, הוא בודק קשר בקני מידה יחסיים ולא מוחלטים. גם אם X “עצום” ו־Y “קטן”, אם שתי קבוצות הסטיות מסודרות קווית — r יהיה גבוה. לכן שונות גדולה/קטנה לא משנה את הכיוון או החוזק.
Question 25
3.33 pts

📊 שאלה 25 — חיבור שתי קבוצות:
שתי קבוצות של נתונים מראות קשר חיובי חלש בתוך כל קבוצה (r≈0.20). אך כאשר מאחדים את שתי הקבוצות — מתקבל r≈0.75.

מה קורה כאן?

Explanation:
זהו פרדוקס סימפסון: כאשר מאחדים קבוצות, היחסים בין הסטיות משתנים — ולכן r יכול להשתנות בצורה דרמטית. לפעמים אפילו מתאם שלילי בקבוצות ייצור חיובי בפועל. זוהי אחת התופעות החשובות ביותר בסטטיסטיקה.
Question 26
3.33 pts

📉 שאלה 26 — קשר קווי כמעט מושלם אבל X כולל כמה ערכים זהים:
בחלק מהמדגם X=5 מופיע מספר פעמים, אבל Y משתנה. מה צפוי לקרות ל־r?

Explanation:
אין בעיה בכך שחלק מה־X חוזרים על עצמם. r בודק עד כמה הנקודות מסתדרות על קו — אם הקשר הכללי ליניארי, r נשאר גבוה. טעות נפוצה: “אם יש ערכים זהים — הקשר נחלש”. לא נכון.
Question 27
3.33 pts

📈 שאלה 27 — קשר ליניארי אבל רעש אקראי חזק:
הגרף עולה בצורה כללית, אבל יש פיזור משמעותי סביב הקו.

מה צפוי להיות r?

Explanation:
רעש חזק = סטיות גדולות מהממוצע → המכפלות לא יציבות → r יורד. אבל אם יש מגמה ברורה, עדיין נקבל ערך חיובי. הרבה תלמידים טועים וחושבים: “רעש = אין קשר”. לא נכון. רעש מחליש, לא מבטל.
Question 28
3.33 pts

🔄 שאלה 28 — היפוך סימן רק בחלק מהמדגם:
בחצי הראשון של המדגם הקשר חיובי. בחצי השני של המדגם הקשר שלילי. מה צפוי להיות r הכולל?

Explanation:
כאשר שני החלקים מושכים בכיוונים הפוכים, הרבה מהמכפלות \((x-\bar{x})(y-\bar{y})\) מתבטלות אחת עם השנייה. התוצאה: r≈0. חשוב: זה לא אומר שאין קשר — רק שאין קשר קווי אחד.
Question 29
3.33 pts

📊 שאלה 29 — האם r מושפע מיחידות המדידה?
משנים את Y ממטרים לסנטימטרים (כפול 100). מה קורה ל־r?

Explanation:
r אינו מעניין אותו באילו יחידות המדידה משתמשים — הוא מנרמל את כל הערכים לפי סטיות התקן. לכן כפל בקבוע לא משנה את r. זו תכונה חשובה ביישומי מדע וחקר נתונים.
Question 30
3.33 pts

📉 שאלה 30 — קשר הפוך בקצוות:
כשה־X קטן — Y גדול. כשה־X בינוני — Y קטן. כשה־X גדול — Y שוב גדול.

איזה r יתקבל?

Explanation:
זהו קשר בצורת ∩ — מגעיל לפירסון 😅 כי הוא לא עולה ולא יורד בצורה עקבית. המכפלות פעם חיוביות, פעם שליליות → הרבה ביטולים → r≈0. טעות נפוצה: לחשוב ש”יש סיפור יפה בנתונים” → r גבוה. אם הסיפור לא קווי — r לא מבין אותו.