התחלנו עם 27-27 סיימנו עם 24-30 (על פיספוסי התחזיות והאפשרות של זיוף בתוצאות הבחירות)

פוסט אורח של פרופסור קמיל פוקס על המרחק בין מדגמי הטלוויזיה לתוצאות האמת (הפוסט עודכן ב- 2015-07-27)

תזכורת: תחזיות מדגמי הטלוויזיה בשעה 10 בליל הבחירות הצביעו על שיוויון או כמעט שיוויון בין הליכוד למחנה הציוני (27-27 בערוצים 1 ו 10, 28-27 בערוץ 2). בתום ספירת הקולות התברר שהליכוד קיבל 30 מנדטים לעומת 24 למחנה הציוני. התחזיות עבור שאר המפלגות היו די מדויקות. ללא ספק, מבחינה פוליטית, תחזית שגויה. ובמידה פחותה אך משמעותית, התחזית די שגויה גם מבחינה סטטיסטית.

 

תחזיות ליל הבחירות עוררו שאלות מטרידות: איך קרה שהתחזיות סטו דווקא במפלגות הגדולות בכשלושה מנדטים לכל כיוון בעוד שהתחזיות ליתר המפלגות היו די קרובות לתוצאות הבחירות? וגם, איך קרה שהסטיות בשלושת הערוצים היו לאותן המפלגות ובאותו סדר גודל? התופעה הצליחה לעורר תהיות גם בקרב אנשים קרובים שחלקם אפילו העלו השערות שהתוצאות שונו על ידי יד זדונית.

שאלות טובות שמצדיקות ניתוח ותשובה. חלק מהתשובה טמונה בתוצאות ההצבעה ב 10,119 הקלפיות. 70 קלפיות מתוכן היוו את מדגם הטלוויזיה של ערוץ 10. התחזית שפורסמה בשעה 10 בליל הבחירות הייתה תוצאה של הרצת המודל הסטטיסטי על תשובות משתתפי במדגם באותן 70 קלפיות. כעת, כאשר בידינו נתוני ההצבעה של באותן 70 הקלפות ("תוצאות האמת"), הרצנו עליהן את המודל הסטטיסטי שהניב את התחזית של השעה 10. התוצאות היו בכדלקמן: הליכוד 30 מנדטים, המחנה הציוני 24, הרשימה הערבית המשותפת 12, יש עתיד 11, כולנו 10, הבית היהודי, ישראל ביתנו, ש"ס ואגודת ישראל 7 מנדטים כ"א, מרצ 5 (ראה צילום פלט המחשב). תחזית טובה לכל הדעות. אגב, בזאת, לדעתי, גם מופרכת ההשערה של מניפולציה ששינתה את התוצאות. הרי הניתוח הסטטיסטי של אותן 70 הקלפיות הניב תוצאה קרובה מאד לתוצאות הבחירות. והרי לא סביר שמישהו חיבל דווקא בתוצאות של אותן הקלפיות הספציפיות.

pic1

מסתבר שבמעבר בין תוצאות המשתתפים במדגם הטלוויזיה לתוצאות האמת של אותן הקלפיות שלושה מנדטים נעו מהמחנה הציוני לליכוד. במלים אחרות, במצב אידיאלי, לו כל המצביעים בקלפיות הטלוויזיה היו מסכימים להשתתף במדגם ולו תשובת כולם לשאלה "עבור מי הצבעת?" הייתה תשובת אמת, אזי התחזית שהייתה מתפרסמת הייתה בדיוק התחזית דלעיל.

לא מיותר לציין שהמרכיבים התחזית שבשליטת הסוקרים הם בחירת קלפיות המדגם וניתוח התוצאות. מה שכמובן לא בשליטתם הן תשובות המצביעים באותן הקלפיות. ברור שכאשר התפלגות הצבעתם של המסרבים להשתתף במדגם שונה מזו של משתתפי המדגם, נגרמת הטייה בתחזית. וכאשר שם המפלגה הנמסר לפוקד שונה משם המפלגה אליה הצביעו, נגרמת הטייה נוספת.

בבחירות קודמות התפלגות התוצאות של משתתפי קלפיות המדגם דמתה מאד להתפלגות ההצבעה בפועל באותן הקלפיות. הסטיות התאפיינו בעיקר במגזרים מוגדרים באוכלוסייה, כמו חרדים, עולים וערבים. אלה סטיות הניתנות להערכה סטטיסטית וניתן להתחשב בהשפעתן בעת חישוב התחזית. יתר על כן, בדרך כלל הסטיות היו ממוקדות בקלפיות מסויימות.

לא כן הפעם. נסתכל בתוצאות של שתי המפלגות בהן עסקינן. בעת סגירת 70 הקלפיות שבמדגם הטלוויזיה של ערוץ 10 (בשעה 20:45), מספר המצביעים בפועל עבור הליכוד והמחנה הציוני היו 6692 ו 5922, בהתאמה, הפרש של 770 קולות לטובת הליכוד. לעומת זאת, במדגם הטלוויזיה באותן הקלפיות 4414 אמרו שהצביעו ליכוד לעומת 4700 שאמרו שהצביעו המחנה הציוני, הפרש של 286 קולות לטובת המחנה הציוני.

במלים אחרות, גם מספר ניכר של מסרבים וגם התברר בדיעבד שבין משתתפי המדגם, שיעור האומרים שהצביעו עבור המחנה הציוני היה גדול משמעותית משיעור האומרים שהצביעו ליכוד. אולי רק בגלל שאכן התפלגות הצבעתם של המסרבים הייתה שונה משמעותית מזו של המשתתפים. ואולי גם בגלל שבין המשתתפים שהצבעתם בקלפי לא תאמה את אמירתם, היו לא מעט מצביעי ליכוד שהפכו במדגם למצביעי המחנה הציוני.

אין כמובן דרך להפריד במדוייק בין השפעת המסרבים להשפעתם של אלה ששינו את צורת הצבעתם בדרכם לפגישה עם פוקד הטלוויזיה. אבל ניתוח נתונים מאפשר הערכה של סידרי הגודל של ההשפעות.

נתחיל בנושא המסרבים: עד לסגירת 70 הקלפיות שהיוו את מדגם הטלוויזיה של ערוץ 10, נרשמו על ידי הסוקרים 27,372 מצביעים, ומתוכם 21,193 השתתפו במדגם והסוקרים וציינו את המפלגה לה הצביעו. דהינו, 23% מהצביעים סירבו להשתתף במדגם. בעת ספירת כלל הקולות באותן הקלפיות נרשמו 29,812 מצביעים.

הטבלה הבאה מציגה את תוצאות קיבוץ הקלפיות לפי שיעורי ההצבעה לליכוד (לפי מה שמשתתפי המדגם אמרו לסוקרים) ואת ממוצעי שיעורי המסרבים באותן הקלפיות:

שיעור מצביעי ליכוד 0%-10% 11%-20% 21%-30% 31%-40% מעל 40%
ממוצע אחוז מסרבים 18% 18% 26% 27% 28%

 

בכלל 70 הקלפיות, מקדם המתאם בין שיעורי ההצבעה לליכוד ובין שיעורי המסרבים באותן הקלפיות הוא 0.34+, שהוא כמובן מאד מובהק (p-value=.004). מאידך, מקדם המתאם בין מספר המצביעים ובין שיעורי ההצבעה לליכוד באותן הקלפיות הוא 0.06-, שהוא שלילי ומאד לא מובהק (p-value=.594).

במלים אחרות, לא עומס בקלפיות גרם לשיעור גבוה של מסרבים, וסביר שהייתה קורלציה בין הנטייה לסרב להשתתף במדגם לבין הנטייה להצביע עבור הליכוד.

וכעת לנושא התופעה של השינוי הוירטואלי של ההצבעה בדרך בין חדר הקלפי למועד הפגישה עם פוקד הטלוויזיה: כמובן, אין כל אפשרות לאמוד את היקף התופעה. לא נוכל אפילו להגיד ברמה מוחלטת של וודאות שאכן הייתה תופעה כזאת.  אך יש סימוכין לכך שהפעם הייתה כוונה מאורגנת לפגוע בתחזית  הטלוויזיה, כחלק מהפגיעה בתקשורת. הודעת וואטס-אפ שהסתובבה אצל רבים נוסחה כך: "בא לכם להראות לתקשורת שהיא לא קובעת את סדר היום ולא תוכל לחגוג כרצונה? ביום הבחירות אם יש מחוץ לקלפי שלכם קלפי של מדגם הטלוויזיה פשוט תשימו בה פתק הפוך ממה ששמתם בקלפי!! ורצוי פתק של מפלגת שמאל, כל שהתקשורת תלך לישון עם הדמיונות שלה ותקום עם המציאות שלנו. העתבק. להפיץ בכל הקבוצות!!!". (ראה צילום למטה).

pic

כמובן, זכותם של המסרבים לסרב, וגם זכותם של המשתתפים במדגם שרוצים בכך, להטות בכוונה את התחזית. זה כמובן עצוב, אבל זו המציאות.

עלינו להכיר אם כן בעובדה שבמיוחד בעת הזאת של מדיה חברתית, תיתכן פגיעה מכוונת ורבת היקף באמינות הסקרים, גם כאשר לתוצאות הסקר אין כל השפעה על החיים. סתם, כדי להוכיח שיכולים. נצטרך לחקור את התופעה ובמידת האפשר לבנות את הכלים המדעיים כדי להקטין את נזקה.

לסטטיסטיקאים ולחוקרי מדעי המדינה זה עשוי להיות מקרה מחקר חשוב ומרתק. עצוב, אך בכל זאת חשוב ומרתק. ובאשר להשפעות עתידיות על אמינות הסקרים, אני מציע שנצפור צפירת הרגעה. למרות הכל, לדעתי לפחות, זה היה מקרה מיוחד.

ראוי גם לציין את השפעתו של האילוץ לסגור את קלפיות המדגם לפני שמסתיימת ההצבעה בקלפיות. זהו אילוץ הנוכח בכל מערכות הבחירות, אך ניראה שהפעם השפעתו הייתה חריגה, הן בגלל היקף ההצבעה בשעות האחרונות והן בגלל התפלגות ההצבעה המשוערת באותן השעות.

ואכן, לפי נתוני הועדת הבחירות המרכזית, בבחירות האחרונות 13.1% מכלל המצביעים הצביעו בין השעות 20:00-22:00. זהו שיעור גבוה וחריג. בבחירות הקודמות מ 2013,  רק 4.4% מכלל המצביעים הצביעיו באותן השעות. בממוצע על פני 13 מערכות בחירות בין 1973 ל 2013, שיעור המצביעים בשעתיים האחרונות לפני סגירת הקלפיות עמד על 8.8%.

כעת, במדגם הטלוויזיה, עד לשעה 20:45, נרשמו  27,372 מצביעים ב 70 הקלפיות שבמדגם (משתתפים במדגם ומסרבים). באותן הקלפיות, בתוצאות האמת הסופיות היו 29,372 מצביעים, דהינו 8.2% מהמצביעים הצביעו באותן הקלפיות תוך שעה ורבע, עד 22:00.

אין כמובן דרך לוודא את התפלגות הצבעתם של המצביעים שהצביעו לאחר 20:45, אך ניתן לקבל אינדיקציה לגבי המגמה מתוך ניתוח הדיווחים על התפלגות ההצבעה לאורך היממה. בקלפיות של ערוץ 10, דווחו הנתונים שבע פעמים במשך יום הבחירות. בפעם השביעית והאחרונה דווחו הנתונים על המצביעים שבין השעות 20:00 ל 20:45.

להלן האחוזים של אלה שציינו בפני הסוקרים שהצביעי עבור הליכוד בדיווחים השונים. האחוזים הם מקרב המשתתפים במגדם (להוציא מסרבים):

דיווח שביעי דיווח שישי דיווח חמישי דיווח רביעי דיווח שלישי דיווח שני דיווח ראשון
26% 24% 23% 19% 20% 20% 21%

בהינתן המגמה הברורה, לא בלתי סביר להניח שאחרי 20:45, שיעור המצביעים עבור הליכוד היה שיעור גבוה במיוחד ואולי אף גבוה מהערך המירבי שבטבלה. שוב תופעה חריגה בעוצמתה לעומת מערכות הבחירות הקודמות.

לבסוף, מספר מלים על ההבדל בין הטעות הפוליטית והטעות הסטטיסטית בתחזית ליל הבחירות. נדמיין תחזית בבחירות האחרות עם 30 מנדטים לליכוד, 27 מנדטים למחנה הציוני ו 8 מנדטים ליש עתיד (לעומת 30, 24, 11 בתוצאות הבחירות). מבחינה פוליטית, הטעות הייתה יותר נסבלת, בכל זאת תחזית נכונה של נצחון הליכוד. מבחינה סטטיסטית, זו תחזית באותו סדר גודל כמו התחזית המקורית (ואפילו קצת יותר גדולה).

 

ייעוץ סטטיסטי חינם – מסמינר המעבדה לסטטיסטיקה באונ' ת"א

במהלך הסמסטר (2015 ב') יינתן ייעוץ סטטיסטי ללא תשלום על ידי תלמידי תואר שני בסטטיסטיקה ובביוסטטיסטיקה במסגרת הקורס סמינר המעבדה לסטטיסטיקה.

השירות כולל:

  • תכנון הניסוי ואיסוף הנתונים
  • בחירת גישה לניתוח הנתונים
  • ניתוח הנתונים
  • הצגת התוצאות

להרשמה למפגש ייעוץ:

שלחו אלי בהקדם דוא"ל ל [email protected]  עם תיאור קצר של הבעיה ושל הנתונים. הייעוץ יונחה על ידי צוות המעבדה לסטטיסטיקה בבית הספר למדעי המתמטיקה. שימו לב: מספר הבקשות שנוכל להיענות להן מוגבל.

בברכה,

פרופ' דניאל יקותיאלי

ראש המעבדה לסטטיסטיקה

פוסט מורטם – מרחק הסקרים מתוצאות האמת

התחלתי את האתר סקר רע לפני כשלושה חודשים במטרה לעודד הצגה תקינה של סקרים בתקשורת, ולדון ביתרונות והמגבלות של כלי זה בפוליטיקה הישראלית. בפוסט זה אני לא אדון בפוליטיקה של הדבר, אלא אציג את הסקרים ברגע האחרון למול תוצאות האמת, כדי שנראה מה בהם יצא דומה ושונה.

אתמול אזרחי ישראל יצאו להצביע בהמוניהם (71.8%, אחוז ההצבעה הגבוה מאז 1999). ביום שישי פירסמתי פוסט שמסכם את תוצאות הסקרים בשבועיים של עד לפני הבחירות, כדי להדגים מה הסקרים "רואים" נכון ללפחות מועד פירסומם האחרון. הנה הצגה של תוצאות האמת (נכון ל- 99% קלפיות שנספרו), למול חציון תחזיות הסוקרים על פני השבועיים שלפני הבחירות:

2015-03-20 10_04_34-Clipboard

אפשר להבחין בשלושה הבדלים משמעותיים:

  1. הליכוד זינק מ- 22 מנדטים ל- 30. סביר שאלו 4 המנדטים של הבית היהודי ושאר ה-4 מנדטים, זה כנראה פיזור יותר מרוכזהיו הליכוד זכה היה סחף משמעותי של קולות מהבית היהודי לליכוד.
  2. הבית היהודי איבד 4 מנדטים מ- 12 ל- 8
  3. מפלגת יחד לא הצליחה לעבור את אחוז החסימה וקרסה מ-4 ל-0 מנדטים (היא זכתה רק ל- 2.98%, כשסף המטרה היה 3.25%). זה פיזר עוד 4 מנדטים מסביב (כאשר יותר מריכוז הקולות שנותרו הלך כנראה לליכוד).

למרות ההבדלים – התוצאות יצאו קרובות מאד. דרך פשוטה לתאר את הקשר זה עם הקורלציה של פירסון (נתעלם מסוגיות התלות וכו' של נתונים מנדטים), מקבלים קורלציה של 0.949 (זה כמעט זהה לתוצאות של תחזית אחד הסקרים עבור תוצאות הבחירות ב-2013 – שם הקורלציה הייתה 0.949). דרך נוספת היא לקחת את ממוצע הפרש הערך המוחלט של המנדטים – שהוא 1.8. להלן תרשים פיזור המציג את הקשר הלינארי בין תחזיות הסקרים לבין תוצאות האמת (סימנתי את שלושת המקרים הקיצוניים בנקודות אדומות):

2015-03-20 10_04_54-Clipboard

 

האם יכולנו לחזות מראש את התוצאות שקיבלנו?

כן ולא.

כן:

מצד אחד, את התוצאות של רוב המפלגות הסקרים הצליחו לחזות מאד מדוייק.

במקרה של מפלגת יחד, היה ברור שהיא כל הזמן על סף החסימה (4 מנדטים), ולכן הסיכון שהיא לא תיכנס היה ברור (למרות שבכל הסקרים בשבועיים שלפני היא הצליחה להכנס לכנסת).

לא:

את מעבר הקולות מהבית היהודי לליכוד היה אפשר להתחיל לראות בשבוע שלפני הבחירות, אם היינו מסתכלים על מגמות הסקרים של השבוע האחרון:

2015-03-18 15_15_13-Clipboard

 

אבל אני לא יכול לטעון שהמגמה שראינו הייתה כל כך קיצונית שמראש היה ברור שלשם אנו הולכים (היו מגמות עליה גם למחנה הציוני ולכולנו של כחלון – והם בסוף נשארו בטווח שנחזה מראש).

האם הסקרים פיספסו תופעה שכבר הייתה קיימת? אישית, קשה לי להאמין בזה. יותר סביר בעיני שהקמפיין של נתניהו בימים האחרונים הוא זה שעשה את העבודה.

עבורי, תוצאות כאלה הן תזכורת רועמת על כך שכאשר משתדלים לחזות את התנהגותם של אנשים, תמיד יש מקום לענווה רבה.

והערה קטנה לגבי סקרי דעת הקהל ביציאה מהקלפיות: אין לי מושג מדוע בהן היה 27 לליכוד ולמחנצ, כשבפועל היה כזה פער. את זה אני באמת שלא מבין, ומחכה להארות מהסוקרים.

אחוז המצביעים – לפי שעה ביום

מסקנות מהפוסט: אם אתם רוצים להצביע בלי לעמוד בטור, כנראה שעדיף להצביע בין 14:00 ל- 18:00 בצהריים.

מחר יתקיימו הבחירות. לקראת היום המותח שמצפה לנו מחר, חשבתי שיהיה נחמד להסתכל טיפה על אחוזי ההצבעה בישראל. לדוגמא: בשביל להחליט מתי יהיה פחות תור במקום ההצבעה, או בשביל לראות מחר במהלך היום האם נראה שאחוז ההצבעה גבוה מהרגיל (מה שאני מקווה שיקרה), או לא.

נתחיל מאחוז המצביעים לפי שנה:

2015-03-16 19_24_02-Clipboard

אפשר לראות שהחל מהבחירות ב-2001 הייתה ירידה חדה באחוז ההצבעה בישראל. האחוז הנמוך שב- 2001 מוסבר, לפי הערך בויקיפדיה:

בחרם שהטילו חלק מערביי ישראל על הבחירות, בשל אירועי אוקטובר 2000 שרבים מקרב האוכלוסייה הערבית ראו את אהוד ברק כאחראי להם, בעובדה כי הבחירות לא נערכו לכנסת אלא רק לראשות הממשלה, דבר שהביא לאי השתתפותו של "המצביע הסקטוריאלי", ובצפי ששרון ינצח בבחירות בכל מקרה, כך שההצבעה לא תועיל.

בשל האופי השונה של מערכות הבחירות השונות, נתמקד בלהציג את הנתונים רק של 2003 והילך. בטבלה הבאה מוצגים אחוז המצביעים שיצאו להצביע בכל שעה, לפי שנה. לדוגמא: ב- 2003, בשעה 12 (כלומר בין 10:00 ל- 12:00) הצביעו 13.9% מבעלי זכות הבחירה. הנה הנתונים:

שעה 2003 2006 2009 2013
10 10.1 9.9 10.3 11.4
12 13.9 11.8 13.1 15.3
14 11.3 9.2 10.6 11.6
16 8.9 8.1 7.9 8.3
18 8.6 8 8.4 8.9
20 10 10 9.4 8.2
22 5 6.2 5.5 2.9

והנה תרשים של הטבלה:

2015-03-16 19_35_29-Clipboard

 

אפשר לראות שרוב האנשים מצביעים בין השעות 10:00 בבוקר ל- 12:00 בצהריים. השעות השקטות יחסית הן בין 14:00 ל- 18:00 בצהריים, ואז יש עוד זינוק קל של מצביעים בין 18:00 ל- 20:00.

הנה מספר המצביעים המצטבר לאורך שעות היום:

2015-03-16 19_40_19-Clipboard

הצבעה נעימה 🙂

נספח

באתר ווינט פירסמו טבלה עם אחוז המצביעים, לפי שעה ביום, לפי שנה. להלן הנתונים הגולמיים:

להמשיך לקרוא אחוז המצביעים – לפי שעה ביום

"איזו ממשלה אתה מעדיף שתקום אחרי הבחירות" 19% עולה על 27%

בסקר שפורסם אתמול באתר וואלה, הופיע התרשים הבא:

553263_10153796886027366_8958606933094572376_n

 

ראשית – 27% נמוך מ- 19%. וכמובן, היה נחמד לדעת לאן נעלמו עוד 18% מהאנשים. לזכות וואלה יאמר שלאחר כמה שעות (ויש לנחש, תלונות הגולשים), הם תיקנו את הגרף (למעט ה- 18%):

1872187-5

 

 

חשוב להדגיש שתוצאותיהן של כל סקרי הבחירות ששודרו או פורסמו עד ליום שישי הם כבר לא עדכניים ואין ללמוד מהם על דפוסי הצבעה או עמדות של הציבור היום או ביום הבחירות.