סטטיסטיפדיה – תחרות לכתיבת ערכים בנושא סטטיסטיקה עבור הוויקיפדיה העברית

statistipedia_banners

סטטיסטיפדיה היא תחרות נושאת פרסים של כתיבת ערכים בנושא סטטיסטיקה והסתברות עבור הוויקיפדיה העברית. התחרות נערכת בהשראת תחרות דומה בתחום הפיזיקה – פיזיוויקי. מטרת התחרות היא להנגיש ערכים בנושאים אשר מופיעים בקורסי מבוא לסטטיסטיקה בסיסיים.

במטרה להרחיב ולשפר את היצע הערכים העוסקה בסטטיסטיקה והסתברות בויקיפדיה העברית, האיגוד הישראלי לסטטיסטיקה גאה להכריז על תחרות סטטיסטיפדיה. התחרות תתחיל ביום הסטטיסטיקה הבינלאומי ב- 20 לאוקטובר, ותימשך חודשיים עד לסיומה.

התחרות זוכה לחסות ותמיכה מעמותת ויקימדיה ישראל, בית הספר למדעי מתמטיקה באוניברסיטת תל אביב וחברת איסתרא מחקר. פרסים כספיים בשווי של 8,000 שקלים יחולקו לזוכים:

  1. פרס ראשון בסך 3000 ש"ח,
  2. פרס שני של 2000 ש"ח,
  3. ועוד 6 פרסי הוקרה בסך 500 ש"ח האחד.

הפרסים הראשון והשני יוענקו לכותבי הערכים הטובים ביותר, וששת הפרסים על סך 500 ש"ח יוענקו או לכותבי ערכים טובים או לעורכים אשר תרמו משמעותית להכי הרבה ערכים (פרטים מדוייקים והרשמה מופיעים בדף התחרות). הערכים שייכתבו עבור התחרות ייבדקו מדעית על ידי תלמידי מחקר וחברי סגל, וידורגו לפי איכותם המדעית וכן על פי נגישותם לקהל הרחב.

סטטיסטיקה חשובה לאזרח בעידן המודרני כדי לפרש ולהפעיל חשיבה ביקורתית על זרם הטענות והנתונים המגיעים אליו בתקשורת ובכלל התרבות, החל בתוצאות מחקרים רפואיים וכלה בסקרי בחירות. מטרת התחרות היא לסייע ולהנגיש את עולם הסטטיסטיקה לדורות של תלמידי תיכון וסטודנטים בשפה העברית. אנו רוצים להכין את הקרקע כך שלתלמידי תיכון וסטודנטים יהיה משאב ציבורי וחופשי המסביר במקצועית ובפשטות מושגים יסודיים מהתחום.

בסיום התחרות מתוכנן כנס סיום בו יוכרזו הזוכים. הכנס יתקיים בבית הספר למדעי המתמטיקה באוניברסיטת תל אביב.

שופטים:

  • ד"ר תמר גדריך, מכללת אורט בראודה
  • ד"ר דוד עזריאל, טכניון
  • פרופ' עוזי וישנה, אוניברסיטת בר-אילן
  • טל גלילי, אוניברסיטת תל אביב.

מארגנים:

  • טל גלילי, אוניברסיטת תל אביב
  • אבנר קנטור, עמותת ויקימדיה ישראל ואוניברסיטת חיפה

לפרטים נוספים והשתתפות, פנו לדף התחרות

(הטקסט של פוסט זה פורסם במקור באתר של האיגוד הישראלי לסטטיסטיקה, והוא משוחרר תחת רישיון שימוש CC-BY. אתם מוזמנים להפיץ את הטקסט בכל אופן שנראה לכם סביר, בבלוג, בפייסבוק – וכן הלאה)

אנשי R (בהווה ובעתיד) – בואו ניפגש

על R ועלי:  אלו מיכם שמכירים אותי אישית יודעים שאני שהאהבות הגדולות שלי בחיים (שאינם בני אדם) זה מידע פתוח, קוד פתוח, אינטרנט וסטטיסטיקה. את כל אלו אני זוכה (בצורה כזו או אחרת) לשלב דרך שפת R. R זו סביבת פיתוח, ושפת תכנות, המיועדת לתכנות סטטיסטי. התוכנה מפותחת ומופצת בקוד פתוח ומאפשרת אינספור שימושים והרחבות.

קהילות R בעולם:  באופן דומה לפרוייקטים אחרים כמו ויקפדיה וורדפרס, הפרוייקט המונומנטלי שהוא R מצליח בזכות אינספור מתכנתים וסטטיסטיקאים אשר משפרים את המערכת עוד ועוד. הקהילה של משתמשי R היא קהילה חובקת עולם עם קבוצות אשר נפגשות בערים גדולות ברחבי העולם. קבוצות מקומיות של משתמשי R מכונות גם RUG (R user group). יש רשימה של קבוצות כאלה כאן, ויש גם בלוג עם הרצאות מוקלטות ממפגשי R ברחבי העולם (כאן).

קהילת R בישראל?  ומה לגבי ישראל? בישראל יש קבוצת דיון של משתמשי R בגוגל גרופס אשר הוקמה על ידי יונתן רוזנבלט (תודה יונתן!). וגם היו שני סדנאות על R במהלך שנת 2012, אשר אורגנו על ידי איגוד הסטטיסטיקאים הישראלים (קישור). אבל זה עדיין לא קהילה.

בואו ניפגש: כדי שנהפך להיות קהילת משתמשי R בישראל, אנחנו צריכים להיפגש ולהכיר. רצוי באופן קבוע יחסית (פעם בחודש עד 4 חודשים?). מה שמוביל אותי למטרת הפוסט. אם אתם מעוניינים להיפגש עם אנשי R, אנא השאירו את פרטיכם בטופס הזה (הטופס ממוקם באתר חדש שהוקם לצורך ריכוז מידע עבור הקהילה שתתהווה). אחרי שהטופס יתחיל להתמלא, אני אוכל לקבל מושג על מי עוד "נמצא שם". ולפי זה אפשר יהיה להתחיל לתכנן מפגשים (בהתאם לרקע של האנשים שירשמו), ולגלגל את הכדור הלאה…

רצינות הבלוגר: רק כדי להבהיר שאני רציני לגבי הפוסט הזה – 1) הייתי בין המארגנים של שני כנסי קוד פתוח (וורדקמפ 2007 וורדקמפ 2008). ביוני הקרוב אני מתכנן לטוס לארה"ב לכנס useR!2012 הבינלאומי, אני מניח שבאחד ממפגשי ה- R הקרובים אני אתן הרצאה על דברים מעניינים שאגלה שם. וגם תודה לשלמה יונה (מאאוטבריין) אשר דחף אותי לקדם את הנושא, ומסייע מאד בצד הלוגיסטי והרוחני.

 

מבוא לבלוגוספירה של קהילת ה- R העולמית

בכנס האחרון של useR 2011, אשר התקיים באוניברסיטת ווריק אשר באנגליה, נתתי הרצאה זריזה של כ-5 דקות על הבלוגוספירה של קהילת ה-R העולמית (למי שלא מכיר, הנה הסבר קצר על מה זה R).

לאחרונה פנה אלי קוריאני חביב בשם צ'ל-הי-לי וביקש ממני להקליט את ההרצאה הזו על מנת שהוא יוכל להקרין אותה בכנס R שמתקיים השנה (2011) בדרום קוריאה. החלטתי לעשות זאת, והעליתי את ההרצאה (באורך של כ-7 דקות, באנגלית) לאינטרנט.

ההרצאה עוברת בזריזות על:

  • ההיקף בהתעניינות של הקהילה העולמית בבלוגרים שכותבים על R
  • על מה כותבים בלוגרי R
  • איך לעודד בלוגר שאתה מעריך לכתוב עוד
  • כיצד להתחיל בלוג R בעצמך
  • טיפים על איך לכתוב בלוג כזה
  • עצה אחת על כיצד לפרסם את הבלוג שלך (פשוט להירשם ל- r-bloggers.com)
  • שתי תחזיות קטנות לגבי העתיד של R והבלוגוספירה
תהנו:

(הפוסט הזה גם פורסם באנגלית בבלוג שלי על R)

יום עיון בנושא "יישומי סטטיסטיקה בשיווק"

אני אהיה שם.

הכנס השלישי של הקבוצה הישראלית ליישומי סטטיסטיקה בתעשייה ובעסקים – isENBIS

יום עיון בנושא "יישומי סטטיסטיקה בשיווק"

יום ראשון, י"א באייר תש"ע, 25 באפריל 2010

קריית האוניברסיטה הפתוחה ע"ש דורותי דה רוטשילד

אולם נוידרפר, דרך האוניברסיטה 1, רעננה

(הכניסה לחניה מרחוב ויצמן – צומת רעננה צפון; החניה ללא תשלום)

כניסה חופשית עם רישום מוקדם באתר http://www.kpa.co.il/isENBIS

15:00 – 14:30  התכנסות ורישום

מנחה: פרופ' דוד שטיינברג חוג לסטטיסטיקה וחקר ביצועים, בית הספר למדעי המתמטיקה, אוניברסיטת תל אביב

15:10 – 15:00 ברכות: פרופ' עירד בן גל, המחלקה להנדסת תעשייה, אוניברסיטת תל אביב,ד"ר יובל כהן, הנדסת תעשיה וניהול האוניברסיטה הפתוחה

15:40 – 15:10 רות לוריא, מנהלת המחקר, מחלקת השיווק הקמעונאי, קוקה קולה: "אם לא תשאל, איך תדע?"

16:10 – 15:40 ד"ר יובל כהן, ראש התוכנית להנדסת תעשייה וניהול, האוניברסיטה הפתוחה:"שיווק חבילות הנחה לקמעונאים עם ביקוש אקראי"

16:30 – 16:10 הפסקת קפה

17:00 – 16:30 פרופ' רון קנת KPA בע"מ, ואוניברסיטת טורינו, נשיא לשעבר של  ENBIS:"פעילויות מתוכננות של ENBIS"

17:30 – 17:00 מנו גבע, מנכ"ל מכון המחקר "מדגם" ויו"ר איגוד מכוני המחקר הישראלי:"סקרי דעת קהל ומחקרי שוק באינטרנט"

18:00 – 17:30 ד"ר דיאמנטה בנסוןקרעי, האוניברסיטה הפתוחה: "חיזוי חדירה לשוק של מוצרים חדשים בעלי עקומת ביקוש בצורת S באמצעות שיטת RMM (Response Modeling Methodology)"

פרטים והרשמה: KPA בע"מ, ת"ד 2525 רעננה 43100,

טל':  7408442 – 09, פקס': 7408443- 09  דוא"ל: [email protected]

ענת קם – הקשר בין עמדות פוליטיות לדעות על הפרשה

(אם הגעתם בשביל התוצאות, הם מופיעות בסוף הפוסט). כנסו לכאן אם ברצונכם למלא את השאלון ולהופיע שוב בניתוח המעודכן

רקע – ענת קם

חברי המלומד (והמתפלסף) טל ירון לקח על עצמו באחרונה לכתוב באריכות על ענת קם.
למי שלא הספיק להתעדכן, זה בסדר – אתם לא אמורים לדעת על זה.
ממה שהתפרסם בעיתונות ה"זרה", בארץ,  בטוויטר, בויקיפדיה (כלומר, הערך על ענת קם נמחק, אבל הדיון על המחיקה נשאר) ובבלוגוספירה בכלל (לדוגמא: פה, כאן, שם, וגם ב |||||, וגם זה וכמובן הוא וגם זה, ובטח שכחתי כמה…), נראה שהסיפור הוא ש (ואני מצוטט את טל ירון):
בהמלצת חברים – הסרתי את הטקסט עד להסרת צו איסור הפירסום

ענת קם, שהיתה חיילת בפיקוד מרכז, העבירה לאורי בלאו, כתב הארץ כאלף מכתבים, המסווגים סודי-ביותר. מתוך אלף המכתבים, הצליח הכתב אורי בלאו להשיג אישור מהצנזור לפרסם שני מכתבים. המכתבים מכילים פקודות שנתן יאיר נווה, אלוף פיקוד מרכז, לחיסול ממוקד של מבוקשים שלא לצורך, בניגוד להוראות בג"צ בעניין. ככל הנראה, מערכת הבטחון פעלה כדי לאתר את מקור המידע של בלאו. בדצמבר 2009, ענת קם, שהייתה כבר עיתונאית בוואלה, נתפסה. אורי בלאו, הכתב, ברח לבריטניה, כדי לחמוק מעדות במשפטה של קם. […]
החל מאוקטובר הוציאה מדינת ישראל (כנראה לבקשת השב"כ) בבית משפט השלום צו איסור פרסום על הפרשה.[…] אף עיתונאי לא הסכים לפרוץ את מעגל השתיקה […]. אבל הסוד לא נשמר זמן רב, מרגע שמספר בלוגרים לקחו על עצמם את היוזמה לפרסם את המידע. מרגע שזה קרה, הרשתות החברתיות התעוררו והתפוצצו במידע על הסיפור. והוא זכה לתפוצה רחבה מאד באינטרנט (חפשו בגוגל "ענת קם" ותראו כמה תוצאות תקבלו על הנושא).

(עידכון 8.4.2010: לינק למאמר בווינט בנושא)

רקע – סקר הדעות של הקוראים לגבי ענת קם

ומה בין זה לסטטיסטיקה?
ובכן, עושה רושם שהדעות בציבור לגבי הפרשה (שכמובן אף אחד לא שמע עליה), הן חלוקות. יש אנשים שהם בעד ענת קם ויש אלו שנגד, בעד אורי בלאו, ויש נגד, בעד יאיר נווה, ויש נגד.
ההגיון דורש שיהיה קשר בין העמדות הפוליטיות העקרוניות של האנשים לבין התפיסה שלהם את הפרשה המסויימת הזו. את הקשר הזה ביקש טל ירון לגלות באמצעות עריכת "סקר משפט ציבורי" בנושא של ענת קם וסביבותיה. נכון לרגע זה כ- 78 איש ענו על הסקר (אני, אגב, לא עניתי). ואת הניתוח הסטטיסטי של הסקר נתבקשתי לבצע – ואבצעו כאן כעת.

ניתוח סטטיסטי של הסקר

אז לפני שנפנה להציע ניתוח של הסקר, נאמר מילה על מה אפשר לקבל ממנו: הסקר לא מייצג נאמנה אף "קהל" מלבד קהל הקוראים של הבלוג של טל ירון. להניח שהקהל הזה איכשהו מייצג את האוכלוסיה הרחבה זה יהיה גוזמה לא ריאלית. גם הקשרים הסטטיסטיים שיתקבלו בין המשתנים עשויים להיראות אחרת אילו הסקר היה מוצג לאוכלוסיה הרחבה (ואני לא אכנס היום להסבר מדוע), מה שאומר שהסקר הזה הוא בעיקר לשם השעשוע, וקבלת התחושה הבסיסית של איך הקשרים בין המשתנים עשויים להיראות.

הסקר מורכב מארבע שאלות העוסקות בעמדות הפוליטיות של אנשים וב-5 שאלות העוסקות בדעות של האנשים על הפרשה של ענת קם.
טל ירון ביקש שהניתוח שלי יענה על שתי שאלות:
1) האם יש קשר בין השקפת העולם למצב גיבורי הסיפור
2) האם יש קשר למפלגה ולהשקפת העולם

כדי לענות על השאלות הללו, הרי שלא יעזור לנו הסתכלות חד ממדית על כל אחד מתשעת המשתנים שלנו (זה מה שגוגל מציע, וזה לא עוזר במיוחד לענות על השאלות).
אף על פי כן, הנה תוצאות הניתוח על פי גוגל (לחצו על התמונה לגירסה מוגדלת)

anat kam - google spraedsheet analysis - 1

אני לא התייחס בהרחבה לתוצאות הללו, אתם מוזמנים לעבור על התמונה ולהתרשם בעצמכם.

ניתוח סטטיסטי של הסקר – ניתוח דו-ממדי – שיקולים סטטיסטיים

כדי לענות על השאלה שטל ירון שאל, עלינו להשוות בין התוצאות במשתנה אחד לתוצאות באחר. אני אתחיל מלתאר כמה מהשיקולים בכלים הסטטיסטיים בהם השתמשתי ואז אציג את התוצאות.
הכלים בהם נשתמש כאן הם:
0) גוגל דוק – היכולת שלי לבצע את הניתוח הסטטיסטי הזה בזריזות ובקלות, מסתמך על זה שהנתונים נאספו (על ידי גוגל-טפסים) הישר לתוך גליון שאותו יכולתי לשאוב לתוך R (התוכנה הסטטיסטית האהובה עלי). כתבתי עוד על החיבור בין השניים בפוסט: Google spreadsheets + google forms + R = Easily collecting and importing data for analysis
1) קורלציות – אנחנו רוצים לראות מהי הקורלציה בין כל צמד משתנים. נשים לב שהיות והמשתנים שלנו הם קטגוריאליים סדורים, הרי שהקורלציה היותר מתאימה כאן היא זו של ספירמן (הא-פרמטרית) ולא זו של פירסון (שמתאימה לנתונים רציפים).
2) תרשימי פיזור – נשים לב שבמקרה שלנו תרשימי פיזור הם אתגר. מדוע? כיוון שכאשר מציגים תרשים פיזור עבור זוג משתנים עם 5 רמות בלבד, צפוי שנקבל הרבה נקודות שיעלו אחת על גבי השניה. ואז השאלה היא כיצד להציג מצב כזה. אני בחרתי לפתור זאת באמצעות שינוי גודל הנקודות (ככל שיש יותר נקודות במקום מסויים, כך גודל הנקודה המייצגת תהיה גדולה יותר). וגם, על ידי הוספה של קו מגמה מוחלק (LOWESS, למי שהיה סקרן לדעת).
3) השילוב הרב ממדי – השילוב של הצגת הרבה זוגות של השוואות (בהקשרנו) מתבצע על ידי גרף שנקרא "תרשים מטריצת-פיזור של קורלציות". הסברתי עוד כיצד אני מייצר את התרשים הזה ב- R בפוסט Correlation scatter-plot matrix for ordered-categorical data . אגב, נשים לב שבמקרה שמישהו לא ענה על אחת השאלות, החלטתי להסיר את התשובה שלו מהתרשים (המדקדקים היו ממלאים את הנתון שלו בנתון זמני, אבל החלטתי לוותר על זה ולהציג רק אנשים שהשיבו על כל השאלות. כמו כן, התעלמתי מסוגיית ההשוואות המרובות – עמכם הסליחה)
(הערה אחרונה – שימו לב שהניתוח שלי הצליח לשאוב את העברית של גוגל-מסמכים לתוך התוכנה R, ולהציג אותה בפלט. בהזדמנות קרובה אני אכתוב פוסט שבו הסברתי איך עושים זאת. אך לבינתיים תדעו שזה אפשרי וגם שזה לא טריוויאלי לעשות…)

ועכשיו, לתוצאות –
להמשיך לקרוא ענת קם – הקשר בין עמדות פוליטיות לדעות על הפרשה