גוגל רוצה לקרוא ספרים סרוקים – וכולנו הולכים לעזור לה (או: על הרכישה של גוגל את ר-קפצ'ה)

הקדמה – מה זה קפצ'ה ור-קפצ'ה

קפצ'ה היא מבחן המאפשר להבחין בין מחשב למכונה (סוג של מבחן טיורינג לעניים). כשמדברים על קפצ'ה באינטרנט, לרוב מדברים על האותיות המחורבשות שרואים כשצריך להכנס לאיזשהו אתר. אתרי אינטרנט משתמשים בתמונות הללו כיוון שבני אדם יכולים (לרוב) לקרוא אותם, בעוד שמחשבים לא. דוגמא לשימוש נפוץ הוא בהרשמה לחשבון אימייל חדש – החברה שמספקת את השירות דורשת מאיתנו הגולשים למלא ק'פצה (לפתור את הכתוב בתמונה), כדי לזהות שמי שמבקש את חשבון האימייל הוא אדם אמיתי, ולא תוכנת מחשב שמנסה לפתוח מאות אלפי חשבונות אי-מייל במכה אחת (ואז להשתמש בהם בשביל לשלוח דואר ספאם).

דוגמא נוספת לחשיבות הקפצ'ה תוכלו לקבל מקומיקס ה- XKCD המשובח הבא (לחצו על התמונה להגדלה וקריאה):

suspicion

בחור מבריק אחד ששמו הוא לואיס וון האן, הקים בזמנו חברה בשם re-Captcha. הרעיון המבריק מאחורי המייזם שלו הוא לחבר בין שני צרכים משלימים:

  • אתרי אינטרנט צריכים מבחני קפצ'ה בשביל לזהות שגולש מסויים הוא אדם אמיתי ולא רובוט, ובמקביל –
  • מי שברשותו ספרים סרוקים היה רוצה שאנשים יקלידו לו אותם לתוך המחשב (כלומר – שאנשים יזהו מילים מקושקשת מתוך הספר הסרוק – היות ומחשבים לא יכולים לעשות זאת)

הפתרון: re-Captcha. מדובר בטכנולוגיה המאפשרת להשתיל באתר (המרשה לה), מערכת שנותנת לגולש מסויים מבחן לזיהוי מילה סרוקה. בעל האתר מקבל לגלות האם הגולש הוא אדם אמיתי או לא, והמערכת מקבלת לדעת על אותה המילה מהי הפרשנות שלה.

להל"ן סרטון של 12 דקות שמסביר את כל אשר כתבתי:

החדשות – גוגל רכשו את ר-קפצ'ה

היום גוגל פירסמו בבלוג שלהם הודעה על רכישת החברה ר-קפצ'ה (reCAPTCHA). טק-קרנצ' כתבו שגוגל עשו נסיונות בלפתח את הטכנולוגיה בעצמם, אך כנראה שגוגל הגיע למסקנה שיותר הגיוני לרכוש את החברה מאשר להמציא את הגלגל מחדש.

המשמעות המיידית וההשלכות לעתיד

השירות ר-קפצ'ה כבר משמש כ- 100,000 אתרי אינטרנט. ועכשיו לאחר שגוגל רכשו אותם, אפשר לצפות לעוד אינספור אתרים שיתחיל להשתמש בשירות. המשמעות המיידית של זה תהיה שגוגל מקבלת מאות אלפי גולשים שיעזרו לה (בחינם) להקליד את הספרים שהיא סרקה לתוך השירות שלה גוגל-ספרים. המשמעות של זה תהיה שבעתיד הנראה לעין, עוד ועוד ספרים יהיו זמינים לחיפוש דרך השירות של גוגל-ספרים. בעתיד הבינוני אפשר אף לצפות שגוגל יוציאו שירות עבור כבדי-ראיה שבו גוגל תקריא להם ספרים (אני ממתין לשיתוף הפעולה הזה שיהיה בין גוגל לאמאזון).
עידכון: ווינט מספרים על כך שגוגל עומדת לאפשר לאנשים להדפיס ולקנות ספרים ישנים מהמאגר שלה (בהנחה שכמה סוגייות משפטיות יפתרו). או במילים אחרות: גוגל לוקחת ספרים שלא קיימים בפורמט דיגטלי, סורקת אותם, מתרגמת את התמונות הסרוקות לאותיות (ועכשיו, באמצעות reCAPTCHA, היא תוכל לעשות זאת באופן כמעט מושלם, כזה שאף מערכת OCR בעולם תוכל לעשות), ואז למכור את הספרים הללו בהדפסה מחודשת. מבריק…

בטווח הרחוק יותר, מדובר בהשקעה אסטרטגית מבריקה. גוגל לא רק זוכה לקבל תירגום של הספרים הסרוקים לטקסט שהמחשב יודע לזהות, היא גם מקבלת מאגר עצום וחסר תקדים של תירגום בין פיקסלים לאותיות. המידע הזה יאפשר לגוגל ליצור אלגוריתמים סטטיסטיים ל- OCR (זיהוי של אותיות מתוך פיקסלים של תמונה) ברמת דיוק שלדעתי האישית (והלא מקצועית) תהיה חסרת תחרות לכל אלגוריתם אחר שיהיה (עד אשר ימציאו בינה מלאכותית אמיתית).
ולמה להסתפק באנגלית? הרי גוגל יוכלו לקדם את הפרוייקט הזה לרשת האינטרנט בכל השפות המדוברות, ובכך ליצור אלגוריתמים סטטיסטיים לזיהוי אותיות ומילים (OCR) בכל שפה אנושית שאנשים המדברים אותה נמצאים ברשת.

החשש: מונופול

אז האם הרכישה הזו טובה לנו או לא? סביר להניח שכן. הכוח של גוגל באינטרנט יאפשר להם להפיץ עוד יותר את השימוש בר-קפצ'ה, מה שאומר שבמקום שאנשים "יבזבזו" את התשובות שלהם על קפצ'ות (מה שקורה ברוב השירותים הקיימים), הרי שיהיה גוף שיאסוף את התשובות שלהם ויעשה בהם שימוש טוב.

ההסתייגות היחידה שלי היא החשש שזה יאפשר לגוגל להיות מונופול בתחום ה- OCR. אני מקווה לראות עוד שחקנים גדולים (מישהו אמר מייקרוסופט?) עולים לבמה ומתחילים לאסוף את המידע הזה. והכי הייתי מקווה אילו איזשהו אירגון (מייקרוסופט, היש סיכוי?) שיעשה שירות מתחרה אבל שהוא יהיה בנוי כך שיפתח את המידע לציבור לחלוטין. כלומר, שכל אחד מאיתנו יוכל להוריד קובץ גדול עם תמונות של מילים, ותירגומם לטקסט שמחשב "מבין" את המשמעות שלו.

לסיום – כיצד להשתמש באנשים כדי לזהות לא רק טקסט, אלא גם תמונות (הרצאה של 50 דקות על כיצד להשתמש באנשים במקום מחשבים)

את ההרצאה הבאה ראיתי לפני יותר משנה, ומדובר באחת מההרצאות היותר מרתקות ופותחות אופקים – למי שיש את הזמן, מומלץ בחום:

18 תגובות בנושא “גוגל רוצה לקרוא ספרים סרוקים – וכולנו הולכים לעזור לה (או: על הרכישה של גוגל את ר-קפצ'ה)”

  1. טל שלום
    מתוך התגובות שקראתי אני מניח שהאתר שלך מדהים , יש לי שאלה ובקשה האם אתה סורק גם ספרי פילוסופיה, או ספרים במדעי הרוח, ספרי קודש, מתוך תגובה אחת הבנתי שבנושא יש בעיות משפטיות
    האם באו על פתרונן ?
    באם האמור לעיל יתבצע מובטח לך הסתערות של קוראים
    בינתיים יישר כוחך על המבצע
    שלמה

  2. וון האן מדבר על זה שהוא הרגיש רגשות אשם על כל הזמן שמתבזבז על קפצ'ות, אבל עם ההמצאה שלו אנשים מבזבזים על קפצ'ות לאימות זהות את אותו זמן כבעבר, וגם תורמים עוד שניות אחדות מזמנם לטובת דיגטול ספרים. כלומר עבור המשתמשים שלא יקראו את הספרים הדיגיטליים, ההמצאה הזאת רק מבזבזת להם עוד זמן.

  3. מה ימנע מאנשים להקליד טעויות במתכוון
    איפה הבקרת איכות נכנסת לענין

    חוץ מזה תרגום של כל מילה בודדת לא יתן ספר מתורגם
    אלא אוסף של מילים חסרות הקשר

    1. שאלות יפות אתה שואל, ולהן תשובות פשוטות:
      1) המערכת של reCAPTCHA תמיד מציגה בפני אנשים 2 מילים להקלדה. מילה אחת המערכת כבר יודעת מהי (כי היא הצליחה לזהות אותה עם ה- OCR שלה), והמילה השניה היא לא יודעת. היא חוזרת על התהליך הזה על פני הרבה אנשים, ומשווה את התוצאות של המילה שהיא רוצה לגלות בין כל האנשים שענו נכון על המילה שהיא יודעת מהי.
      באופן כזה היא יכולה לאסוף תשובות (או התפלגות של תשובות), על מהי אותה מילה, מבין האנשים שהצליחו לענות נכון על המילה הידועה.

      2) ברור שתירגום של מילים בודדות מוביל לתירגום של ספרים. ספרים מורכבים ממילים בודדות, אם תיתן למאות אלפי אנשים להקליד כל אחד מילה מספר, בסוף תקבל את כל הספר מוקלד.

      להסבר מורחב יותר, תכנס ותקרא כאן:
      http://recaptcha.net/learnmore.html

      אגב, אם אתה מריץ בלוג וורדפרס, יש פלאגין של ר-קפצ'ה שמאפשר לסנן תגובות זבל:
      http://recaptcha.net/plugins/wordpress/

      1. "ברור שתירגום של מילים בודדות מוביל לתירגום של ספרים. ספרים מורכבים ממילים בודדות, אם תיתן למאות אלפי אנשים להקליד כל אחד מילה מספר, בסוף תקבל את כל הספר מוקלד."

        Obvious that translation of words single leads to translation of books.
        books composed of single words, if let hundreds thousands people to type each word from book, end you get all book translated.

        נשמע כמו תרגום קביל למשפט שלך?
        וזה עוד מקרה פשוט, בלי דקויות.
        נסה לתרגם ככה את:
        * אולם האולם היה קטן מדי.
        * דבר היא מחלה קשה
        * דבר והיפוכו

        בוא נגיד שתרגום של מילים בודדות זה שלב הכרחי בדרך לתרגום של ספרים שלמים, אבל הוא בהחלט לא מספיק.

        1. אהלן עמרי,
          צר לי אך התבלבלתי. חשבתי ש SH770 מדבר על תירגום של ספרים לשפת מכונה (דהיינו תירגום פיקסלים לתווים). מהתגובה שלך עכשיו הבנתי שהוא בעצם דיבר לתירגום של מילים משפה אחת לשפה אחרת.
          אז רק לשם הבהרה: לא הצעתי (או חשבתי) שגוגל יתתנו לאנשים מילים בודדות ויבקשו מהם לתרגם אותם לשפה אחרת. זה, כמו שהדגמת היטב, פשוט לא יעבוד.
          מה שכן חשבתי עליו היה מצב שבו גוגל יוכלו לסרוק ספר בעברית, ולתת אותו לאנשים (מאיזור ישראל) להקליד. מה שיקרה במצב כזה, הוא שגוגל יוכלו ליצור OCR סטטיסטי עבור השפה העברית. וכך עבור כל שפה שהיא. למעשה, בדרך כזו, גוגל יוכלו לבנות אלגוריתם "מתקוונן" יחיד, ופשוט להחליף את הקלט (השפות) שלו. ובצורה כזו, ליצור OCR לכל שפה שקיימת בעולם. למה זה משמעותי? כיוון שבאנגלית יש הרבה OCR-ים, והרבה טכנולוגיות. אבל אי אפשר להשתמש בהם as is בשפות אחרות. בעוד שמה שתיארתי כרגע ניתן ליישמו בכל שפה שהיא (בהנחה שתתן לאנשי אותה שפה להקליד לך מילים).

          תודה על ההבהרה עמרי,
          טל

          1. היי טל,
            גוגל אכן פותרים את הבעיה של המרת מילים מתמונה לטקסט, ואין ספק שהמידע שזה נותן להם יעזור כדי ללמד מכונה לזהות מילים נוספות.
            הבעיה של תרגום שפה לשפה היא בעיה קשה ולא פתורה, גם עם מודלים סטטיסטיים. למעשה, צריך משהו קרוב מאוד לבינה מלאכותית אמיתית כדי לתרגם ספרים משפה לשפה בצורה אוטומטית ומוצלחת.
            יש הרבה קשיים, על חלקם ניתן להתגבר בשיטות סטטיסטיות, אבל עבור לא מעט מהבעיות צריך באמת להבין את ההקשר כדי לתרגם, ולפעמים צריך גם ידע בתחום הבעיה בה הטקסט עוסק.

            שיהיה חג שמייח 🙂

            1. אהלן עמרי.

              הסכמתי איתך לגבי זה לחלוטין.

              כל מה שאמרתי הוא שהאלגוריתם הסטטיסטי שאפשר לפתח עבור שפה אחת, יוכל לשמש גם עבור שפות אחרות (לא עבור המרה בין שפות, אלא בשביל להשתמש במאגרי מידע של שפות שונות ליצירת OCR ).
              אך נראה לי שהבנת אותי 🙂

              חג שמייח ידידי !
              טל

  4. לא ציינת שההרצאה המבריקה בסוף הפוסט (כתבתי עליה את אחד הפוסטים הראשונים בבלוג שלי, אי שם ב2006) היא של אותו לואי וון אהן.

  5. נהדר…
    עוד שרות שיחייב משתמשים למסור לגוגל מידע על האתרים שבהם הם משתמשים.
    והפעם אין מנוס. בניגול לגוגל אנליטיקס – שאפשר פשוט לסנן, הפעם בלי זה אין כניסה לאתר.

השאר תגובה