OCR, או – Optical Character Recognition. זהו השם של קבוצת תוכנות המסוגלות לקרוא ולפענח טקסט שנסרק כפיקסלים ומצוי בזיכרון המחשב כתמונה, ולא כקובץ טקסט כמו Word למשל.
ה-OCR ויישומו האפשרי בגרפיקה באינטרנט, בפוסט שלפניכם.
בגרסאות האחרונות של אדובי אקרובט, ישנו כלי שמשתמש בטכנולוגיית ה-OCR ומטרתו היא ל"אנדקס" טקסט סרוק.
צילום מסך מצורף: אדובי אקרובט בפעולת OCR מוצלחת.
למה זה מעניין אותנו, ומה זה קשור לאינטרנט?
באינטרנט, גוגל ומנועי החיפוש האחרים, מתייחסים (עדיין) לתמונה כאובייקט גרפי המשמש לעיצוב, או תמונה ממש בלבד. מה החיסרון בעניין? שאי אפשר כשמעצבים דף אינטרנט, רק לעצב ולכתוב בפוטושופ כתמונה "פיקסלית" ולשמור כ-JPG לדוג' , אלא צריך כמובן גם לצרף טקסט חי. טקסט חי, שניתן לסמן בדף ה- HTML (במעבר לחוץ ע"י העכבר ולהעתיק..), ונקא ע"י מנועי החיפוש.
למה אין OCR לגוגל?
שאלה טובה. הרבה פעמים אנשים מאחסנים מידע על גבי המחשב כתמנוה סרוקה. לעיתים נראה קובץ JPG שאינו תמונה, אלא טקסט סרוק, שאינו יכול להיות "מאונדקס" עדיין ע"י גוגול. ייתכן ובעתיד גוגל ירתמו את טכנולוגית ה- OCR וישתמשו בה לאנדקס את הטפסים הסרוקים הרבים שנמצאים היום באינטרנט.
ואני רוצה לדעת, מתי אפשר יהיה לחפש תמונות בגוגל על פי תמונות אחרות, או לחפש מידע לפי תמונה (למשל, להעלות תמונת פנים לגוגל, והוא יגיד לי מי בצילום).
אני מאמין שהטכנולוגיה הזאת קרובה מתמיד ליישום במנועי החיפוש. בחברות האבטחה משתמשים בה כבר שנים. ראיתי את זה פעם במו עיני. אתה יודע, זה הולך ונהיה מפחיד מחידוש לחידוש אצל גוגל, האח הגדול של ההיי טק…
מאמר מעניין מאוד, תודה!
איך מגיעים לזה בתפריט של אדובי אקרובט?
שכחתי לציין, רק באדובי אקרובט פרו.
Document=>OCR Text Recognition