OCR, או –  Optical Character Recognition. זהו השם של קבוצת תוכנות המסוגלות לקרוא ולפענח טקסט שנסרק כפיקסלים ומצוי בזיכרון המחשב כתמונה, ולא כקובץ טקסט כמו Word למשל.

ה-OCR  ויישומו האפשרי בגרפיקה באינטרנט, בפוסט שלפניכם.

בגרסאות האחרונות של אדובי אקרובט, ישנו כלי שמשתמש בטכנולוגיית ה-OCR ומטרתו היא ל"אנדקס" טקסט סרוק.

צילום מסך מצורף: אדובי אקרובט בפעולת OCR מוצלחת.

הטקסט ה"מסומן" זוהה בהצלחה ע''י תוכנת אקרובט, ועתה כל הטקסט נקרא ע''י התוכנה, שיכולה ל"אנדקס" אותה.

למה זה מעניין אותנו, ומה זה קשור לאינטרנט?

באינטרנט, גוגל ומנועי החיפוש האחרים, מתייחסים (עדיין) לתמונה כאובייקט גרפי המשמש לעיצוב, או תמונה ממש בלבד. מה החיסרון בעניין? שאי אפשר כשמעצבים דף אינטרנט, רק לעצב ולכתוב בפוטושופ כתמונה "פיקסלית" ולשמור כ-JPG לדוג' , אלא צריך כמובן גם לצרף טקסט חי. טקסט חי, שניתן לסמן בדף ה- HTML (במעבר לחוץ ע"י העכבר ולהעתיק..), ונקא ע"י מנועי החיפוש.

למה אין OCR לגוגל?

שאלה טובה. הרבה פעמים אנשים מאחסנים מידע על גבי המחשב כתמנוה סרוקה. לעיתים נראה קובץ JPG שאינו תמונה, אלא טקסט סרוק, שאינו יכול להיות "מאונדקס" עדיין ע"י גוגול. ייתכן ובעתיד גוגל ירתמו את טכנולוגית ה- OCR וישתמשו בה לאנדקס את הטפסים הסרוקים הרבים שנמצאים היום באינטרנט.

דילוג לתוכן