תמונה באלף מלים

האם תמיד תמונה אחת שווה אלף מלים? התשובה על כך אינה חיובית בהכרח, בייחוד כשמדובר בתמונה המורכבת מאלף מלים. ההיגיון מאחורי תשובה זו מבוסס על העובדה, שמערכות מחשב מתוחכמות ככל שיהיו אינן מסוגלוןת לעבד מידע כתוב, שנסרק אליהן בלי שעבר תהליך מסויים של המרה מפורמט גרפי, כלומר תמונה, לפורמט ASCII בעזרת מערכת אופטית לזיהוי תווים

עיבוד טפסים ממוחשב הוא תעשיית ענק בארה"ב וברחבי העולם. חברות וארגונים מכל גודל וסוג מעבדים כיום כמויות גדולות מאוד של טפסים, לעתים עד מאה אלף טפסים ביום וקולטים את נתוניהם במחשב, לצורך ביצוע פעולות וקבלת החלטות.
אולם לא רק חברות ענק וארגונים מנצלים את היתרונות הרבים הגלומים בעיבוד טפסים ממוחשב. טכנולוגיות הזיהוי, שהחלו להתפתח כבר לפני 40 שנה, בעיקר לטובת ארגונים גדולים כדוגמת מס הכנסה וחברות הביטוח בארה"ב, זמינות כיום על שולחנו של כל אחד ובמחיר שווה לכל נפש. מה שהחל לפני יובל שנים כמעט כיישום פשוט, המבוסס על השוואת תבניות (Template), התפתח למערכת מתוחכמת בעלת רשיות עצביות ובינה מלאכותית, המסוגלת לזהות כתבי יד שונים, לבצע הקשרים בין יחידות מידע, לזהות ולהפריד בין אזורי טקסט לתמונות וללמוד מטעויות של עצמה, תוך כדי פעולה.
תהליך הזיהוי הממוחשב נחלק לשלושה תחומים עיקריים: זיהוי סימני x/v בטפסים (OMR), זיהוי תווים (OCR), וזיהוי כתב יד (ICR).
מובן שרמת התיחכום הטכנולוגי הנדרש ממנוע הזיהוי משתנה בהתאם, אולם בשלושת המקרים התהליך הממוחשב כולל שלושה שלבים מרכזיים: הראשון - סריקה תעשייתית של הטפסים.
השני - זיהוי הנתונים באחת משלוש הטכנולוגיות הרלוונטיות בהתאם לטופס הספציפי, והשלב השלישי כולל את עיבוד ו/או אחסון המידע.

יתרונות העיבוד הממוחשב

החשיבות של תחום הזיהוי הממוחשב עבור ארגונים וחברות תגדל עם השנים, בשל כמה מגמות משלימות בתחום המידע והמיחשוב. על פי מחקרים שנעשו הראה כי כמות המידע בעולם מכפילה את עצמה מדי שלוש שנים, וכך אף שחלה ירידה יחסית ברמות השימוש בנייר, בשל טכנולוגיות העברה ואחסון חלופיות של מידע, הרי כמותו האבסולוטית גדלה והולכת. נוסף על כך השימוש הגובר במערכות מחשב בכל תחומי החיים בכלל ובתחום המנהלי בפרט, והעובדה כי טפסים מהווים 83% מהניירת המשרדית, עושים את הפתרון של זיהוי טפסים ממוחשב חיוני יותר מאי פעם.
מלבד החשיבות של יישום תהליכים ממוחשבים לעיבוד טפסים בארגונים ובחברות מציע תוום זה יתרונות מקצועיים, עסקיים ובייחוד כלכליים. להלן כמה מן היתרונות הרבים שמעניקה מערכת ממוחשבת לעיבוד טפסים:
הגדלת נפח הפעילות וקליטת המידע למערכת - מהירות הסריקה של מערכות לעיבוד טפסים ממוחשב נעה בין 100 ל-1200 תוים לשניה - תלוי באיכות הטופס ובסוג הזיהוי הרצוי (כתב יד, תווים או סימנים). רמה זו גבוהה בעשרות עד מאות מונים ממהירות הקלדת הנתונים של הקלדן או הקלדנית המיומנים ביותר.
הגדלת יכולת קליטת המידע במערכת מאפשרת לארגון להתמודד עם כמות רבה יותר של מידע, להרחיב את בסיס הידע שעל פיו מנוהל הארגון ומתקבלות ההחלטות, וכן לנצל יותר טוב את יכולת העיבוד של מערכות המחשב, המנוצלות רק באופן חלקי בשל כמות המידע "הזעום" הנקלט ביחס לכוח העיבוד של המחשב. שיפור היצרנות הארגונית נאמד על פי מחקרים שונים בין 200%-400% בעקבות אימוץ טכנולוגיית עיבוד טפסים ממוחשב.
הפחתת עלויות שימוש במערכת ממוחשבת לעיבוד טפסים מאפשר לחסוך בעלויות כח אדם, שנדרש לצורך הקלדה ידניתשל המידע. הפחתת עלויות נוספות נובעת מהחיסכון בשטח ובתשתיות, הנדרשים מהעסקת כמות גדולה של עובדים. ככל שהחברה או הארגון גדולים יותק והתהליכים העסקיים מבוססים על שימוש בטפסים בהיקף רחב, כמו בחברות ביטוח, בתחום הבריאות, במס הכנסה וכדומה, ניתן להשיג חיסכון רב יותר על ידי אימוץ טכנולוגיות זיהוי ממוחשבות.
הגברת האפקטיביות של תהליך הכנסת המידע - רמת האמינות בזיהוי של מערכות ה-OCR למיניהן הגיעה כיום ל-100% בחלק מהמקרים. גם עבור טפסים "מסובכים", הכוללים כתב יד ותמונות, רמת האמינות עומדת על 98% ועדיין נחשבת לרמת זיהוי גבוהה, המבטיחה פחות טעויות מאלה הנגרמות בהקלדת נתונים ידנית.
באחדות מן המערכות לזיהוי כתב יד (OCR), כמו בחבילת AcuForm של חברת אימאג' נט, ניתן להעלות את רמת הזיהוי מ-98% ל-100% באמצעות מערכת לאיתור תווים, שזוהו באופן שגוי, בזכות מאקרו בויז'ואל בייסיק, המצורף לחבילה ומאפשר ללקוח לכתוב קוד לביצוע בדיקות ביקורת למיניהן, המשוות את המידע שנקלט עם זה שכבר מצוי בבסיס הנתונים הארגוני.
חסכון כלכלי נוסף מושג בתחום האחסון והאחזור של המידע, שכן ההמרה שמבצעת מערכת זיהוי הטפסים הממוחשבת מפורמט Bitmap לפורמט ASCII מצמצמת בצורה דרסטית את נפח המידע. טכנולוגיות המאפשרות "להעלים" את כל הרכיבים הקבועים בטופס, שאינם מכילים נתונים (קווים, סמלים, תמונות), מכווצות עוד יותר את הנפח שתופסים הנתונים על גבי מדיות האחסון השונות.
החזר מהיר על ההשקעה (ROI) - מערכות לעיבוד ממוחשב של טפסים מאפשרות החזר השקעה בתוך חודשים ספורים, בין שניים לארבעה חודשים בממצוע, תקופה קצרה ביותר ביחס למערכות מיחשוב אחרות בתחום המידע.

בניית מערכת ממוחשבת

מהי מערכת עיבוד הטפסים היקרה ביותר? העלות של מערכת ממוחשבת לעיבוד טפסים (חומרה ותוכנה) יכולה לנוע בטווחים שבין מאות אחדות של דולרים עבור מערכת "רזה" ופשוטה, ועד מאות אלפי דולרים עבור מערכת תעשייתית מורכבת ומותאמת במיוחד. אבל התשובה לשאלה פשוטה הרבה יותר: המערכת היקרה ביותר לעיבוד טפסים ממוחשב היא זאת שאינה עובדת. כדי להימנע ממצב זה חשוב להבין לפני רכישת המערכת את הגודל, את המאפיינים ואת המורכבות של דרישות החברה או הארגון ממערכת זו. להלן כמה נקודות מפתח, האמורות להנחות את השיקולים ברכישת מערכת ממוחשבת לעיבוד טפסים:

  • מאין מגיע המידע ובאיזה פורמט -כל מערכות עיבוד הטפסים הממוחשבות מסוגלות לסרוק מסמכי נייר ו"ללכוד" את המידע מתוך הדף, אולם לא כל המערכות מסוגלות לטפל בסוגים אחרים ונפוצים של מסמכים, דוגמת פקס, דואר אלקטרוני וטופסי אינטרנט, המגיעים ישירות למחשב. השימוש הגובר בטפסים אלקטרוניים בתהליכים העסקיים בארגונים מחייב התייחסות גם לנקודה זו, שכן רכישת מערכת שאינה תומכת בעיבוד מסמכים אלקטרוניים לא תאפשר להפיק ממנה את התפוקה המירבית בסביבה ארגונית, המבוססת גם על קליטה וניתוח מידע, המצוי על גבי טפסים אלקטרוניים.
  • שליטה על פורמט הטפסים - טיבה של המערכת לעיבוד טפסים ממוחשב נקבע גם על פי יכולת השליטה של הארגון או החברה על פורמט הטפסים שבשימוש. בניית טפסים נכונה יכולה להפחית מאד, עד 75% לעתים, את עלויות הכנסת המידע למערכת יחד עם חיסכון ניכר של זמן. טפסים הבנויים באחידות על פי חוקיות מסוימת, למשל ללא רקעים כהים ועם מיקומים מוגדרים למילוי הפרטים בטופס (כמו בטפסים רשמיים של ביטח לאומי, מס הכנסה וכד'), משפרים את ביצועי המערכת במידה ניכרת ואינם מחייבים שימוש במנועי זיהוי מתוחכמים, המייקרים את עלותה.
  • מספר סוגי הטפסים שנדרש לעבד - כמה מן המערכות בנויות לעבד פורמט אחד בלבד או מספר קטן מאוד של סוגי טפסים, כמו אלה של מפעל הפיס, הטוטו וכד'. אחרות מסוגלות לטפל בספר בלתי מוגבל כמעט של סוגי טפסים. המפתח ליכולת זו טמון ביכולת זיהוי אוטומטית של סוג הטופס. מערכות הכוללות תכונה זו מחפשות קודם כל רמזים על גבי הטופס, כמו קווים, הצטלבויות, סמלים, טקסט קבוע (שהודפס מראש ואינו חלק מהמידע שנרשם על גבי הטופס) והמיקום של כל אחד מהמשתנים הללו על פני הנייר. מטבע הדברים מערכות המסוגלות לעבד סוגים שונים של טפסים הן יקרות יותר ותהליך העיבוד ממושך יותר, אולם עבור חברות שאין להן יכולת לשלוט על פורמט ועל סוג הטפסים, מערכות מסוג זה היא הכרח.
  • אופי קליטת המידע וסוגו - בכל חברה דרישות שונות בנוגע לתהליכי עיבוד המידע. מערכת הנדרשת לקלוט ברקוד בלבד מכ-5000 טפסיםפ ביום, שונה מהותית ממערכת הנדרשת לקלוט 500 מסמכים ביום, המורכבים מכמות רבה של תווים. על החברה להתאים את סוג המערכת בהתאם לסוג המידע, לכמותו ולאופן הקליטה שלו. מערכות המסוגלות לעבד כמות רבה של תווים לרוב יקרה יותר, אבל מציעות פונקציונליות רבה יותר.
  • תקציב והחזר על ההשקעה (ROI) - אלה הם המדדים החשובים ביותר ברכישת המערכת. כפי שצויין, כלותן של מערכות לקליטת ועיבוד ממוחשב של טפסים משתנה ממאות דולרים ועד מאות אלפים. רוב המערכות מצדיקות את עלותן על בסיס החסכון בעלויות שהן מאפשרות בהשוואה להקלדה ידנית של נתונים. עם זאת יש מקרים מסוימיםף כשמדובר למשל בבחירות, בהגרלות וכיו"ב, שבהם אלמנט הזמן חיוני ביותר והצורך לקבל תוצאות במהירות מאפיל על שיקולי התקציב, שכן רק מערכת ממוחשבת לעיבוד טפסים מסוגלת לבצע את העבודה ולספק תוצאות במהירות הנדרשת. בהשוואה לחו"ל, ההחזר על ההשקעה בישראל של מערכות ממוחשבות לעיבוד טפסים מתקבל בזמן קצר ביותר. ארגון אופייני בארץ מעבד בממוצע כ-5000 טפסים ביום, כשעלות ההקלדה הידנית בשיטה הקונוונציולית יכולה להגיע ל-15 אלף דולר בחודש. פתרון זיהוי ממוחשב, הכולל תוכנת מדף וחומרה, יעלה רק כשליש אם מדובר על פתרון המבוסס על זיהוי תווים (OCR), וכך כבר בחודש הראשון תחזיר ההשקעה את עצמה. במקרה שנדרש עיבוד המבוסס על זיהוי כתב יד (ICR), פרק הזמן להחזר ההשקעה יכול להיות ארוך מעט יותר, בשל הצורך להעסיק כמות מסויימת של כח אדם, לשם תיקון ידני של שגיאות זיהוי. עם זאת, עקב התפתחויות ושיפורים טכנולוגיים בתחום, יצומצם בעתיד מאוד גם צורך זה.

אנשים ומחשבים - 10 במאי, 1999

Plevinski