OCR的中文意思就是通过光学技术对字符进行识别。OCR技术主要用于文字和表格输入,可以用扫描仪或者数码相机等手段将整页的印刷文稿或者表格输入计算机,由计算机上的识别系统自动生成汉字文件,替代人工键入汉字和表格的工作。在欧美、日本等国,OCR技术及产品的应用十分普及。
我国早在70年代末就已经开始进行汉字识别的研究,到1986年汉字识别的研究进入一个实质性的阶段,不少研究单位相继推出了中文OCR产品,进入20世纪90年代后,OCR软件产品开始逐渐为用户所了解和接受。然而与国外相比,我国OCR产品的普及和应用情况一直不尽如人意。
但我们仍旧可以看到OCR产业的未来蓝图。汉王科技OCR项目负责人认为,此后,中文OCR软件将有普及版和专业版之分。大体上说来,现在市场上扫描仪捆绑的OCR软件均可以理解为普及版。普及版主要针对日常文字工作者文字录入的需求而开发,功能相对较少;但其价格适中,可满足基本需求,因此市场空间十分明显。
当然,考虑到批量输入、格式分析、超强校对等特殊需求,普及版就显得缺乏优势,这个时候应当选择功能更为强大的专业型OCR系统。专业型OCR系统的产品多是面向特定的行业,即适用于每天需处理大量表格信息录入的部门,如邮政、税务、海关、统计等等。这种面向特定行业的专业型OCR系统信息格式较为固定,识别的字符集相对小,经常与专用的输入设备结合使用,因此具有速度快、效率高等特点。汉王科技公司推出的金融、税务等一些行业票据识别系统就是典型代表。