对印刷质量不好的文档最好是在图形处理软件中以灰度格式扫描获取图片后再转换成单色位图进行识别,识别的准确率高了很多。
通常大家在扫描识别时都喜欢在识别软件中进行扫描,直接获取单色位图进行识别。其实这样效率并不高。一般识别软件几乎没什么图形处理能力,为了得到满意的识别效果不得不多次调整亮度重复进行预扫描,而每扫描一页需要的时间又相当长。此外,一些识别软件还会在每次扫描后退出扫描程序,反复重新启动扫描程序也会浪费不少时间。
因此,最好是在图形处理软件中以灰度格式扫描获取图片后再转换成单色位图进行识别,虽然多了一道工序,但识别的准确率高了很多。笔者一直使用HyperSnap DX进行这样的工作。
1.运行HyperSnap DX,按“Ctrl+A”键启动扫描程序,以200dpi分辨率、默认亮度、对比度和“灰度”模式进行扫描。
2.切换到HyperSnap DX窗口,单击菜单栏“颜色/黑白…”,在弹出的“转为黑白图像”窗口中拖动中间的黑色级别滑块,你可以立即看到转换后黑白图像效果,满意后单击确定完成转换。然后把图片保存为tiff格式的文件,注意不要关掉程序以便过后修改。
3.启动识别软件,单击“文件”,打开保存的图形进行识别。如果效果不好可回到HyperSnap窗口按“Ctrl+Z”键撤消刚才的设置,再重复第二步的工作进行细化调整,这比重新扫描要快得多。
如果要扫描识别的是一大批质量相似的页面,那么每张都这样处理也不太方便。此时可以按第一步方法,以标准亮度、对比度进行扫描,使用 HyperSnap DX获取图片处理后转换成单色位图,然后记下“黑色级别”数值,参照数值设置扫描程序中的亮度,即可获得近似的效果。不过,为了最大限度提高识别率,最好还是逐一设置比较好,反正在HyperSnap DX中要调整也很简单,要多做的只有图片转换、保存和打开这三步而已,但换来的是文字识别效率成倍的提高。
提示:此方法特别适合对一些印刷质量不好或者是保存时间比较久的文字材料进行高识别率扫描识别的时候采用。