一款在统一系统框架中支持维吾尔文、哈萨克文、柯尔克孜文(简称维哈柯文)以及阿拉伯文的双向印刷文档识别系统10日在清华大学问世,这标志着中国阿拉伯文字系统文档识别技术已经位居国际前列。
清华大学电子工程系丁晓青教授在这里举行的该系统鉴定会上表示,此次由清华大学和新疆大学联合推出的维哈柯(汉英)阿(英)双向印刷文档识别系统较好地解决了维哈柯阿文的文档经扫描图像识别输入计算机的难题,并在全球首次实现了维吾尔文、哈萨克文、柯尔克孜文与汉英混排以及阿拉伯文与英文混排的文档识别。她说,维哈柯(汉英)阿(英)双向印刷文档识别系统可以准确、高效地将维哈柯阿文的纸质文档转化成为电子文档,因此极大地便利了上述文字资料的信息化处理,必将促进中国少数民族的经济文化建设和对外交流,并对中国与阿拉伯国家的合作、交流产生深远影响。
丁晓青说,作为新疆地区使用的主要民族文字,维吾尔文、哈萨克文、柯尔克孜文与阿拉伯文非常相近。阿拉伯文字形与汉字不同,具有连写字符多、字符形状不规则、相似字多、从右向左书写等特点,其文字识别工作极为困难。因此,国际市场上阿拉伯文识别系统寥寥无几,且使用效果均不甚理想。
鉴定会上,由中科院倪光南院士领衔的多位信息处理及维哈柯阿语言领域的专家组成的鉴定委员会对这一印刷文档识别系统给予了很高评价。专家们一致认为:作为国内外首款在同一系统框架中支持维、哈、柯、阿的双向印刷文档识别系统,其对实际文本的识别率以及主要技术指标均达到了国际领先水平,应用前景广阔。
据了解,所谓文字识别,是基于光学字符识别技术,将扫描仪、摄像机等光学输入方式得到的书籍、报刊、文稿、表格等印刷品的文字图像信息转化成为可供计算机识别和处理的文本信息。