藏族是祖国大家庭的一员,具有悠久的历史,灿烂的文化。藏文是世界上优秀的文字,在历史发展的长河中发挥了重要作用,在信息时代的今天,藏文仍然发挥着其他文字无法替代的作用。藏文信息处理研究一直得到国家的高度重视和大力支持,并不断取得新的研究成果。清华大学电子工程系丁晓青教授领导的智能图文信息处理研究室,与西北民族大学于洪志教授领导的中国民族信息技术研究院联合研制的“多字体印刷藏文(混排汉英)文档识别系统”的问世,填补了藏文文本识别研究和系统开发的空白,标志着我国中文信息处理领域又取得重要研究成果,拉开了藏文识别应用于藏文数字化建设的序幕。
据了解,“多字体印刷藏文(混排汉英)文档识别系统”首次解决了多字体印刷藏文文本的识别问题,以及首创实现藏、汉、英混排文本的识别系统,其整体性能达到了国际领先水平。经鉴定委员会测试组经测试,藏文白体、黑体、圆体、长体、竹体、通用体6种字体单字平均识别率达到99.83%,实际藏汉英混排文本的平均识别率达到97.28%以上,达到了实用的要求。
清华大学电子工程系智能图文信息处理研究室发挥多年致力于东方文字及其与英文混排文档识别研究方面的技术优势,西北民族大学中国民族信息技术研究院则发挥其藏文基础平台开发,以及藏文字体样本库设计、语言理解和处理方面的优势,经过近三年的合作,完成了该软件系统。该项目的完成,为进一步实现藏文经书识别奠定了基础。
“多字体印刷藏文(混排汉英)文档识别系统”是清华大学和西北民族大学在2000年签订的“全面合作协议”后的第一个科技研究成果,是清华大学充分发挥科技优势,为加快民族地区信息技术的发展做出的实质性贡献。