您现在的位置: 岳西风采 >> 科普频道 >> 电信网络 >> 多媒体 >> 资料正文 提示:双击屏幕自动滚动
【资料正文】
印刷体汉字识别系统
 作者:佚名  来源:中国科普  更新:2007-3-7 20:13:14 选择语言:繁體


内容提要:
与脱机手写体和联机手写体识别相比,印刷体汉字识别已经实用化,而且在向更高的性能、更完善的用户界面的方向发展。因为它有着广泛的应用前景。目前,办公自动化已成为信息社会不可避免的发展趋势。虽然在计算机网络飞速发展的今天,许多信息已经电子化,世界各地出现了许多“电子版”的报纸、杂志等出版物,但是我们可以看到印刷材料的数量也大大地增加了
本文关键字:多媒体,手写识别,印刷体

  一、文字识别概述

  从上一部分的介绍中我们可以知道,从识别技术的难度来说,手写体识别的难度高于印刷体识别,而在手写体识别中,脱机手写体的难度又远远超过了联机手写体识别。到目前为止,除了脱机手写体数字的识别已有实际应用外,汉字等文字的脱机手写体识别还处在实验室阶段。

  与脱机手写体和联机手写体识别相比,印刷体汉字识别已经实用化,而且在向更高的性能、更完善的用户界面的方向发展。因为它有着广泛的应用前景。目前,办公自动化已成为信息社会不可避免的发展趋势。虽然在计算机网络飞速发展的今天,许多信息已经电子化,世界各地出现了许多“电子版”的报纸、杂志等出版物,但是我们可以看到印刷材料的数量也大大地增加了,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,毕竟阅读印刷材料更为符合人的自然阅读习惯;同时,网络信息资源的爆炸性增长以及网络传输容量的限制,都是方便、快速地获取这些信息的制约因素。电子化与印刷文本材料如同一枚硬币的两面,互相补充、互相促进,在未来的十几年或更长的时间内将不会出现一者被另一者取代的情况。

  二、印刷体文字识别的研究历程

  印刷体文字的识别很早以前就是人们的梦想,早在1929年,Taushek就在德国获得了一项有关OCR(光学字符识别)的专利。欧美国家为了将浩如烟海、与日俱增的大量报刊杂志、文件资料和单据报表等文字材料输入计算机进行信息处理,从50年代就开始了西文OCR技术的研究,以便代替人工键盘输入。

  印刷体汉字的识别最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1,000个印刷体汉字。70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷体汉字识别系统。这些系统在方法上,大都采用基于数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用。

  我国对印刷体汉字识别的研究始于70年代末80年代初,大致可以分为三大阶段:
  (1) 第一阶段从70年代末期到80年代末期,主要是算法和方案探索。
  (2) 第二阶段是90年代初期,中文OCR由实验室走向市场,初步实用。
  (3) 第三阶段也就是目前,主要是印刷体汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳定性的增强。

  同国外相比,我国的印刷体汉字识别研究起步较晚。但由于我国政府对汉字自动识别输入的研究从80年代开始给予了充分的重视和支持,经过科研人员十多年的辛勤努力,印刷体汉字识别技术的发展和应用,有了长足进步:从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了98%以上。

  清华大学电子工程系、中国科学院计算所智能中心、北京信息工程学院、沈阳自动化研究所等单位分别研制开发出实用化的印刷体汉字识别系统。尤其是由清华大学电子工程系研制的清华TH-OCR产品,始终处于技术与产品发展的最前沿,并占据着最大的市场份额,代表着中文OCR技术发展的潮流。

  这一成就,是对中华文化宝贵遗产的继承和发扬,在世界电脑发展史上,必将留下光辉的一页,同时,这也是造福子孙千秋万代的大事。国家高技术研究发展“863"计划、国家重点科技攻关计划、国家自然科学基金和军事基础研究基金都对这一研究课题予以极大的重视和大力的支持。

[1] [2] 下一页

发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
  • 上一份资料:

  • 下一份资料:
  • 相 关 文 章
    联机手写汉字识别系统
    手写数字识别的原理及应…
    脱机手写汉字识别
    手写字识别技术
    前景看好的笔绘板
    便捷无比的触摸屏
    时代的新宠——鼠标
    我们的老朋友——键盘
    实时输入设备概述
    明天的多媒体通信网络
    专 题 栏 目
    最 新 热 门
    推荐资料 认识地球资源卫星
    普通资料 多媒体信息有什么特征
    普通资料 什么是ISDN
    普通资料 量子光学之父和精密光谱学…
    普通资料 使戏剧回到它的基本原素
    普通资料 幽门螺杆菌:引发胃炎和消…
    普通资料 打开绿色化学之门:烯烃复…
    普通资料 人类扶贫天使:孟加拉乡村…
    普通资料 宇宙大爆炸绝非神话
    普通资料 文化冲突和融合中的新的象…
    最 新 推 荐
    推荐资料 认识地球资源卫星
    推荐资料 定义"可持续发展"
    推荐资料 北极熊
    推荐资料 北极狐狸
    推荐资料 无线通信趣事
    推荐资料 漫话各国的“国石”
    推荐资料 生命的遗传物质是DNA
    推荐资料 地球科学新时空观
    推荐资料 夜宿穹庐
    推荐资料 最大的咸水湖──浓墨重彩…
    网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    岳西风采版权与免责声明:
    一、凡本网注明“岳西风采”的所有作品,版权均属于岳西风采,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:岳西风采”。违反上述声明者,本网将追究其相关法律责任。
    二、凡本网注明“来源:XXX(非岳西风采)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
    三、如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。
    ※联系方式:网站管理员 QQ:489567068 MSN:wangge9#msn.com  E-mail: wangge9#gmail.com(发信时请把#换成@)
    设为首页 | 加入收藏 | 使用条款 | 已获授权列表 | 网站公告 | 注册邮箱 | 登录邮箱| 岳西地图 | 岳西网址导航 | 网址简洁版 | 网站地图
    皖ICP备06010134号