您现在的位置: 岳西风采 >> 科普频道 >> 电信网络 >> 多媒体 >> 资料正文 提示:双击屏幕自动滚动
【资料正文】
脱机手写汉字识别
 作者:佚名  来源:中国科普  更新:2007-3-7 20:11:04 选择语言:繁體


内容提要:
自动识别输入分为语音识别和字符识别两种。汉字识别是模式识别的一个重要分支,也是文字识别领域最为困难的问题,它涉及模式识别、图象处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术,在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域,都有着重要的实用价值和理论意义。
本文关键字:多媒体,手写识别

  一、汉字识别概述

  汉字已有数千年的历史,也是世界上使用人数最多的文字,对于中华民族灿烂文化的形成和发展有着不可磨灭的贡献,并将继续发挥重要的、其它文字形式难以取代的作用。然而,汉字是非字母化、非拼音化的文字,在当今高度信息化的社会里,如何快速高效地将汉字输入计算机,已成为影响人—机交流信息效率的一个重要瓶颈,也关系到计算机能否真正在我国得到普及应用。

  围绕这一问题,人们提出了各种解决方案。目前,汉字输入主要分为人工键盘输入和机器自动识别输入两种。

  自动识别输入分为语音识别和字符识别两种。汉字识别是模式识别的一个重要分支,也是文字识别领域最为困难的问题,它涉及模式识别、图象处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术,在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域,都有着重要的实用价值和理论意义。

  汉字识别技术可分为印刷体汉字识别和手写体汉字识别两大类,后者又可分为联机手写汉字识别和脱机手写汉字识别。

  从识别的角度来看,手写体识别难于印刷体识别,而脱机手写识别又难于联机手写体识别。可喜的是,经过科研人员的努力,我国已有印刷体汉字识别和联机手写汉字识别的商品出售,目前已形成百家争鸣、百花齐放的局面,但是脱机手写汉字识别还处于实验室研究阶段。在脱机手写汉字识别领域,非特定人脱机手写汉字识别又难于特定人手写汉字识别。

  二、 手写汉字识别中存在的问题及困难

  手写汉字识别是一种重要的、适用于把手写文稿随时输入计算机的方法,也是机器字符识别最为困难的一个课题,这些困难和问题表现在:

  1、汉字类别多。仅《康熙字典》中就包含了49000多个汉字,而常用的汉字就有4000多个,因而汉字识别问题属于大类别(或者称为超多类)模式识别问题,在模式识别理论和方法研究方面有重大意义。 

  2、汉字字形结构复杂。 汉字集合中相似字较多,有些汉字的差别仅为一点或一个笔画,由于手写变形的存在,使得手写体中相似字的区分比印刷体要困难得多。因不同人书写风格的差异造成手写汉字的变形很大,具体表现在以下几个方面: 

  (1)基本笔画变化。横不平,竖不直,直笔变弯,折笔的拐角变成圆弧等。
  (2)笔画模糊,不规范,该连的不连,不该连的却相连。
  (3)笔画与笔画之间、部件与部件之间的位置发生变化。
  (4)笔画的倾斜角、笔画的长短、部件的大小发生变化。
  (5)对于脱机手写汉字,不同人使用不同的书写笔可能造成笔画的粗细变化。

  其中,手写汉字字形的变化是最难以解决的问题。

  一般认为,联机手写汉字识别比脱机手写汉字识别相对容易些。联机手写汉字识别是一种人工实时地把汉字输入计算机的方法,它利用书写板把笔画变为一维电信号,输入计算机的是以坐标点序列表示的笔尖移动轨迹,因而被处理的是一维的线条(笔画)串,这些线条串含有笔画数目、笔画走向、笔顺和书写速度等信息,而脱机手写汉字识别处理的仅是二维的汉字点阵图象,是汉字识别领域中最后一个十分困难的问题,目前仍然处于实验室研究阶段。

  由此可见,对非特定人脱机手写汉字识别而言,如果对手写汉字的书写不加任何限制(即为自由手写体汉字),则识别难度相当大。科学研究中人们总是遵循从易到难的规律,从简单的问题入手来寻求突破口。由于自由手写汉字识别太难,人们提出了手写印刷体汉字识别,这已成为目前脱机手写汉字识别的主要研究对象。所谓手写印刷体是指书写工整的楷书手写体,要求书写者工整书写,尽量少连笔。

  三、展望

  我们研究非特定人脱机手写汉字识别的目的就是使识别系统能够实用化。由清华大学电子工程系图象教研组 OCR(光学字符识别)实验室研制的THOCR-97综合集成汉字识别系统于1997年3月22日通过了由国家教委组织的鉴定并获得了高度评价,其中的非特定人脱机手写汉字文本识别子系统,对于书写较为工整的手写汉字文本,正确识别率达95.8%,为该子系统走向实用化奠定了良好的基础。可以乐观地预言,在今后的5年内,非特定人脱机手写印刷体汉字识别文本系统将会有产品走向市场。然而,对于自由手写体汉字识别而言,任重道远,仍需要科研人员不懈的努力,但是我们不应该就此悲观,随着计算机技术的突飞猛进和人脑功能的进一步揭示,可望在不远的将来发现人脑的识字机理,建立在此基础上的手写汉字识别的理论和方法将会有质的飞跃。

发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
  • 上一份资料:

  • 下一份资料:
  • 相 关 文 章
    联机手写汉字识别系统
    手写数字识别的原理及应…
    印刷体汉字识别系统
    手写字识别技术
    前景看好的笔绘板
    便捷无比的触摸屏
    时代的新宠——鼠标
    我们的老朋友——键盘
    实时输入设备概述
    明天的多媒体通信网络
    专 题 栏 目
    最 新 热 门
    推荐资料 认识地球资源卫星
    普通资料 多媒体信息有什么特征
    普通资料 什么是ISDN
    普通资料 量子光学之父和精密光谱学…
    普通资料 使戏剧回到它的基本原素
    普通资料 幽门螺杆菌:引发胃炎和消…
    普通资料 打开绿色化学之门:烯烃复…
    普通资料 人类扶贫天使:孟加拉乡村…
    普通资料 宇宙大爆炸绝非神话
    普通资料 文化冲突和融合中的新的象…
    最 新 推 荐
    推荐资料 认识地球资源卫星
    推荐资料 定义"可持续发展"
    推荐资料 北极熊
    推荐资料 北极狐狸
    推荐资料 无线通信趣事
    推荐资料 漫话各国的“国石”
    推荐资料 生命的遗传物质是DNA
    推荐资料 地球科学新时空观
    推荐资料 夜宿穹庐
    推荐资料 最大的咸水湖──浓墨重彩…
    网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    岳西风采版权与免责声明:
    一、凡本网注明“岳西风采”的所有作品,版权均属于岳西风采,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:岳西风采”。违反上述声明者,本网将追究其相关法律责任。
    二、凡本网注明“来源:XXX(非岳西风采)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
    三、如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。
    ※联系方式:网站管理员 QQ:489567068 MSN:wangge9#msn.com  E-mail: wangge9#gmail.com(发信时请把#换成@)
    设为首页 | 加入收藏 | 使用条款 | 已获授权列表 | 网站公告 | 注册邮箱 | 登录邮箱| 岳西地图 | 岳西网址导航 | 网址简洁版 | 网站地图
    皖ICP备06010134号