矢量笔迹混排文本的分割与识别方法研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:swqsswqs19760308
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
矢量笔迹是通过数码笔等计算机笔输入设备采集的,由笔划组成。笔划包含时序采样点,采样点具有坐标、时间和压力等。中文矢量笔迹文本具有复杂的组成单字,例如类型多样、间距较小。结构化和符号化是智能处理中文矢量笔迹文本的基础,因而,本文针对分割和识别技术分别展开了深入研究,具体内容如下:   (1)针对混排中文矢量笔迹文本中单字复杂性,提出了迭代提取方法;   (2)针对分割结果中元素重叠性和降低用户查错负担,提出了自适应可视化,以及相应的交互校正方法;   (3)针对混排文本整体识别问题,利用多种特征进行组合分类,对比了多种分类器,采用了基于支持向量机的分类方法,可以对包括汉字、英文单词、英文字母、数字和标点符号在内的语言详细类别进行自动判断;   (4)针对孤立单字识别,通过构建汉字部首组成信息库,提出了基于组成和整体一致性原则的识别后处理方法;   (5)基于词汇连续识别结果,通过机械字典构建了利用词库信息的连续识别后处理方法,并在此基础上实现了可视化表达和基于上下文的交互校正方法;   (6)设计和开发了原型系统,对若干数据进行了深入测试和评估。
其他文献
日益突出的网络安全问题以及网络带宽的高速增长,给网络安全检测系统的性能带了很大挑战。因此,设计、实现适用于高速网络环境下的网络入侵检测系统(NIDS)的需求变得异常迫切。
自然景观中飘雪的模拟,可以大大提高虚拟场景的逼真效果。雪花形态的不规则性、运动的无规律性以及受环境因素影响大的特点,使其建模方式和运动描述都非常困难。真实感的飘雪
随着数据仓库和OLAP技术的发展,越来越多的企业运用OLAP技术分析多维数据,以支持管理决策。数据立方体中可能存在异常。对用户来说,异常可能意味着有待解决的问题,或者存在着商机
社会网络分析作为一种应用性很强的社会学研究方法,成功地解决了许多社会学问题。以前的社会网络分析研究,主要集中在小规模人工收集的数据集之上。随着Internet的发展,大量
空间数据管理和维护技术是卫星数据应用系统的关键技术之一,对于推动卫星数据应用的发展有不可或缺的重要意义。本文在分析数据管理的各种先进技术的基础上,设计了卫星地面应用
工作流的概念起源于生产组织和办公自动化领域。近年来,随着计算机与网络技术的迅速发展,特别是网格技术的诞生,工作流技术已被广泛地应用到各个领域。本文重点研究了一种特殊的
人脸识别技术是近年来的热门研究内容,涉及模式识别和计算机视觉等方面的学科,在新一代人机交互技术和安全等领域的应用吸引了众多研究者的注意,具有重要的理论意义和应用价
最近几年,网络进一步普及,而人们对信息量以及信息获取速度的要求也在不断提高。基于此,对等网络(P2P)的用户规模、应用类型和流量也在不断增长。分析结果表明,基于P2P的语音通信
随着无线传感器网络在工业、军事、医疗护理、环境监测和保护等各方面的发展和应用,无线传感器网络已逐渐渗入到人类日常生活的很多领域。由于无线传感器网络是一个十分有限
网络技术和信息处理技术的飞速发展,使得人们由信息贫乏时代进入到一个全新的信息极度丰富的时代。面对纷繁复杂、包罗万象的信息资源,人们感到无从下手、难以找到自己感兴趣的