论文部分内容阅读
矢量笔迹是通过数码笔等计算机笔输入设备采集的,由笔划组成。笔划包含时序采样点,采样点具有坐标、时间和压力等。中文矢量笔迹文本具有复杂的组成单字,例如类型多样、间距较小。结构化和符号化是智能处理中文矢量笔迹文本的基础,因而,本文针对分割和识别技术分别展开了深入研究,具体内容如下:
(1)针对混排中文矢量笔迹文本中单字复杂性,提出了迭代提取方法;
(2)针对分割结果中元素重叠性和降低用户查错负担,提出了自适应可视化,以及相应的交互校正方法;
(3)针对混排文本整体识别问题,利用多种特征进行组合分类,对比了多种分类器,采用了基于支持向量机的分类方法,可以对包括汉字、英文单词、英文字母、数字和标点符号在内的语言详细类别进行自动判断;
(4)针对孤立单字识别,通过构建汉字部首组成信息库,提出了基于组成和整体一致性原则的识别后处理方法;
(5)基于词汇连续识别结果,通过机械字典构建了利用词库信息的连续识别后处理方法,并在此基础上实现了可视化表达和基于上下文的交互校正方法;
(6)设计和开发了原型系统,对若干数据进行了深入测试和评估。