基于神经网络的中文分词算法的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:gmn10021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语书写时是按句连写,词间无间隙,容易让人在句子的理解上产生偏差,这就给查询信息、机器翻译等工作造成了很大的困难:造成不相关结果的返回、找不到相关文档、翻译不准确等。所以为了解决这些问题就要对句中的词语进行精确的切分。 在对日常交流及其报刊杂志中所出现的各类语言现象进行深入分析研究后,本文对日常生活常见的典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码使用的词性代码库。以此为基础,利用神经网络的自组织、自学习的能力,达到对不同规则歧义字段的精确切分。在样本的选取上,本文所选样本空间基本囊括了歧义字段的各典型类型。样本训练前,先把字段中所包含的语法规则转换为神经网络能够接受的数据形式,将字段中的单词依词性代码库分别进行编码;在对输出结果所代表的含义进行解释时,从切分的表示方式上,以大量训练所得的输出结点值为依据对切分点进行判断。从而将字、词或抽象语法规则通过代码的表示方式与输入神经元对应,使切分方式与输出神经元相对应,找到了一个输入、输出逻辑概念到输入、输出模式的转换。通过大量数据训练达到了网络对歧义字段中包含的语法规则的学习,进而实现了对词语的准确切分。另外,通过采用给权值修正量加矩量项来修正学习速率的方法,对BP算法进行了改进,提高了收敛速度,使得分词效果得到了明显改善。 在采用三层BP网络进行大量样本训练后,由实验结果得出:算法在歧义字段分词上达到了93.13%的训练精度、92.50%的测试精度,在对未经训练的一般语料样本的处理上,达到了预期的切分效果。该分词方法提供了一种新的输入、输出逻辑概念到输入、输出模式的转换方式,成功地解决了由于字间组合方式无穷多而无法训练的难题,应用于词语切分上,取得了很好的分词效果。
其他文献
目前,虽然对T-S模糊广义系统稳定性分析与控制的研究已经取得了一些成果,但是与经典控制理论相比还相差甚远。T-S模糊广义系统的研究尚在起步阶段,还有许多有待解决的问题。本文
本文针对一类带有液体燃料的航天器,考虑液体在贮箱内的晃动效应,进行航天器的姿态控制和液体晃动抑制研究。由于航天器控制自身姿态的同时,还需要抑制液体燃料的晃动,使得整体系
随着工业以太网的大规模应用,嵌入式的工业以太网系统也越来越多地渗入到了工控领域,位于控制区域中的工业以太网控制器采用嵌入式系统来设计。随着以太网技术的不断发展,嵌
电动轮椅是一种以蓄电池为能源、电机驱动的轮椅车。具有省力、操作简便、车速平稳、无污染和低噪音的特点。适于下肢残疾、高位截瘫或偏瘫以及年老体弱者使用,是一种比较理想
本文对禁忌搜索算法作出改进,提出了一种解决带约束连续优化问题的禁忌搜索算法和一种解决混合整数规划问题的禁忌搜索算法。本文主要的研究成果和创新点包括: (1)提出了
与计算机技术相结合,是测试仪器发展的主流,由此而产生的虚拟仪器技术,已经成为测试仪器技术中的重要领域。本课题将虚拟仪器技术引入电网谐波测试之中,开发和研究了基于虚拟仪器的便携式谐波分析仪,采用计算机和UA301A数据采集器作为虚拟仪器的硬件平台,LabVIEW作为虚拟仪器的软件平台,使用FFT算法进行谐波分析。论文首先分析了谐波的危害、国内外谐波研究现状以及谐波测量算法,介绍了虚拟仪器的开发技术、
分布式实时控制系统需要一个强大的通讯链路连接各个远端的子系统。CAN总线是一种低廉的工业现场网络解决方案,正支持分布式实时控制系统应用。然而,它在较复杂的工业环境的
电机控制系统故障诊断研究是随着电子技术的发展而发展起来的。目前,小波分析的理论研究与工程应用日益受到各方面的重视。本文结合某公司课题“154t电动轮自卸车电传动控制
多源图像融合就是利用各种成像传感器获得的不同图像或同种成像传感器不同成像方式获得的不同图像,综合不同图像的互补信息和冗余信息,以获得更为全面、更为准确的图像描述供观
因为采煤工作面中瓦斯涌出源很多,并且瓦斯浓度受很多因素的影响,所以采煤工作面的瓦斯浓度分布十分复杂,尤其是上隅角,此处的瓦斯浓度通常是最高的,一旦超过煤矿瓦斯安全浓度的上