【摘 要】
:
在中文信息处理领域中,相比分词、命名实体识别、词性标注等一些浅层自然语言处理任务来说,句法分析、机器翻译、自然语言理解、自然语言生成等深层次自然语言处理任务也越来越受研究者关注。句法分析是自然语言处理技术中的重要一环,它判断输入的词语序列的构成是否满足给定语法,分析出合乎语法的句子结构,并将分析结果转换成一棵句法树。根据句法分析结果,计算机可以深刻地理解语句结构、词语间的关系等。这样更便于计算机自
论文部分内容阅读
在中文信息处理领域中,相比分词、命名实体识别、词性标注等一些浅层自然语言处理任务来说,句法分析、机器翻译、自然语言理解、自然语言生成等深层次自然语言处理任务也越来越受研究者关注。句法分析是自然语言处理技术中的重要一环,它判断输入的词语序列的构成是否满足给定语法,分析出合乎语法的句子结构,并将分析结果转换成一棵句法树。根据句法分析结果,计算机可以深刻地理解语句结构、词语间的关系等。这样更便于计算机自动化处理很多任务。在机器翻译、信息检索、自动摘要等深层次自然语言处理任务中广泛使用着句法分析技术,所以提高句法分析的性能及准确率,对自然语言处理中的很多深层次或上层任务有着很大的意义。句法分析主要分为结构句法分析和依存句法分析。结构句法分析结果信息丰富,可以根据依存树与结构树转换规则,把结构句法分析结果转化为依存树,然而依存树却很难被转化为结构句法树。汉语依存句法分析从国外引入,汉语与其他语言也有着很多不同,依存句法分析也不能很好地适用于汉语的句法分析。当前汉语句法分析具有多种数学模型,但是却没有公认较好的数学模型。本文结合个人在研究中对汉语的了解和发现,认识到汉语有众多独特的语言特征,如汉语语序、汉语句法分析中涉及多元规则、“前修饰后”规则、汉语句法规则具有一定优先级等,构建了一个算式化汉语融合句法分析模型。该模型算式化运算规则是根据个人总结和语料统计得到的句法分析规则的一种数学化映射。本文根据基于规则的句法分析的缺点,引入了改进的条件随机场组块识别算法,结合了具有不同优先级的多元句法规则。通过对语料分析,设定特征函数,选取符合模型的语料进行训练,得出一个组块识别模型。接着对分词后的语句进行组块识别,然后结合汉语众多特征,采用逆向扫描的方式,使用具有不同优先级的多元规则进行下一步的层次化句法分析,最后得出句法分析结果。本文将句法分析结果使用XML格式保存,便于计算机进行下一步处理,使用LATEX展示成一棵类句法树,便于自动化操作以及查看句法分析结果。本文提出的模型使用了人民日报语料和CTB8.0语料进行实验。在综合实验中使用5-折交叉验证方式比较二元规则的算式化句法分析方法、多元规则的算式化句法分析方法、结合条件随机场组块识别与二元规则的算式化句法分析方法以及结合条件随机场组块识别与多元规则的算式化句法分析方法。综合实验表明使用结合条件随机场组块识别与多元规则的算式化句法分析结果表现最好,在实验语料中平均正确率达到85%左右。
其他文献
胶原纤维(CF)是废弃动物质资源的主要成分,来源广泛、价廉易得,具有特殊的化学特性和天然的介观结构,其分子上丰富的活性基团易与植物多酚和Ti4+等金属离子结合。而杨梅单宁(
固体氧化物燃料电池(SOFC)是一种高效、清洁的能量转换装置,可以将燃料中的化学能直接转换为电能。目前,有关SOFC的研究主要集中在改性现有阴极以提高其结构和化学稳定性,以及开发新型的中低温阴极材料和抗积碳抗硫毒化的阳极材料。(La0.8Sr0.2)0.95MnO3-δ(LSM)阴极材料具有高电子导电性、显著的氧还原催化活性和结构稳定性等优点,是一种备受青睐的传统SOFC阴极材料。为了改善LSM在
随着互联网产品和服务的快速发展和多样化,以活动为主的社交网络(Event Bsaed Social Network,EBSNs)也得到了快速的发展。在EBSNs社交平台上频繁产生着大量的各种各样的活动
社会的快速发展为我们生活带来诸多改变,随着我国经济的高速发展,环境保护与环境治理的形势日渐严峻。基于此背景,我国在生态文明建设过程中不断采取新措施以改善这种情况,其中之一便是创设《中华人民共和国环境保护税法》(下文简称“环保税法”)。该法的制定与实施是环境污染治理的重要举措,也是我国开展环境治理工作的重要前提。我国现行环保税法的创设是基于将污染费平移的“费改税”方式,使得环保税其自身特别是税目方面
GPS以其全天候、高精度、实时性等优点广泛应用于地壳形变、地球动力学、地震学等领域研究中。随着全球永久性GPS连续观测站的密集建设,以及GPS数据处理精度的不断提高,GPS能
随着下一代测序技术(Next Generation Sequencing,NGS)的发展和逐步普及,基因测序变得越来越快速,费用也越来越亲民。基因组序列数据正以爆炸性的速度扩增,因而产生了海量基因组序列数据。传输,存储,处理和分析这些数据的时耗和费用日渐成为制约基因组学和生物医学发展的瓶颈。虽然现有许多通用的数据压缩算法和软件,但由于不能考虑和处理基因组序列数据的固有特性,它们不能高效地压缩基因组
间断神经网络因其激励函数的不连续性而具有更丰富的动力学行为,诸如全局有限时间稳定与同步等。本文将随机semi-Makovian过程引入到间断神经网络中,主要研究了具有semi-Makovian切换和间断激励函数的神经网络全局随机有限时间同步问题。主要内容包括:1.针对具有semi-Makovian切换的随机非线性系统,应用Lyapunov-Krasovskii泛函方法、随机分析理论以及不等式分析方
随着复杂网络研究的深入发展和研究领域的不断拓展,将复杂的系统抽象成复杂网络来研究,建立系统模型再结合复杂网络系统理论研究具体问题,已成为研究复杂系统的重要方法之一。复杂网络系统节点的同步现象普遍存在于各种复杂系统中,因此研究复杂网络的同步控制问题具有很重要的实际意义和理论价值。随着科学技术的发展,在控制系统中使用计算机有效地控制设备已成为一种普遍的趋势。计算机输入信号必须是离散的,而采样控制就是把
抗冻蛋白在多个领域都具有广阔的应用前景。随着后基因组时代的到来,各种数据库收录的蛋白质序列数据日趋完善,促进了生物信息学的发展。当前,许多研究小组致力于研究生物序列提取算法、特征选择以及分类算法的研究,并成功将其应用蛋白质结构和功能谱的分类和预测中,但在抗冻蛋白领域鲜有研究。基于此,本文主要针对抗冻蛋白的特征表达方式以及特征选择方法进行了深入的研究,并从多方面进行试验加以论证。本文的主要工作总结如
基因编辑技术(CRISPR/Cas9)作为一种新的生物技术不仅前景可观而且意义重大。但是将该技术运用于人类的生殖细胞却面临着较大伦理风险和安全隐患。更为严重的是,滥用该技术甚至可能会加剧社会分化和不平等,并引发基本伦理道德间的冲突,危及人类尊严。“贺建奎事件”不仅挑战了我们一直遵循的伦理道德,而且更加反映出了我们的法律缺位问题。从私法领域的角度来看,该事件不仅引起了我们对于基因权利保护的重新思考,