汉语句义结构模型分析及其文本表示方法研究

来源 :北京理工大学 | 被引量 : 9次 | 上传用户:BEYONDPEAKER
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网和信息技术的迅速发展,新闻、评论和微博等文本数量呈现爆炸式增长,对通过计算机处理海量文本数据提出了更高的要求。其中,文本表示是文本分类、聚类、检索等基础研究中极为重要内容之一,在文本数据处理中具有举足轻重的地位。同时,文本处理中对语义分析的需求越来越强,需要更深层次地挖掘语言中的语义信息。与英语等语种不同,汉语文本的处理存在更多、更大的困难,特别是汉语语义分析研究更是一项长期的具有挑战性的工作。本文围绕汉语句义结构模型及其在文本表示中的应用展开研究,建立汉语句义结构分析方法,利用其丰富的语义信息有效提升长文本和短文本的文本表示效果,力图推进汉语义分析理论与技术的发展。论文的主要成果和创新包括:1.提出了一种基于条件随机场和依存分析的句义结构多环节分析方法,可识别句义结构模型的28种句义成分和3种句义成分间关系,丰富了计算机可处理的汉语句义特征。汉语句义结构模型是汉语句子语义的抽象表示,是汉语语义分析的一种重要方法,是计算机可理解、可计算汉语句义的一种模型表示。论文提出的汉语句义结构多环节分析方法,将句义结构的识别过程分为5个环节,每个环节都可以得到相应的语义信息,包括28种句义成分和3种句义成分间关系,可根据需要灵活选用各识别环节。基于BFS-CTC语料库的实验,结果表明,句义结构识别F值为0.787。句义结构分析方法可以一次性完整识别句义结构模型的句义成分和句义成分间关系,实现了汉语句子到计算机可计算的句义结构的转换,丰富了计算机可处理的汉语句义特征,有利于进一步推进汉语语义分析的研究。2.提出了一种融合句义成分间关系的长文本表示方法,利用句义成分间关系指导主题模型的词语生成过程,打破主题模型的词袋假设,充分利用文本语义信息,有效提升了长文本分类和聚类的效果。长文本表示方法近年来得到了长足的发展,主题模型是长文本表示极为重要的方法。但是,现有的主题模型文本表示方法,由于没有考虑词语之间的语义关系造成了语义信息的丢失,从而影响了文本表示的效果。论文提出了融合句义成分间关系的长文本表示方法,该方法使用句义成分间关系到词语语义关系的映射,将文本中的词语表示成词语本身和与其相关的语义关系词语对,打破主题模型的词袋假设理论,在文本生成过程中考虑并利用了词语之间的语义关系信息。基于Sogou文本分类语料库分别进行了困惑度、文本分类和文本聚类实验,结果表明,困惑度值为480.319,文本分类精确度为0.907,文本聚类ARI值为0.4537。通过引入句义结构模型中句义成分间关系,使用语义信息指导主题模型的词语生成过程,充分利用了文本语义信息,有效提升了长文本分类和聚类的效果。3.提出了一种利用句义成分的短文本表示方法,通过利用句义结构模型的话题和述题构建主题选择判定规则,选择语义相关词语扩充到短文本中,缓解了短文本表示的特征稀疏问题,有效提升了短文本分类和聚类的效果。文本表示方法研究中,短文本表示的特征稀疏问题影响了短文本的分类和聚类效果。论文提出利用句义成分的短文本表示方法,该方法在保证特征空间维度不变的同时,结合利用句义成分和主题模型构建语义相关词语,再利用句义结构模型的话题和述题构建主题选择判定规则,选择语义相关词语扩充到短文本中,减少了短文本表示向量中的0值特征,有效缓解了短文本表示的特征稀疏问题。基于Sogou文本分类语料库分别进行了文本分类和聚类实验,结果表明,短文本分类精确度为0.8031,聚类ARI值为0.2728。利用语义相关词语丰富短文本的语义信息,缓解了短文本特征稀疏问题,有效提升了短文本分类和聚类的效果。4.构建了一个汉语句义结构分析及应用研究平台,实现句义结构分析和句义结构语料标注共享功能,易于扩展多种基于汉语句义结构模型的应用基础及应用研究。为了更广泛和深入地推动汉语句义结构模型的研究,采用LNMP架构,依靠远程过程调用协议进行模块化开发,研发了一个汉语句义结构分析及应用研究平台。该平台的主要功能包括汉语句义结构自动分析和汉语句义结构语料库标注共享等。此外,该平台稳定可靠、易于维护、易于扩展,为推进汉语句义结构的广泛研究奠定了基础。
其他文献
随着联通CDMA项目的推进,3G时代呼之欲出,科健公司看到了CDMA市场的广阔前景,率先深入进行CDMA技术的研发,在此之前已经自主研发出符合IS-95标准的CDMA手机--科健C18.
信息产业部电信管理局是全国电信业务和市场的主管部门之一,推进各种新技术新业务的开发应用和加强业务市场的管理是我们的重要职责.作为本次宽带无线技术研讨会的支持单位之
二氧化钛纳米管阵列以其优异的物理化学性质,使其在储氢、光催化降解以及染料敏化太阳能电池等领域广泛应用的同时,也成为了一种新型的气敏材料。对于其气敏特性的提高和器件物
德国普拉特公司(C.Plath GmbH Nautisch-Elektronische Technik)位干德国汉堡市,它是由德国无线电测向技术的先驱者马克西米廉·沃西特勒博士干1954年注册成立的,但该公
2003年10月15日,中国自行研制的"神舟五号"载人飞船顺利升空,航天员杨利伟在太空飞行时的声音和图像信号通过无线电波实时地传回了地面.在这个举国欢庆的时候,新疆无线电管理
滑坡预测预报是有效预防滑坡灾害的重要途径之一,这方面的研究不仅受到广泛重视,且硕果累累。将中国滑坡预测预报的研究历史划分为四个阶段:①经验判断——被动防灾避灾阶段;