基于图模型的中文词义消歧方法研究

来源 :齐鲁工业大学 | 被引量 : 0次 | 上传用户:liudongjiw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为自然语言处理的一项基础性研究,词义消歧对机器翻译、信息检索、文本分类、情感分析等上层应用有重要影响。知识获取瓶颈问题是制约词义消歧技术发展的重要因素,现存多种知识资源各有优势,如果能够对多种中英知识资源进行整合,优势互补,充分发掘资源中的消歧知识将有助于词义消歧任务的开展。本文试图从这一角度出发进行相关研究,在图模型框架下,利用多种中英文知识资源进行相似度计算,使用模拟退火算法对相似度值进行权重优化,以此整合多种知识资源共同构建消歧图,从而进行中文词义消歧的处理。本文的主要工作和贡献体现在下述三个方面:(1)针对传统中文词义消歧方法面临的知识资源不足问题,提出了一种基于英文词语相似度计算的图模型词义消歧方法。主要思路是将中文词义消歧问题转换到英文领域,而后借助较为完善的英文知识资源,进行词义消歧处理。针对该方法涉及的两个关键问题,即词义映射和英文词语相似度计算问题,提出了基于词向量的BabelNet词义映射方法、基于词向量和知识库的词语相似度计算方法。实验结果表明,该方法能有效地利用英文知识资源,能够提高中文词义消歧的消歧准确率。(2)针对现有消歧方法中存在的对知网知识利用不充分问题,提出了一种基于HowNet的图模型词义消歧方法。该方法利用依存句法分析获取上下文知识,构建上下文消歧图,并对HowNet中有着重要词义区分能力的例句进行依存句法分析,构建依存消歧图,结合上下文消歧图和依存消歧图完成歧义词的消歧处理。实验结果表明,该方法在SemEval-2007 task#5数据集上取得了0.468的消歧准确率,能够获得优于同类方法的消歧效果。(3)为进一步整合各类消歧知识资源,提出了一种基于图模型的中文词义消歧方法。该方法融合了前述多项工作,以期进一步提升词义消歧的性能。设计了一种基于模拟退火的权重优化算法进行权重参数寻优,以此为基础构建消歧图进行词义消歧处理。实验结果表明,该方法能够有效改善中文词义消歧的效果,其在SemEval-2007 task#5数据集上的消歧准确率可达0.492。
其他文献
环境问题的加剧以及化石能源的消耗殆尽,使人类迫切寻求新的清洁能源替代品去满足工业的发展和环境的保护。诸如光伏发电之类的分布式发电技术正受到越来越多的关注,并且以微电网的形式接入配电系统被认为是利用太阳能的最有效地方式之一。但是,分布式电源受环境的影响很大,而且微电网在并网/孤岛运行切换时会对主网造成很大的冲击。近年来,将储能装置应用于微电网之中来克服分布式发电对大电网的不利影响,提高了供电可靠性和
反应堆中微子能谱的精确测量不管是对于反应堆中微子实验,还是对于反应堆检测都具有重要意义。近年来,一系列短基线反应堆实验观测的平均中微子通量比Huber、Mueller等人的预期通量少6%左右,差异大于1倍σ误差范围。这就是所谓的反应堆中微子反常。同时还发现,实验上测量的中微子能谱与预期的中微子能谱在5~7MeV能量区间,也存在差异。国际上著名的反应堆中微子实验,包括大亚湾中微子实验,韩国的RENO
在刑法学界,死者占有财产的归属问题在刑法理论界一直存在争议,该争议事关侵犯死者占有财产的定罪问题。占有是财产犯罪中不可或缺的概念,在财产犯罪中的占有之基础性地位使它成为理论与实务持续关注对象,但囿于占有概念本身的抽象性,导致其法律适用现状的混乱,这便给了司法解释和司法实践随意“施展才华”的空间。刑法上占有概念的核心在于支配、控制,而民法上的占有则更突出占有人的占有意思,因此,需要重新审视占有概念本
中职学校作为为社会培养和输送中等素质应用型技能人才的主阵地,承担着发展中职教育的重要责任和使命。现如今,随着国家对职业教育的关注程度不断提高,中职学校的教育质量问
在本文中,我们关注混合厄朗模型(Mixed Erlang Model,MER模型)的贝叶斯变分方法应用。混合厄朗模型(MER)的多变量混合形式构成了一种通用且易于分析的分布,除此之外,该分布在
高职院校作为为社会培养和输送高素质应用型技能人才的主阵地,承担着发展高职教育的重要责任和使命。现如今,高职院校担任实践实训课程的老师多数是来自行业、企业一线的、拥
科技进步能够促进经济增长,所以各国政府都非常重视科技投入。但行政区域的独立性使地方政府间表现出财政支出策略性行为,那么,地方政府在科技投入上是否同样存在策略互动?如
多环芳烃是一类典型的持久性有机污染物,具有高毒性、高生物富集性和难以降解等特点,其中,芘因其具有稳定的四苯环结构,成为研究高环芳烃的代表性有机物。环境科学技术领域的研究热点一直是多环芳烃的微生物修复法,这种修复方法的运行费用低、对环境没有干扰,广泛应用于环境中多环芳烃的去除。自然环境中存在的多环芳烃降解菌虽然种类丰富,但由于自然环境中污染物分布并不集中,细菌在自然条件下对多环芳烃污染物的降解能力有
生态语言学是一门新兴学科,国内生态语言学起步较晚,需要借鉴国外相关研究成果,因此对国外优秀学术论文的翻译就显得尤为重要。译者选取了著名语言学家斯特芬森和菲尔2014年发表的生态语言学论文《生态语言学:研究现状及发展趋势》作为本实践报告的翻译文本。该篇学术论文具有极高的学术性、专业性、严谨性和精准性特点,也给本次翻译实践带来难点。翻译难点具体体现在三个层面:(1)词汇层面,疑难学术术语使用较多;(2
粘弹阻尼道床是受约束阻尼结构的启发所发明的一种新型的道床减振方式,结构主体是由道床(约束层)、基层和由粘弹阻尼材料组成的阻尼层构成。但在实际工程中,列车往往因紧急制