一种汉语词义消歧方法的研究

被引量 : 0次 | 上传用户:jack196409
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义消歧(Word Sense Disambiguation ,WSD)是计算语言学和自然语言处理领域一个重要的研究课题,也是近些年来该领域的热点研究问题之一。词义消歧结果的好坏直接影响到机器翻译、信息检索、句法分析和语音识别等应用领域。因此词义消歧研究在自然语言处理领域中具有重要的理论和实践意义。词义消歧方法有多种,目前基于知识库的词义消歧方法研究相对较少。对于这种有别于统计消歧的方法,在开放文本领域表现出明显的优势,而且该方法优于基于语料库的有指导学习方法。近几年来本体(ontology)研究迅速发展,目前在本体的内容、本体的表达方式、构建规则、自动化构建技术等诸多方面,都有持续深入的研究。随着越来越多高质量本体的出现,本体的应用越来越多的受人关注。本文沿着基于知识库消歧的方向,提出了一种利用中文本体知识库《知网》的相关资源、上下文信息等来进行词义消歧的一种方法,并通过计算词语的相关度和相似度来实现本文的词义消歧。具体的研究围绕以下几个方面:现阶段,很多词义消歧的研究大多采用几个有代表性的歧义词作为研究与测试的对象,在实际应用中有一定的局限性,因此本文希望能够针对真实的应用情况,对大规模文本进行词义消歧的研究。文中指出对任意输入的文本进行分词和词性标注后,再利用知网字典资源识别出文本中的多义词,解决了真实应用中存在的问题。利用本体作为词义消歧的知识库,避免了人工训练语料库获取词义的复杂过程,并能提供准确的含义,同时还能对大规模的多义词实现消歧。在利用上下文一定大小的窗口提取歧义词的特征词时,提出了基于三次互信息的思想来计算歧义词和上下文词语的相关度,有效地区别了高频词和低频词,并根据相关度的大小,提取出带有歧义词大量信息的特征词。根据本体是共享概念模型的明确的形式化的规范说明,是对世界知识的概念化描述,它可以作为自然语言处理系统中的世界知识库的特点(本文主要利用中文知网的资源)以及概念和概念之间的关系,提出了利用改进的相似度计算结果的大小来判断歧义词在特定上下文中的准确含义,从而实现词义消歧。实验证明本文的词义消歧准确率比以前的几种方法有较大的提高,进一步说明了论文中的词义消歧方法是可行的和高效的。
其他文献
伴随当代社会的深刻变化和快速发展,文化问题日益受到学界和社会的普遍关注与高度重视.文化问题之所以日益凸显,主要是由当代社会发展、当代人类文明发展、全球化发展以及国
教师同侪互助具有非常重要的实践价值,它是教师教学理念的主要来源,是提高教学能力的有效手段,是协同教育研究的重要方式,是构建合作型教师文化的基础。然而,目前教师同侪互
心悸是临床常见病症,对患者日常生活影响显著,目前中医及西医方面都有较多的研究。针灸治疗心悸不仅能控制症状,而且对引起心悸的疾病也有一定的治疗作用,有很好的疗效及安全
对SF6断路器在低温运行中SF6气体压力闭锁动作的原因进行了分析,提出了解决方案,以供参考。
鸡包涵体肝炎是养鸡生产中的常见病,由腺病毒感染所引起,呈世界流行,主要通过消化道、呼吸道、皮肤伤口、体表黏膜等水平传播,也能通过种蛋垂直传播;该病主要危害肝脏,可影响
Art Deco是上世纪20年代开始流行的一种艺术装饰风格。她以绚丽浓烈的色彩、几何化的古典装饰和奢华的名贵材质为主要特征,她曾在战争中没落,又在复古潮流中重现于大众视野,
随着我国人口的增加、工业化进程和交通运输的快速发展,对能源特别是电力的需求大幅度上升,经济发展面临着能源瓶颈的制约。节能降耗,建设资源节约型社会具有重大的意义。电
目的:本课题以研究图像增强和边缘检测算法的应用为目的,改善医学图像质量,从结果中获取更多有价值的信息,为临床诊断和分析提供依据。医学图像增强主要是为了将图像中感兴趣
国民党新闻传播制度之演进,是我国新闻传播发展史的重要一脉。本论文主要考察国民党新闻传播制度的本质,通过政治构架、政治文化和政治运行程序及其具体的法律制度、行政制度
陈怡创作的古诗词合唱作品具有独特的风格特征、意蕴和审美内涵。文章通过分析《望湖楼醉书》《赋得古原草送别》《相思》《夜雨寄北》《春夜喜雨》这五首合唱作品的结构、戏