基于NLP的专业领域文档语义标注方法研究与实现

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:jpy_2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及和信息社会的高速发展,网络上的资源数量以几何级数递增。在当今的知识的表现形式中,文档表现仍然是一个主流方式,包括书籍以及计算机上各种格式的文件。如何以一种快速高效的方式从这些大量的非结构化的文档中获取自己需要的知识,已经成为了当下研究的热点之一。随着语义网相关概念的兴起,人们对于知识的获取的研究不单单只是针对于文档本身,而已经开始转向于文档内容的语义。现有的语义标注方法有很多,但是很多方法都依赖于现有的本体库(WordNet等),并且只用到一般性的概念进行标注,缺乏领域支持。针对于现有的语义标注方法的不足,本文以电影领域为研究对象,提出了一种基于自然语言处理的领域语义标注方法并实现了原型系统。该方法主要分为两大部分:第一部分是基于自然语言处理方法的领域本体库的构建,第二部分是基于自建领域本体库的语义标注。领域本体库的构建主要分为语义的模型构建、三元组抽取、规范化表述形成三个部分。语义模型的构建主要是根据语料构建领域本体库,为后面所有的工作提供支持;在三元组抽取的过程中,主要用到了基于依存句法分析与基于规则的方法相结合的方法——在依存句法分析的基础之上,结合需求,指定模式与规则来对三元组进行抽取;规范化表示主要用现在最普遍的OWL方法对本体进行表示。基于自建领域本体库的语义标注方法主要涉及到了语义相似度的计算以及标注规则制定。此外,在分析现有的语义相似度计算方法优缺点的基础上,提出了一种与共现频率相结合的语义相似度计算方法,并结合数据库的数据索引检索功能以及相关规则,实现实例与概念一起对待标注语料的标注。实验结果表明,本文提出的方法取得了较好的结果。实验的数据来源于豆瓣和百度百科。通过与经典的语义标注方法进行对比,所提出的方法标注速率以及fscore值都有相应的提升。
其他文献
多元系统论是以色列学者伊塔马.埃文—佐哈尔在借鉴俄国形式主义和捷克结构主义的基础上发展出来的一套理论,该理论主要探讨翻译文学的地位和翻译策略。本文以多元系统理论为
选择强度约束还是总量限制作为温室气体减排目标,是后《京都议定书》时代有关气候变化协议的一个重要议题。本文用一个简单的理论框架比较了碳排放强度约束和总量限制的绩效,
目的:探讨不同肥胖判定标准的差异及实际应用意义。方法:对入选441例健康体检人员分别测定身高、体重及体脂肪率,根据BMI、标准体重及体脂肪率三种不同肥胖判定方法分别计算
以小麦淀粉为原料,用次氯酸钠作氧化剂在碱性条件下制备粉状氧化淀粉,研究了氧化剂用量、反应pH值、温度和时间等因素对产品羧基含量和糊的性质的影响。研究表明,氧化剂用量
在中国石油工业的发展历史过程中,始终用哲学的思维指导我们的工作,特别是大庆油田是靠毛泽东的哲学思想,即《矛盾论》、《实践论》起家的,依靠哲学的思维在科学的发展中不断完善
漏泄波导具有传输和发射电磁能量的双重作用,不仅能沿轴向传输电信号还能沿径向辐射电磁波,常被应用于用于地铁、高速公路、高速铁路、机场、隧道、大型商场、办公室、矿井等
为获得满足实际生产寿命要求的高耐磨、耐腐蚀注塑机螺杆涂层材料,且涂层材料在复杂应力状态下不会发生开裂、脱落,本研究首先基于流固耦合的数值模拟计算方法,在ANSYS的集成仿真环境下分别模拟讨论了不同物料黏度、螺杆转速、螺杆材料,对螺杆特别是螺棱处的受力及应变的影响,然后在数值模拟的基础上,通过硬度、成分、宏观形貌、显微组织、磨损率、腐蚀速率等考察了分别在不同载荷和不同温度、浓度、腐蚀介质中,WC含量
天水市规范水土保持监督管理工作,主要做法是:加强水土保持法律法规宣传;积极开展水土保持执法检查;规范水土保持方案审查、审批;依法征收水土保持补偿费,建设恢复治理示范点工程。
国外国有企业制度及其演变的比较研究复旦大学经济学院袁志刚国有企业是现代企业制度中一种特殊的产权组织形式。从世界范围来看,国有企业在不同的国家、不同的历史时期、不同
中国政府的的贫困工作取得了举世瞩目的成就,四川也不例外,取得了重大成绩。但是进入新世纪以来,尤其是汶川地震后,四川的反贫困工作又面临新的形势。本文通过分析四川扶贫开