领域知识的获取

来源 :北京邮电大学 | 被引量 : 38次 | 上传用户:king0083
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识库是自然语言处理系统的基础,为系统“理解”自然语言并顺利完成任务提供有力的知识保障。本文针对领域知识的获取进行了研究和探索,提出了一些新的处理技术和模型。主要创新点包括:1.针对领域知识源获取过程中的网络冗余信息问题,提出了一种基于关键词序列的网络文本信息去重算法——KSM。以全信息理论为依据,使用文档的关键词序列来描述其结构特征和内涵特征,通过比较主题相似文档的关键词序列的重叠度,判断是否存在信息冗余现象。在各类隐式重复检测实验中,KSM算法的总体准确率和召回率分别达到了99.2%和97.7%,显示了较好的性能。2.针对低频术语抽取召回率较低的问题,提出了一种基于语言认知理论的中文术语自动抽取算法,借助科技论文的话语标记,在C-value测度和SCP_f测度中引入候选术语的加权词频因子,提出了一种MC-SCP测度,用于候选术语的单元性和术语性的综合评价。在车牌识别领域的术语抽取实验中,基于MC-SCP测度的算法召回率和准确率分别是96.5%和77.8%,低频术语的召回率和准确率则分别是96.2%和79.3%;在保证术语抽取整体性能的同时,显著改善了低频术语的抽取效果。3.针对术语关系类型的多样化问题,提出了一种基于多策略的术语关系自动获取模型。根据科技论文的语言学特点,综合术语的内部特征和外部特征,从多个层面发现和获取术语间的各种关系,包括:基于规则的术语同义关系获取、基于结构相似性的术语层级关系获取、基于完全加权关联规则的术语非层级关系获取、基于粒子群的术语聚类等。在术语非层级关系获取中,提出了一种基于非频繁项集多重剪枝检测的完全加权关联规则挖掘算法——AWARM-MPIS,用于完全加权关联规则的频繁项集生成和剪枝,取得了良好的效果;在术语分组关系获取中,提出了一种基于粒子群的术语聚类算法,使用术语的结构相似性(内部特征)和关联度(外部特征)来评价术语的语义相似性。实验结果表明,其平均运行时间与迭代次数比K-Means提高了2个级别。4.针对多领域科技论文的大量出现与编辑人员专业知识有限的问题,提出了一个领域知识制导的科技论文初审辅助系统模型。根据科技期刊的出版要求和科技论文的特点,结合编辑人员的工作经验,将编辑初审细化为4个方面的评判,以此为依据开发了一个原型系统,并使用《计算机工程与应用》和《计算机科学与探索》的2365篇投稿论文为语料进行了性能测试。实验结果表明,该系统可辅助编辑人员淘汰35%左右的低质量稿件,提高了编辑初审的效率。
其他文献
由于淀粉加工会产生含有高浓度有机物的废水,若将其直接排放,会对环境造成严重危害。淀粉废水处理方法的研究越来越受到关注。本文就目前国内外淀粉废水的处理技术和工艺进行
目的探讨中央型肺鳞癌、小细胞肺癌CT征象与血清肿瘤标志物的关系及联合诊断的价值。方法收集54例经病理证实的中央型肺鳞癌及小细胞肺癌患者,同时行CT检查及血清肿瘤标志物C
随着建筑行业的不断发展,现阶段建筑装饰企业设计施工一体化已经成为了行业发展的一种趋势,该模式能够将装饰设计和施工的相关内容结合起来,发挥出二者的最大优势,同时解决装
自然法作为一个历史最久远的法学流派有着辉煌的成就,对西方文明的发展起着举足轻重的作用。自从斯多葛(stoic)学派正式使用了“自然法”这个概念起,自然法思想就成为西方文
目的探讨阴道试产失败的原因,中转剖宫产的手术指征和时机,从而降低中转剖宫产率。方法选取绍兴市柯桥区妇幼保健院2018.02-2019.05纳入标准的164例阴道试产失败中转剖宫产的
宁夏有着光荣的革命历史,长期的革命斗争留下了许多珍贵的革命文物,初步调查核实的不可移动革命文物有90处,是我国革命文物资源的重要组成部分,是激发宁夏人民爱国热情的深厚
炎炎夏日,外出游玩可不是消暑的好方式,那要如何度过这漫漫长假呢?赶紧加入腾讯朋友的应用中心吧,这里提供了300多款有趣游戏应用,随你选择,可以让你轻松享受到高质量的社交游戏和生活化应用还来的高效愉悦的网络生活,下面笔者就给大家介绍一二。