科技文献中句子级新信息探测方法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:haideliliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络科技文献数目的日益庞大,现代科技文献的特点是产出成果多、速度快、知识容量大。人们希望查找的有关信息夹杂在浩瀚的无关信息中,即使是有关的信息也存在着无数次重复的阐述。因此,有效解决信息冗余,在科技文献中自动地发现新的相关信息,这是亟待解决的研究课题。   本论文对有关文本新信息探测所涉及的相关理论和方法进行了全面分析总结,这些问题包括:文本的表示,文本之间相关性、新颖性判断的理论和方法,现有的支持文本新颖性探测的相关理论和工具。根据科技文献的特点,就当前研究方法中存在的问题、不足,提出了基于分类的层叠探测模型,本论文的研究工作主要包括以下几个方面:   (1)针对科技文献的特点,结合当前已有领域词汇不足的现状,提出了利用作者给定关键词来充实领域词汇的方法。首先利用n-gram算法在作者给定的关键词中提取领域核心词,利用提取的领域核心词和《知网》对关键词进行相似度判断,将计算后认为是表达同一意义的同义词进行合并;最后得到没有冗余的新的领域词表,利用这个词表来充实已有的领域词表。   (2)针对文献自身的特点,在进行文献相关性探测时,将文献表示为文献标题、所刊的刊名和作者给定关键词的加权向量,设计和实现了科技文献中句子级新信息探测的文献表示模型以及文献与领域相关性判断。   (3)分析了文献中各种组成成份与新颖性探测的关系和作用的基础上,提出一系列用于科技文献中句子级新信息探测的指标体系。根据科技文献中包含有新信息的句子特点,提出了多维的句子表示模型。利用相似度来度量句子的新颖度,提出层叠新颖度量方法。根据摘要的要素将每个句子归到合适的类别,设计和实现了基于分类的层叠探测模型。   利用本文提出的句子级新信息探测方法,从CNKI文献数据库中下载实验数据进行了实验分析和算法评估,实验分为两组,一组进行摘要内部细分类,另一组不进行摘要内部细分类。每一组在进行句子新颖度计算时,分为三种计算方式,分别为层叠计算、加权计算和单一向量计算。实验证明本论文提出的基于分类的层叠探测方法能更好地对文献的新颖性探测提供支持。  
其他文献
课堂教学活动作为学校教育的主阵地,也是心理健康教育的主阵地。把心理健康教育渗透到课堂教学过程中,提高学生的心理素质和健康意识,更好地帮助学生解决困扰学习的心理问题,调节
目的:本研究在梳理国家卫生信息系统评估相关理论与实践经验的基础上,对国家卫生信息系统概念和框架模型进行提炼,并总结国际主流评估框架体系各自优缺点,基于兼顾综合性和简练
众所周知,档案是真实记载人类社会行为实践活动的最初凭证,是人类历史长河沉淀的宝贵遗产。这些宝贵的遗产正经历时间和空间变迁的洗礼和外来生物的侵蚀,尤其是纸质档案。档
基于产业集群理论发展起来的高新技术产业区,在我国已有20余年历史,由最初的创新要素集聚逐渐向区域创新网络过渡,处于不断成长和完善中的高新技术产业集群还没有形成坚实稳固的
专利是技术创新和科学技术发明的产物,已被广泛用于研究技术进步与创新活动、鉴别技术发展趋势、研究国家和企业研发战略、指导创新管理与政策制定等。专利权人在创新过程中发
小学数学"大问导学"的教学模式就是指根据特定的小学生的心理特点、学习经验以及学习困惑点,采用一定的教学策略,对课程关系、问题引导、学习方式等多方面进行系统处理,提出质量高
本文通过对荣华二采区10
技术由于内在的不确定性存在风险。技术风险包括技术给社会经济系统带来的风险,即科技哲学层面的技术风险;投资和科研项目开发中的技术风险和技术本身不确定带来损失的可能,即纯
期刊
亲爱的《体育文化导刊》读者们:6月15日,我在中国北京劳动人民文化宫(太庙)参加了以“奥林匹克,瞬间的永恒”为主题的“2017北京奥林匹克博览会”开幕式。来宾们在气势宏伟的
期刊