汉语非相关文献知识发现的研究与系统实现

来源 :南京农业大学 | 被引量 : 0次 | 上传用户：orc2008

【摘要】

：

随着科学技术的快速发展，学科分工愈来愈细。不同学科间表面上没有任何联系的文献中，可能隐含着未被发现的有价值的关联。挖掘文献之间的这些隐含的联系对科学发展具有重要推动

【作者】

：

李志燕

【机构】

：

南京农业大学

【出处】

：

南京农业大学

【发表日期】

：

2007年期

【关键词】

：

知识发现非相关文献 Swanson 开放式闭合式

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着科学技术的快速发展，学科分工愈来愈细。不同学科间表面上没有任何联系的文献中，可能隐含着未被发现的有价值的关联。挖掘文献之间的这些隐含的联系对科学发展具有重要推动作用。近20年来，情报工作者对这一领域展开了积极探讨，美国芝加哥大学的情报学教授Don R．Swanson，首先以充分的文献证据论证了基于非相关文献的知识发现思想。随后，各国科学家都纷纷用不同的方法来测试和验证Swanson的思想和结论，分析所采用的数据源皆为Medline记录。本文继承了Swanson的思想，以中国期刊网1979年到2006年全文数据库生物医药卫生领域的文献为数据源，分别研究开放式和闭合式非相关文献的知识发现算法，并实现基于汉语的非相关文献知识发现系统。Swanson算法只对标题进行了处理，而本文将其算法进行了延伸，分别对标题和摘要都进行了处理。并且解决了处理汉语文献过程遇到的许多实际问题，如汉语分词、语词多义性等等。在研究开放式知识发现过程中，通过验证“偏头痛／镁”这对假设在汉语文献中是否存在关联，来判断本文采用的开放式知识发现算法的可行性。开放式知识发现系统对标题和摘要分别进行了处理，算法都是模拟Swanson的思想。但是因为每个词在每篇标题中只出现一次(大于一次的忽略)，而在摘要中可能出现大于一次的现象，所以在处理标题和摘要时，具体的算法公式略有区别。结论是，无论处理标题还是摘要，通过开始文献，中间词，目标词的步骤都能从“偏头痛”找到“镁”。使用标题计算与使用摘要计算相比，优点是速度快，缺点是找到的中间词不如以摘要计算多，而且找到的目标词“镁”的排列位置不如以摘要计算靠前。闭合式知识发现过程，目的是通过书目不相关联的“雷诺氏病／鱼油”、“偏头痛／镁”之间的逻辑关联的存在性，验证本文采用的闭合式知识发现算法在汉语文献中的可行性，若可行，则闭合式知识发现系统可以用来验证开放式知识发现系统提出的假设是否准确。系统采用的是Swanson教授本人的闭合式知识发现算法，同样对标题和摘要都进行了处理，结果发现用标题计算仅能求得部分中间词，而用摘要计算可以求得几乎所有期望得到的中间词，可见此算法处理摘要的效果优于处理标题。最后，本文分别对开放式和闭合式发现过程进行了验证与分析，并把发现结果跟Swanson教授的发现结果进行了对比讨论。得出如下结论：由于存在语种区别，人工干预，处理方法的细微差别等问题，本文得到的结果跟Swanson的结果不完全一致。但是Swanson教授的算法思想应用在汉语文献中同样可行。

其他文献

网络环境下储存图书馆及储备书库建设模式——法、德两国图书馆建设特点及其借鉴

指出随着网络技术的不断完善,低利用率文献大幅增加,需建立储存图书馆与储备书库满足文献保存需求。通过介绍法、德两国储存图书馆与储备书库的建设情况,建议我国图书馆在规

期刊

网络环境储存图书馆储备书库图书馆建设

集成情境知识构建的体系设计与系统实现

与传统知识构建相比,集成情境知识构建(KAIC)具有许多新功能,已成为知识构建的理想目标。然而,KAIC从实施到实现,不仅需要通过KAIC核心过程的情境化方法和关键性技术来进行其

期刊

情境知识构建集成情境知识构建情境化集成情境知识模型

高校BBS讨论区内信息有序化研究及管理启示——以南京大学小百合网站为例

从信息管理的角度出发,选取南京大学小百合讨论区平台中的数据,探索高校BBS讨论区内信息规律。通过统计,发现讨论区信息宏观数量特征及活跃话题的长尾效应,利用社会网络分析

期刊

BBS平台信息有序化信息管理

信息资源配置评价研究

人们的生活已经越来越离不开信息了。信息作为一种资源，如何对其进行测度?如何评价信息资源的优劣?如何对信息资源的配置状况及效果进行评价?这一系列问题已经进入了研究者的

学位

信息信息资源信息资源配置信息资源配置绩效评价

电子教学参考资料系统的研究与设计

本文以高校e-Learning整体环境为研究背景，从高校图书馆的角度，围绕课程为核心，对电子教学参考资料系统(Electronic Reserves system，ERes)进行探讨、分析、研究和设计。首先

学位

在线学习电子教学参考资料系统元数据JSP高校图书馆网络教学平台

国内贮存图书馆的研究与实践述评

以1982-2011年我国贮存图书馆研究与实践的文献为研究对象,归纳总结我国贮存图书馆研究与实践的进展,并依据研究轨迹对我国贮存图书馆研究的主题进行评述。认为随着时间的推

期刊

贮存图书馆密集书库低利用率文献合作储存资源共享述评

数字档案生态链信息流转机制研究

数字档案是现代信息技术的产物,是档案信息资源的一种新形态。数字档案的出现大大减少了传统载体档案占用的物理空间,一定程度上缓解了传统载体档案库房管理的难度。同时数字

学位

数字档案信息生态链信息流转流转机制

苍蝇在非洲猪瘟病毒传入猪场中的作用

波罗的海诸国以及东欧其他国家部分高标准生物安全猪场暴发非洲猪瘟,苍蝇可能在非洲猪瘟病毒传播上扮演着重要的角色.

期刊

非洲猪瘟猪场苍蝇

企业预警情报管理研究

随着全球经济一体化和社会信息化进程的推进，企业参与竞争的市场范围进一步扩大，有关企业竞争的信息日益繁多且庞杂无序，企业所面临的经营环境的动态性、复杂性、不确定性也日益

学位

企业预警情报预警情报管理流程企业预警情报系统企业预警情报产品体系预警信息监视信息扫描

论我国IR存取模式及其版权政策体系之完善

从存取模式角度考察国内45个机构知识库(IR),认为我国IR目前存在的主要问题在于:存储模式单一;存取政策缺失;回避版权。将国内45个IR的发展水平划分为三个层级,提出建立复合

期刊

IR存取模式版权

汉语非相关文献知识发现的研究与系统实现

其他学术论文