汉语非相关文献知识发现的研究与系统实现

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:orc2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的快速发展,学科分工愈来愈细。不同学科间表面上没有任何联系的文献中,可能隐含着未被发现的有价值的关联。挖掘文献之间的这些隐含的联系对科学发展具有重要推动作用。近20年来,情报工作者对这一领域展开了积极探讨,美国芝加哥大学的情报学教授Don R.Swanson,首先以充分的文献证据论证了基于非相关文献的知识发现思想。随后,各国科学家都纷纷用不同的方法来测试和验证Swanson的思想和结论,分析所采用的数据源皆为Medline记录。本文继承了Swanson的思想,以中国期刊网1979年到2006年全文数据库生物医药卫生领域的文献为数据源,分别研究开放式和闭合式非相关文献的知识发现算法,并实现基于汉语的非相关文献知识发现系统。Swanson算法只对标题进行了处理,而本文将其算法进行了延伸,分别对标题和摘要都进行了处理。并且解决了处理汉语文献过程遇到的许多实际问题,如汉语分词、语词多义性等等。在研究开放式知识发现过程中,通过验证“偏头痛/镁”这对假设在汉语文献中是否存在关联,来判断本文采用的开放式知识发现算法的可行性。开放式知识发现系统对标题和摘要分别进行了处理,算法都是模拟Swanson的思想。但是因为每个词在每篇标题中只出现一次(大于一次的忽略),而在摘要中可能出现大于一次的现象,所以在处理标题和摘要时,具体的算法公式略有区别。结论是,无论处理标题还是摘要,通过开始文献,中间词,目标词的步骤都能从“偏头痛”找到“镁”。使用标题计算与使用摘要计算相比,优点是速度快,缺点是找到的中间词不如以摘要计算多,而且找到的目标词“镁”的排列位置不如以摘要计算靠前。闭合式知识发现过程,目的是通过书目不相关联的“雷诺氏病/鱼油”、“偏头痛/镁”之间的逻辑关联的存在性,验证本文采用的闭合式知识发现算法在汉语文献中的可行性,若可行,则闭合式知识发现系统可以用来验证开放式知识发现系统提出的假设是否准确。系统采用的是Swanson教授本人的闭合式知识发现算法,同样对标题和摘要都进行了处理,结果发现用标题计算仅能求得部分中间词,而用摘要计算可以求得几乎所有期望得到的中间词,可见此算法处理摘要的效果优于处理标题。最后,本文分别对开放式和闭合式发现过程进行了验证与分析,并把发现结果跟Swanson教授的发现结果进行了对比讨论。得出如下结论:由于存在语种区别,人工干预,处理方法的细微差别等问题,本文得到的结果跟Swanson的结果不完全一致。但是Swanson教授的算法思想应用在汉语文献中同样可行。
其他文献
人们的生活已经越来越离不开信息了。信息作为一种资源,如何对其进行测度?如何评价信息资源的优劣?如何对信息资源的配置状况及效果进行评价?这一系列问题已经进入了研究者的
本文以高校e-Learning整体环境为研究背景,从高校图书馆的角度,围绕课程为核心,对电子教学参考资料系统(Electronic Reserves system,ERes)进行探讨、分析、研究和设计。 首先
数字档案是现代信息技术的产物,是档案信息资源的一种新形态。数字档案的出现大大减少了传统载体档案占用的物理空间,一定程度上缓解了传统载体档案库房管理的难度。同时数字
波罗的海诸国以及东欧其他国家部分高标准生物安全猪场暴发非洲猪瘟,苍蝇可能在非洲猪瘟病毒传播上扮演着重要的角色.