基于维基百科的搜索结果挖掘

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:yzmxfyzm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今的互联网中,搜索引擎以其快速和直接的资源访问方式,得到了越来越多用户的青睐,并发挥着越来越重要的作用。而在搜索引擎中,搜索结果是其和用户交流的直接媒介,搜索结果的质量以及其展示的质量直接影响着用户的体验。本文主要的研究集中在搜索结果的挖掘上,更确切的说,是搜索结果的动态摘要生成和搜索结果的聚类两个方面。动态摘要是以查询词为中心的文档简要描述。在很多场景下,动态摘要可以通过对文档中的句子进行查询词相关的评分排序来生成。然而,由于缺乏更多信息或是背景知识,很多时候,度量某个查询词和文档中每一句话的相似度是一项很困难的任务。本文提出了一种新的结合了来自维基百科的语义信息的动态摘要生成方法,实验表明本方法所生成的动态摘要的质量得到了提高。另外,在文档中查询词出现次数相对较低的情况下,这种方法对于动态摘要质量提升的幅度尤其明显。另外,本工作还讨论了从维基百科中提取的概念向量长度对动态摘要质量的影响。针对某些查询词,特别是有歧义的查询词,搜索结果中可能包含多个不同方面的信息,而区分这些不同方面的信息并把它们聚合的技术就是搜索结果聚类技术。传统的聚类方法在聚类过程中通常使用简单的文本相似度,但是这种方法往往不能提供很有意义的聚类结果,并且无法给每个类别提供具有可读性的标题。本工作提出了一种基于维基百科知识的搜索结果聚类方法,此方法首先使用了维基百科的知识来把文本映射到维基百科的概念,并在此基础上进行聚类。实验证明该算法具有很好的效果。另外,还在实验中发现,非线性的机器学习方法如SVM等可以使聚类结果得到进一步的改善。实验表明,本文提出的方法在动态摘要生成方面以及搜索结果聚类方面分别都有比较好的表现,也证明在传统的文本检索中融入从知识库中提取的语义信息是很有意义的。此外,本文还分析了目前方法的不足之处并对进一步的研究进行了讨论。
其他文献
局部特征在计算机视觉领域有着广泛的应用,相对于整体特征,局部特征标记出了图像中的重要区域,将图像信息用这些区域来表示,能够在表示图像局部重要信息的同时,节约了应用时的计算
随着互联网技术的蓬勃发展、网络互动社区等新兴应用的日益丰富以及企业信息化建设的高速发展,互联网社区用户数量急剧膨胀,各种新的需求和应用形式不断涌现,企业每天产生的各种
互联网的飞速发展使得其中的信息呈爆炸性增长,但互联网中的信息由于其本身的无结构性使人们很难找到自己有用的资源。如谷歌、百度等通用搜索引擎为我们提供大量的信息,但其中
统计机器翻译的首要工作是获取双语词对齐信息,而词对齐需要从词边界清晰的双语语料中训练才能得到。因此,在涉及中文的统计机器翻译系统中,首先需要对中文语料进行分词处理。可
一致化理论在自动推理、自然语言理解、逻辑证明、重写理论等研究领域中有着广泛的应用。目前语法一致化因子的产生算法和工具已经相对成熟,但还没有产生等价一致化因子的实
当今时代,嵌入式系统已经无处不在。从早期的通信设备、工业控制等领域已经很快的发展到与人们日常生活密切相关的电子产品领域中。同时,嵌入式系统也变的日益复杂,嵌入式操
在单元测试领域,测试充分度准则一直是研究的热点。到目前为止,学术界提出了各种不同的测试充分度准则。Richardson和Thompson在他们的研究成果即RELAY模型中提出了一种错误传
科学技术的发展和新兴商业模式的出现带来了多种类型数据的产生和积累,例如天文数据、社交数据、电商数据等。利用机器学习技术进行数据分析并挖掘数据中蕴含的知识和规律具有
随着当代计算机技术和信息技术的不断发展和应用,各种领域都通过越来越多的手段产生大量的数据。但由于数据收集方式造成的误差,和数据本身的不确定性等原因,使得采集到的数据往