论文部分内容阅读
随着互联网的高速发展,网络信息爆炸式增长,于此相比,互联网中的知识却相当匮乏。在此背景下,基于Web2.0的各种交互式百科知识网站应运而生并发展壮大,为用户提供了大量的有价值的百科知识。当今互联网信息日新月异,高速增长的信息中又蕴含着大量的新知识,然而现有的百科知识库的构建都是基于广大用户的志愿参与来人工完成的,这种构建方式必然面临着知识条目更新不及时、不全面完整以及工作量大等问题。为了解决这些问题,本文研究开发了一套基于互联网信息的能够自动准确填充百科知识条目各方面信息的实例知识条目自动构建系统,有效弥补了现有百科知识库的不足。本文通过对知识库自动构建方法的研究,提出了一种对互联网中各个领域的信息都行之有效的实例知识条目自动构建方法,并开发实现了实例知识条目自动构建系统。整个系统包括三个主要模块,分别是异构信息采集模块、采集结果整合模块和实例知识搜索模块。本文的研究内容主要包括以下几个方面:1)异构信息的采集,利用元搜索引擎技术在互联网的海量信息中获取与词条最相关的各种异构信息,尝试改进查询扩展的方法,进一步提高了信息采集的精确性和高效性。2)采集结果的整合,尝试多种信息整合的方法,把信息采集阶段获取的信息通过网页净化、断句分词、文本去重、文本聚类、主题提取、简单排序组合等一系列处理整合成一篇介绍某个词条的知识。3)实例知识的搜索,为用户提供一个获取知识的用户接口,用户通过这个接口不但可以获取系统知识库中已经收录的实例知识,也可以在线实时生成新条目知识。通过系统服务器模型的改进,系统的负载能力和实时性得到了很大提高。本系统已成功应用在本实验中心构建的海天园百科知识库平台中。实验结果表明本文提出的实例知识条目自动构建的方法完全能够满足实例知识条目自动构建的要求,在实时性和知识精度上都达到了预期效果。