论文部分内容阅读
随着互联网的快速发展,网络上信息量越来越大,人们对某一专业领域的信息需求越来越难以得到满足,主题搜索引擎应运而生,它可以帮助人们获得某一领域更准确有效的信息。本文的目的是提出一种面向患者需求的医学搜索引擎的设计思想,在运用用户建模技术及主题爬虫设计基础上,通过对开源搜索引擎Nutch相关模块进行修改,初步完成搜索引擎的构建。论文首先对通用搜索引擎和主题搜索引擎的发展以及用户需求的建模技术进行介绍;接着详细介绍了主题搜索引擎的架构以及开源搜索引擎Nutch的工作原理,并对主题搜索引擎的核心主题爬虫的爬行策略技术进行研究;之后对应用于网页文档处理及分类的文本自动分类技术和中文分词技术进行了介绍。在课题的核心用户需求模型构建部分,首先提出一种改进的文本特征提取方法,接着通过引入多领域需求和遗忘因子设计出智能多领域用户需求模型,并将其应用于检索结果的匹配。随后本文重点介绍了中文分词和主题爬虫设计模块,并实现了面向患者需求的医学搜索引擎的设计,接着对搜索引擎进行相关评价。最后,对本文所做的工作进行了总结,指出了课题需要进一步改进的方向。