论文部分内容阅读
网络资源越来越丰富,搜索引擎技术获得大量的关注和普遍的应用,如何获得精确,有效的信息成为了研究的热点问题,因此搜索引擎首要的目标是准确率[1][2]。而这正是传统搜索引擎面临的问题所在。为此,专门用来查询学科信息或者某个主题的主题搜索引擎[3]便应运而生,并且,已然成为当前搜索引擎发展的主要热点之一。与此同时,博客是一种广泛的共享网络信息的载体,随着移动互联网技术的飞速发展,移动博客已经成为下一代在线娱乐的主流。早在上个世纪,人们获取信息的一个重要方法就是使用搜索引擎,而依靠传统的搜索引擎检索个人感兴趣的博客信息内容,还远远达不到人们的要求。基于此,本文旨在设计关于RSS[4](Resource Description Framework Site Summary)博客的主题搜索引擎,并用Android[5]移动终端实现数据搜索,即基于Android的主题搜索引擎(以下简称:TSEBA:Topic-Specific Search Engine based on Android)。人们希望博客搜索引擎[6]能提供全面的信息资源,与此同时,也对博客搜索引擎的体验服务有了更高的要求,相比于普通的搜索引擎,博客搜索引擎在检索内容,工作原理,检索方式等方面具有较大的不同。博客有着其特定的描述格式,这种格式就是目前最广泛的XML[7]应用RSS,是一种描述和同步网站内容的格式。XML是一种可扩展的标记语言,为跨平台、跨领域的应用提供了一种通信手段,被广泛频繁的运用到信息服务站点中,如博客站点、新闻网站等。因此,假如用传统的搜索引擎检索一些以RSS格式发布的博客内容,就会存在着更新速度慢、检索效率低的弊端。本文深入研究了博客主题搜索引擎的工作原理,博客网络爬虫,索引和检索框架,以及Android开源工具等主要技术。利用Heritrix爬虫、Lucene全文索引检索工具包,以及Android系统等开源工具实现了基于Android的RSS博客主题搜索引擎,针对RSS/XML文本格式的博客信息完成了文本解析、中文分词和索引建立等工作,并利用PageRank算法对原有的Lucene排序算法进行了改进。在此基础上,又利用时间作为影响因子对PageRank算法做了进一步的优化。克服了传统搜索引擎检索RSS格式效率低、更新速度慢以及搜索终端限制的问题。实验证明,该系统有良好的搜索性能,能实时、高效的在手机终端进行博客搜索,使用户能获得优于传统博客检索的体验。能实际满足用户的搜索需求。