论文部分内容阅读
随着互联网用户的急剧增长,以及网络应用的进一步深入,用户个性化的需求不断增长,通用搜索引擎难以满足某些特殊用户群体的需求。主题爬行技术作为一种新颖的搜索技术应运而生,更新周期快,它资源消耗少,更重要的是能满足用户的个性化需求。相关背景图(Relevancy Context Graph)可以收集给定主题的背景知识,并根据这些背景知识给每个待访问网页分配一个优先访问值,从而指导爬虫的爬行方向。但是,在相关背景图的背景知识构建中没有充分提取出网页之间的链接结构信息,同时也没有充分考虑网页之间的语义关系。因此,许多噪声网页并没有被有效的过滤掉。此外,相关背景图的主题特征词的定义也隐藏着一些缺陷。本文的贡献总结如下。(1)优化了相关背景图,并应用相关背景图在微博中收集与主题相关的用户。在优化的过程中,借用社会网络中朋友链接预测的思想,重新设计了背景图中的链接结构关系,考虑了网页之间更多的结构关系,利用向量空间模型(Vector Space Model)以及语义向量空间模型(Semantic Similarity Vector Space Model)去过滤掉一些噪声网页,保证背景图的有效性。(2)利用背景图中词之间的语义关系去扩展主题特征单词,并有效地计算了扩展的主题特征单词的分布。(3)提出了一个经过链接分析和语义分析优化后的相关背景图的爬虫。(4)利用囊括各个领域的大量中文网页构建了中文通用语模型。(5)利用改进的相关背景图计算出的特征主题单词的分布以及通用语模型,结合微博中传播者的寻找技术,本文定义了主题传播者的计算方法。主题传播者会引导网络爬虫向更好的方向去收集微博主题相关的用户。我在各个阶段都做了相应的实验,实验结果证明本文的方法是有效的。