论文部分内容阅读
在当前全球信息化年代,人们可以通过Internet网相互通信联系,获取信息。在过去的几十年里,Internet网发展迅速,互联网的普及更加快了新知识新思想的传播。但同时,垃圾网页也逐渐出现了,并严重降低了搜索引擎的搜索质量。垃圾网页能误导搜索引擎,导致垃圾网页在搜索结果中比正常网页排名靠前。因当今越来越多的人习惯于从互联网上搜索信息,而Internet网的快速发展则使得垃圾网页引起的后果越来越严重。一般地,在搜索结果中越是排在前面的网站,就意味着它的重要程度越高,也就能吸引到更多的用户访问它,因此给它带来的商业利润也越大。通常,人们只会看搜索结果的前十几项,而忽略后面的。因此,垃圾网页制作者出于经济或商业利益,采用各种各样的不正当手段欺骗搜索引擎,达到在搜索结果中排序靠前,从而获取较高点击率的目的。这种行为称作“web spamming”,即网页作弊。这种为获取某种利益欺骗搜索引擎,破坏其排序结果,把自身不重要或与查询不相关的网页排在前面的网页称为垃圾网页(Web Spam)。近些年来,Web spamming已逐渐成为困扰搜索引擎的严重问题,它使垃圾网页排在某些正常网页前面,骗取用户点击,严重干扰用户获取信息。这在很大程度上破坏搜索质量,降低用户对搜索引擎的信任度。一方面,它浪费了人们大量的上网查询时间;另一方面,它也浪费了搜索引擎大量的时空计算资源。垃圾网页的出现给搜索引擎带来了巨大的挑战,也给专家学者们提出了新的研究课题:如何检测或降级垃圾网页。目前,垃圾网页分为三大类:基于内容的垃圾网页(content spam)、基于链接的垃圾网页(link spam)及隐藏方式(cloaking)的垃圾网页。对于这三类垃圾网页,国内外专家学者陆续提出了许多降级或检测的方法。由于垃圾网页欺骗搜索引擎,给人们的查询带来诸多的麻烦,因此需要采用降级或检测垃圾网页的方法。目前,一项检测或降级垃圾网页的最成功技术是垃圾网页和正常网页的特征取值是不同的,而且国际上研究成果极少。作者发现无论是内容特征还是链接特征,垃圾网页和正常网页都表现出明显不同的统计特性,因此首次在这个方面做了全面详细的研究工作。本文对网页的内容特征和链接特征做了深入细致的分析和研究,发现垃圾网页和正常网页的特征存在显著差异。这写些差异性可作为垃圾网页检测和降级的辅助信息。还有,作者对网页排序算法做了深入的研究,并提出改进方法。著名的基于链接的网页排序算法PageRank算法和TrustRank算法为搜索引擎提供了网页排序依据,但网页是按网络正向链接单向计分。作者在TrustRank算法基础上,提出利用双向信息反馈机制计算网页分数。大量实验数据表明,具有双向信息反馈机制的网页排序算法能取得令人满意的结果,且优于PageRank算法和TrustRank算法。本文的具体研究内容和主要贡献包括以下三个方面。1、网页内容特征及其相关性分析本文全面地研究了正常网页和垃圾网页的单个内容特征和含多个相关联子特征的内容特征簇,作者得出的结论是:正常网页的内容特征和垃圾网页的内容特征的确存在很大的差异。作者探索了所有网页的内容特征,发现正常网页的单个内容特征包括:网页单个内容特征即网页单词数量、网页标题单词数量、平均单词长度、锚文本所占比例、可见文本所占比例及网页压缩率都具有较强的规律性,在一定范围内大体与通用概率分布一致,而垃圾网页则不然,垃圾网页的单个内容特征则几乎没有规律可循。实验表明,正常网页的制作是规范的、合理的;而垃圾网页的创建者为了提高网页排名而随心所欲地制作垃圾网页,造成了垃圾网页内容特征的不规律性。作者还提出了网页的内容特征簇中子特征之间相关度包括网页n-连词分布熵和n-连词独立测度的相关度;含多个相关子特征的内容特征簇即语料库准确率、语料库召回率、查询准确率、查询召回率四个特征簇中子特征的相关度的计算公式,并做了相关实验。内容特征簇中子特征之间的相关度的实验表明:垃圾网页的语料库准确率和语料库召回率高于正常网页,说明垃圾网页在制作时特意使用了大量的流行词,而正常网页在制作时并没有刻意使用流行词;而垃圾网页的查询准确率远远低于正常网页,其查询召回率也低于正常网页,说明垃圾网页在很大程度上影响了搜索引擎的搜索质量,极大地降低了查询准确率,浪费了用户大量的查询时间。本文对网页的内容特征作了全面详细的分析。研究结果表明,无论是单个内容特征,还是内容特征簇中子特征之间相关度,正常网页和垃圾网页都有很大的差别。这项研究旨在为垃圾网页的降级和检测提供帮助。2、网页链接特征研究本文对网页的单个链接特征和链接特征组做了深入的研究,发现正常网页和垃圾网页的链接特征存在明显的差异。通常,垃圾网页eq_hp_mp取值为1的比例高于正常网页。正常网页的单个链接特征包括assortativity_hp(/mp)、 avgin_of_out_hp(/mp)、 avgout_of_in_hp(/mp)、indegree_hp(/mp)、 outdegree_hp(/mp)、 pagerank_hp(/mp)、 prsigma_hp(/mp)和trustrank_hp(/mp)都在某置信区间内与某通用概率分布近似一致(除了reciprocity_hp(/mp)),而垃圾网页则不然。垃圾网页的单个链接特征反映出垃圾网页制作者随意采用多种手段增加网页入链接,提高自身网页的排序结果,而造成网络链接结构改变。所有这些方法都导致了垃圾网页链接特征的不规律性。垃圾网页的链接特征组(包括neighbors组、siteneighbors组和truncatedpagerank组)的统计结果则显示出正常网页与链接网页的同次子特征及由此计算出的网页和主机前驱增长率是有很大不同的。这反映出在实际的网络链接图中,与正常网页相比,由垃圾网页组成的子网是在某种程度上较独立于整个网络的,且垃圾网页依仗其前驱网页提高自身PageRank值的程度高于正常网页。对链接特征组的研究同样反映出正常网页和垃圾网页的链接结构是不同的。本文对网页的链接特征作了全面详细的分析。研究结果表明,无论是单个链接特征,还是链接特征组,正常网页和垃圾网页都存在差别。这项研究旨在为垃圾网页的降级和检测提供帮助。3、提出有向网络链接图中建立双向趋势信息反馈的垃圾网页检测算法本文在TrustRank算法基础上,提出了基于网络链接结构的具有双向趋势信息反馈机制的网页排序算法。算法假设网络中的每个网页都具备两面性:趋向正常网页的正面和趋向垃圾网页的反面,因此每个网页都被赋予正分和负分。该算法在网络有向链接图上建立双向趋势信息反馈机制,提出采用双向趋势信息函数得出的反馈信息对网页评分,并给出了相应排序算法用于检测或降级垃圾网页。算法中每次循环都会在整个网络中根据双向趋势信息更新网页的正分和负分,当算法收敛时网页的得分趋于稳定,最终得到了每个网页的得分。大量实验数据表明,该算法用于检测或降级垃圾网页的效果优于PageRank算法和TrustRank算法,能得到令人满意的结果。总之,因垃圾网页干扰搜索引擎,降低查询准确率,因此迫切需要检测或降级垃圾网页。本文主要研究Web Spam的检测或降级技术,作者提出的方法包括:研究垃圾网页和正常网页的内容特征和链接特征的差异性,作为垃圾网页检测和降级的辅助信息;在有向网络链接图中引入双向趋势信息反馈机制,提出基于链接的垃圾网页排序算法,并取得了优于PageRank算法和TrustRank算法的排序效果。作者相信垃圾网页的检测和降级技术能够为搜索引擎提供可靠的技术支持,并将查询准确率提高到令人信服的百分率,为全人类的信息传播提供有力的保障。