论文部分内容阅读
本文对网页排序问题进行了研究。以经典算法:PageRank算法和HITS算法,为研究对象,分别进行了改进。其中在对PageRank算法的改进中,本文提出了将Web网页分为三类,由此调整后得到了结构更简洁的链接矩阵。在对HITS算法的改进中,首先分析了内容权威值的计算公式,并提出了新的权重分配准则。同时,利用PageRank模型中的相关原理对新模型进行了修正,使得得到的新模型保持了解的存在性和唯一性。本论文主要内容如下:1.介绍了本论文关于网页排序的选题背景,以及网页搜索在现实生活中的研究意义。对常用的PageRank算法和HITS算法,给出了详细的建模思想和相关的数学理论。网页排序问题实际上是对线性方程组的求解问题,因此在研究网页排序问题时,是将实际问题转化为数学方法中对大型矩阵的求解问题。此外,本文分别探讨了这两个算法的改进方向和现阶段成果。2.对PageRank算法我们主要做了两方面的改进。首先,根据相关文献中得到的结论:网络链接图存在有“嵌块结构”(a nested block structure),提出了对网页节点进行分类的思想。一般情况下,网页通常被分为两类:悬虚节点(dangling nodes)和非悬虚节点(nondangling nodes),而本文对将网页分为了三类:悬虚节点(dangling nodes)、公共节点(common nodes)和普通节点(general nodes)。相应的对链接矩阵进行置换后,得到了结构更简洁的链接矩阵。然后,将大型链接矩阵分解为多个子块,并在每次迭代中实行并行计算。数值实验证明了当有合适的块结构存在时,该算法能加快对网页排序向量的计算,而且当公共节点越多的时候优势越明显。3.在对HITS算法的改进中,本文根据内容权威值(authority)和共同被引用参数(co-citation)之间的关系,定义了两个网页之间的相关性。即如果网页i与网页j同时被多个网页所引用,那么这两个网页必然有一定的相关性。两网页同时被引用的网页数目越多,说明相关性越强。相关性越强的两网页,给对方分配的权值比例应该越大。由此分析基础上,本文提出了一种基于相关性的权重分配方案。然后进一步结合权重单位化处理和随机浏览原理对新模型进行了修正。在建立的新模型(MBCC)中,相关性越强的网页,得到的权值比例就越大,而不仅仅依赖于出链。新模型结合了PageRank模型和HITS模型的特点。数值实验说明了MBCC的排序结果和HITS模型的排序结果中前20排名相似度很高。与此同时,本文运用了PageRank模型中的修正方法,保证了MBCC模型中内容权威值向量的存在性和唯一性。