网页排序中PageRank算法和HITS算法的研究

被引量 : 27次 | 上传用户:shijiuxian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对网页排序问题进行了研究。以经典算法:PageRank算法和HITS算法,为研究对象,分别进行了改进。其中在对PageRank算法的改进中,本文提出了将Web网页分为三类,由此调整后得到了结构更简洁的链接矩阵。在对HITS算法的改进中,首先分析了内容权威值的计算公式,并提出了新的权重分配准则。同时,利用PageRank模型中的相关原理对新模型进行了修正,使得得到的新模型保持了解的存在性和唯一性。本论文主要内容如下:1.介绍了本论文关于网页排序的选题背景,以及网页搜索在现实生活中的研究意义。对常用的PageRank算法和HITS算法,给出了详细的建模思想和相关的数学理论。网页排序问题实际上是对线性方程组的求解问题,因此在研究网页排序问题时,是将实际问题转化为数学方法中对大型矩阵的求解问题。此外,本文分别探讨了这两个算法的改进方向和现阶段成果。2.对PageRank算法我们主要做了两方面的改进。首先,根据相关文献中得到的结论:网络链接图存在有“嵌块结构”(a nested block structure),提出了对网页节点进行分类的思想。一般情况下,网页通常被分为两类:悬虚节点(dangling nodes)和非悬虚节点(nondangling nodes),而本文对将网页分为了三类:悬虚节点(dangling nodes)、公共节点(common nodes)和普通节点(general nodes)。相应的对链接矩阵进行置换后,得到了结构更简洁的链接矩阵。然后,将大型链接矩阵分解为多个子块,并在每次迭代中实行并行计算。数值实验证明了当有合适的块结构存在时,该算法能加快对网页排序向量的计算,而且当公共节点越多的时候优势越明显。3.在对HITS算法的改进中,本文根据内容权威值(authority)和共同被引用参数(co-citation)之间的关系,定义了两个网页之间的相关性。即如果网页i与网页j同时被多个网页所引用,那么这两个网页必然有一定的相关性。两网页同时被引用的网页数目越多,说明相关性越强。相关性越强的两网页,给对方分配的权值比例应该越大。由此分析基础上,本文提出了一种基于相关性的权重分配方案。然后进一步结合权重单位化处理和随机浏览原理对新模型进行了修正。在建立的新模型(MBCC)中,相关性越强的网页,得到的权值比例就越大,而不仅仅依赖于出链。新模型结合了PageRank模型和HITS模型的特点。数值实验说明了MBCC的排序结果和HITS模型的排序结果中前20排名相似度很高。与此同时,本文运用了PageRank模型中的修正方法,保证了MBCC模型中内容权威值向量的存在性和唯一性。
其他文献
目的研究分析对急性心肌梗死患者采用急诊经皮冠状动脉介入治疗的临床效果。方法选取2015年11月至2017年11月本院接受治疗的82例急性心肌梗死患者为此次研究对象,按照数字表
《暮光之城》最大的亮点莫过于片中的浪漫爱情故事,该片最大的创新是将多种风格元素糅合在一起,诸如吸血鬼传说、狼人故事、校园生活、恐怖悬念、浪漫爱情等,不仅丰富了影片
2016年年初,销售与市场产业研究中心集结行业专家共同推出了《2016食品产业报告书》。该报告书研究了中国食品产业的经济背景,分析了中国食品产业的五大趋势,并提出了2016年
风险导向型审计作为未来审计工作的发展趋势,已经逐渐为广大审计工作人员所接受,在风险导向型审计中,判断、分析被审计单位的风险所在及其风险程度是审计工作的重中之重,能否
红树林(mangrove),是自然分布于热带、亚热带海岸和河口潮间带的木本植物群落,具有重要的经济、社会和生态价值。但长期以来,由于对其价值认识不足,法制不健全及经济利益诱使
基于中国内地、香港、日本的三所顶尖研究型大学的案例,批判地审视了三个大学系统的科研在何种程度上、以何种方式应对来自评估的压力。实证数据表明:香港高校的科研产出国际
尽管私法与公法是两个性质并不相同的法域,但私法中含有公法的问题,进而塑形了一个“公私法接轨的技术问题”,使之成为公法与私法可以进行对话的前置基础。查阅作为民事基本法之
目的分析2013—2016年深圳市食源性疾病暴发流行病学特征,为制定有效的食源性疾病预防控制措施提供科学依据。方法用描述性流行病学方法对2013—2016年深圳市食源性疾病暴发
丁永强在《上海文论》(91.5)题为“城市与城市文学”一文中,把新时期的城市文学分为以下几种流派, 1.书摊派。这是城市通俗小说流派,虽非正宗,但读者面广。 2.怀旧派。一种
社交化电子商务,是指在电子商务的交易过程中引入社交化的元素。目前,在我国,电子商务(C2C/B2C)与SNS相结合并取得良好发展。这种结合包括两种情况:一是电子商务网站逐步加强网站的