反垃圾网页作弊技术的研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:A491858248
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾网页指通过作弊技术欺骗搜索引擎排序算法,以提高自身搜索引擎排名的网页。垃圾网页不仅严重影响了搜索引擎用户体验,给搜索引擎公司造成了巨大经济损失,同时也阻碍了Web健康、有序的发展。反垃圾网页作弊技术通常分为垃圾网页降级技术和垃圾网页检测技术。垃圾网页降级技术基于Web图链接结构,使用分值传播算法计算Web图中每个节点为“垃圾”或“正常”的概率,并以此概率作为评分值对网页排序,以使正常网页能获得比垃圾网页更高的排名。垃圾网页检测技术一般采用机器学习算法,使用网页特征构建二分类模型以实现对垃圾网页的检测。基于分值传播模型的垃圾网页降级算法(Score Propagation Based Web Spam Demotion Algorithm,SPB-WSDA)主要基于Page Rank模型,使用经人工标注的种子集合向Web图中其它节点传播“信任值”或“不信任值”。不同SPB-WSDA的主要区别体现在传播规则的不同。传统SPB-WSDA主要存在三点不足:1)缺少统一的分析框架以及研究的理论方法;2)只依赖于网页间的链接拓扑结构,无法识别采用了其它非链接作弊手段的垃圾网页;3)算法改进以经验式为主,缺少基于数据驱动的分析手段和方法。针对上述SPB-WSDA存在的问题,本文针对性地进行了三项研究工作。首先,本文提出了统一分值传播模型(Unified Score Propagation Model,USPM)。USPM从更加抽象的层次定义了通用化SPB-WSDA计算模型,并总结和提出了一系列各不同算法模块可使用的算法策略。在USPM模型框架下,SPB-WSDA由前向传播函数(Forward Score Propagation Function,FSPF)和后向传播函数(Backward Score Propagation Function,BSPF)构成,而FSPF和BSPF又进一步拆分为三个子函数:分裂函数、接受函数和组合函数。因此,不同SPB-WSDA算法的区别体现在它们所使用的子函数的区别上。基于USPM,本文提出了有监督前后向排序算法(Supervised Forward and Backward Ranking,SFBR)。SFBR有两点重要改进:1)使用非对称FSPF和BSPF的设计方法;2)使用分值归一化技术来避免静态分布概率效用增强和减弱的现象。在三个公开数据集上的实验表明SFBR优于其它主流SPB-WSDA算法。其次,本文提出了基于深度排序学习的垃圾网页降级算法(Deep Learning to Rank based Web Spam Demotion Algorithm,DLR-WSDA)。DLR-WSDA使用深度置信网络(Deep Belief Network,DBN)构建优先函数,以判断任意样本对之间的优先关系。基于样本对间的两两优先关系,文本进一步提出了基于样本最高排名概率的数据聚合算法(Top-Ranking Probability based Algorithm,TRPA)。DLR-WSDA不但能够使用网页的非链接特征,同时因为TRPA的局部性质使得算法计算效率大大提升。实验结果表明,DLR-WSDA优于主流SPB-WSDA算法。第三,本文提出了一种有监督Page Rank算法:Learning Rank。与传统SPB-WSDA采用人工定义分值传播规则的方式不同,Learning Rank使用深度置信网络直接从数据中学习分值传播规则。为此,本文设计了Learning Rank的学习目标函数和基于梯度优化的训练算法。在垃圾网页降级和推荐系统两个真实任务上的实验结果验证了Learning Rank的有效性。在垃圾网页检测方面,本文针对决策树算法无法处理特征间组关系的问题提出了动态特征绑定决策树算法(Dynamic Feature Bundling Decision Tree,DFBDT)。DFBDT将C4.5对单个特征的信息增益和信息增益率的概念延伸至了一组特征。DFBDT设计了三种算法来寻找具有组关系的特征簇的最优分割点:抽象最优绑定法、抽象贪心绑定法和局部贪心绑定法。基于DFBDT,文本进一步提出了动态特征绑定随机森林算法(Dynamic Feature Bundling Random Forest,DFBRF)。在垃圾网页检测任务上,实验结果表明:1)DFBDT相较于C4.5算法有明显提升;2)DFBRF优于其它主流垃圾网页检测算法。
其他文献
生发中心是B细胞快速增殖,体细胞高频突变(Somatic hyper-mutation,SHM)以及亲和力成熟的重要场所,其中,B细胞快速增殖和分化为抗体应答反应提供数量上的保证,而体细胞高频突
在当今大数据时代,数据对象往往能够在多个视角下进行特征表示,形成多视角数据。多视角数据对传统机器学习算法提出了新的挑战同时也带来了新的机遇。如何挖掘并利用多视角数
改革开放40年来,中国经济经历了长期、持续的高速增长,经济总量跃升至世界第二,创造了世界经济发展史的奇迹。然而,在经济向好发展的同时,背后隐藏的一系列矛盾也逐渐显现:供
Ⅲ型纤连蛋白组件包含蛋白5(type Ⅲ domain-containing protein 5,FNDC5)是一种糖基化的跨膜蛋白,糖基化位点位于39K及84A,结构主要包括两个纤连蛋白结构域、一个信号肽和一个
本文以金沙江大桥桥址区变质砂岩、板岩、千枚岩化学风化特征、微观组构及力学特征为研究目标,提出岩石化学风化程度判识方法,建立岩石化学风化系数与岩石微观组构及力学特征
轨道交通在我国经济发展和社会进步中起到了关键的作用,但随着列车运行速度的提高、运行密度的大幅增长,车辆与轨道之间的相互作用增强,引发轨道结构振动与噪声辐射。结构振
目的:通过人类雄激素受体基因分析(human androgen receptor gene analysis,HUMARA)对心脏黏液瘤以及正常心脏组织进行X染色体失活类型分析,判断心脏黏液瘤(cardiac myxoma,C
胃癌和肝癌是我国最常见的恶性肿瘤,在消化系统肿瘤中死亡率排名第二、第一。顺铂治疗是进展期胃癌患者的一线化疗药物之一;TACE/索拉菲尼是中晚期肝癌患者的主要治疗手段;然
能源是人类生存和社会发展必不可少的条件,能够为经济社会发展提供持续动力,在国家发展过程中占据重要地位,然而,天然气、煤、石油等化石能源为不可再生资源,随着不断开采和
随着全球电动汽车保有量逐年上升,对电动汽车相关技术的研究也日益成为热点。电动汽车的能量来源为动力电池中的电能,动力电池对电动汽车的性能和安全影响巨大。电池管理系统