反垃圾网页作弊技术的研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户：A491858248

【摘要】

：

垃圾网页指通过作弊技术欺骗搜索引擎排序算法,以提高自身搜索引擎排名的网页。垃圾网页不仅严重影响了搜索引擎用户体验,给搜索引擎公司造成了巨大经济损失,同时也阻碍了Web

【作者】

：

庄旭

【出处】

：

西南交通大学

【发表日期】

：

2020年01期

【关键词】

：

反垃圾网页作弊 PageRank 分值传播模型深度置信网络排序学习决策树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

垃圾网页指通过作弊技术欺骗搜索引擎排序算法,以提高自身搜索引擎排名的网页。垃圾网页不仅严重影响了搜索引擎用户体验,给搜索引擎公司造成了巨大经济损失,同时也阻碍了Web健康、有序的发展。反垃圾网页作弊技术通常分为垃圾网页降级技术和垃圾网页检测技术。垃圾网页降级技术基于Web图链接结构,使用分值传播算法计算Web图中每个节点为“垃圾”或“正常”的概率,并以此概率作为评分值对网页排序,以使正常网页能获得比垃圾网页更高的排名。垃圾网页检测技术一般采用机器学习算法,使用网页特征构建二分类模型以实现对垃圾网页的检测。基于分值传播模型的垃圾网页降级算法(Score Propagation Based Web Spam Demotion Algorithm,SPB-WSDA)主要基于Page Rank模型,使用经人工标注的种子集合向Web图中其它节点传播“信任值”或“不信任值”。不同SPB-WSDA的主要区别体现在传播规则的不同。传统SPB-WSDA主要存在三点不足:1)缺少统一的分析框架以及研究的理论方法;2)只依赖于网页间的链接拓扑结构,无法识别采用了其它非链接作弊手段的垃圾网页;3)算法改进以经验式为主,缺少基于数据驱动的分析手段和方法。针对上述SPB-WSDA存在的问题,本文针对性地进行了三项研究工作。首先,本文提出了统一分值传播模型(Unified Score Propagation Model,USPM)。USPM从更加抽象的层次定义了通用化SPB-WSDA计算模型,并总结和提出了一系列各不同算法模块可使用的算法策略。在USPM模型框架下,SPB-WSDA由前向传播函数(Forward Score Propagation Function,FSPF)和后向传播函数(Backward Score Propagation Function,BSPF)构成,而FSPF和BSPF又进一步拆分为三个子函数:分裂函数、接受函数和组合函数。因此,不同SPB-WSDA算法的区别体现在它们所使用的子函数的区别上。基于USPM,本文提出了有监督前后向排序算法(Supervised Forward and Backward Ranking,SFBR)。SFBR有两点重要改进:1)使用非对称FSPF和BSPF的设计方法;2)使用分值归一化技术来避免静态分布概率效用增强和减弱的现象。在三个公开数据集上的实验表明SFBR优于其它主流SPB-WSDA算法。其次,本文提出了基于深度排序学习的垃圾网页降级算法(Deep Learning to Rank based Web Spam Demotion Algorithm,DLR-WSDA)。DLR-WSDA使用深度置信网络(Deep Belief Network,DBN)构建优先函数,以判断任意样本对之间的优先关系。基于样本对间的两两优先关系,文本进一步提出了基于样本最高排名概率的数据聚合算法(Top-Ranking Probability based Algorithm,TRPA)。DLR-WSDA不但能够使用网页的非链接特征,同时因为TRPA的局部性质使得算法计算效率大大提升。实验结果表明,DLR-WSDA优于主流SPB-WSDA算法。第三,本文提出了一种有监督Page Rank算法:Learning Rank。与传统SPB-WSDA采用人工定义分值传播规则的方式不同,Learning Rank使用深度置信网络直接从数据中学习分值传播规则。为此,本文设计了Learning Rank的学习目标函数和基于梯度优化的训练算法。在垃圾网页降级和推荐系统两个真实任务上的实验结果验证了Learning Rank的有效性。在垃圾网页检测方面,本文针对决策树算法无法处理特征间组关系的问题提出了动态特征绑定决策树算法(Dynamic Feature Bundling Decision Tree,DFBDT)。DFBDT将C4.5对单个特征的信息增益和信息增益率的概念延伸至了一组特征。DFBDT设计了三种算法来寻找具有组关系的特征簇的最优分割点:抽象最优绑定法、抽象贪心绑定法和局部贪心绑定法。基于DFBDT,文本进一步提出了动态特征绑定随机森林算法(Dynamic Feature Bundling Random Forest,DFBRF)。在垃圾网页检测任务上,实验结果表明:1)DFBDT相较于C4.5算法有明显提升;2)DFBRF优于其它主流垃圾网页检测算法。

其他文献

H3K36me2转移酶Nsd2促进生发中心B细胞亲和力成熟的作用和机制研究

生发中心是B细胞快速增殖,体细胞高频突变(Somatic hyper-mutation,SHM)以及亲和力成熟的重要场所,其中,B细胞快速增殖和分化为抗体应答反应提供数量上的保证,而体细胞高频突

学位

Nsd2GCB细胞阳性选择

多视角数据聚类研究

在当今大数据时代,数据对象往往能够在多个视角下进行特征表示,形成多视角数据。多视角数据对传统机器学习算法提出了新的挑战同时也带来了新的机遇。如何挖掘并利用多视角数

学位

多视角聚类图聚类谱聚类概念分解并行化计算

东北地区经济结构的增长效应研究

改革开放40年来,中国经济经历了长期、持续的高速增长,经济总量跃升至世界第二,创造了世界经济发展史的奇迹。然而,在经济向好发展的同时,背后隐藏的一系列矛盾也逐渐显现:供

学位

经济结构经济增长直接效应交互效应空间溢出效应东北地区

FNDC5抑制高血压的血管平滑肌细胞炎症、氧化应激和迁移的作用及分子机制

Ⅲ型纤连蛋白组件包含蛋白5（type Ⅲ domain-containing protein 5,FNDC5）是一种糖基化的跨膜蛋白,糖基化位点位于39K及84A,结构主要包括两个纤连蛋白结构域、一个信号肽和一个

学位

FNDC5AMPKNLRP3MiR-31-5pVSMCs炎症氧化应激迁移

变质岩化学风化与微观组构及力学特征相关性研究

本文以金沙江大桥桥址区变质砂岩、板岩、千枚岩化学风化特征、微观组构及力学特征为研究目标,提出岩石化学风化程度判识方法,建立岩石化学风化系数与岩石微观组构及力学特征

学位

化学风化系数微观组构力学特征数值模拟

周期性铁路轨道结构弹性波传播特性及调控方法研究

轨道交通在我国经济发展和社会进步中起到了关键的作用,但随着列车运行速度的提高、运行密度的大幅增长,车辆与轨道之间的相互作用增强,引发轨道结构振动与噪声辐射。结构振

学位

周期性轨道结构弹性波带隙失谐及缺陷移动波源弹性波调控

心脏黏液瘤起源和发生的相关因素研究

目的:通过人类雄激素受体基因分析(human androgen receptor gene analysis,HUMARA)对心脏黏液瘤以及正常心脏组织进行X染色体失活类型分析,判断心脏黏液瘤(cardiac myxoma,C

学位

心脏黏液瘤克隆起源X染色体全基因组测序单核酸多态性拷贝数异常

GRP75调控抗氧化/凋亡和代谢重编程在胃癌和肝癌耐药中的作用及机制研究

胃癌和肝癌是我国最常见的恶性肿瘤,在消化系统肿瘤中死亡率排名第二、第一。顺铂治疗是进展期胃癌患者的一线化疗药物之一;TACE/索拉菲尼是中晚期肝癌患者的主要治疗手段;然

学位

肿瘤耐药GRP75抗氧化抗凋亡代谢重编程

中国新能源产业发展中的政府治理研究

能源是人类生存和社会发展必不可少的条件,能够为经济社会发展提供持续动力,在国家发展过程中占据重要地位,然而,天然气、煤、石油等化石能源为不可再生资源,随着不断开采和

学位

新能源新能源产业产业发展政府治理

新能源汽车电池管理系统荷电状态估计研究

随着全球电动汽车保有量逐年上升,对电动汽车相关技术的研究也日益成为热点。电动汽车的能量来源为动力电池中的电能,动力电池对电动汽车的性能和安全影响巨大。电池管理系统

学位

电动汽车电池管理系统荷电状态状态与参数联合估计多尺度死区参数敏感度分析

反垃圾网页作弊技术的研究

其他学术论文