论文部分内容阅读
垃圾网页指通过作弊技术欺骗搜索引擎排序算法,以提高自身搜索引擎排名的网页。垃圾网页不仅严重影响了搜索引擎用户体验,给搜索引擎公司造成了巨大经济损失,同时也阻碍了Web健康、有序的发展。反垃圾网页作弊技术通常分为垃圾网页降级技术和垃圾网页检测技术。垃圾网页降级技术基于Web图链接结构,使用分值传播算法计算Web图中每个节点为“垃圾”或“正常”的概率,并以此概率作为评分值对网页排序,以使正常网页能获得比垃圾网页更高的排名。垃圾网页检测技术一般采用机器学习算法,使用网页特征构建二分类模型以实现对垃圾网页的检测。基于分值传播模型的垃圾网页降级算法(Score Propagation Based Web Spam Demotion Algorithm,SPB-WSDA)主要基于Page Rank模型,使用经人工标注的种子集合向Web图中其它节点传播“信任值”或“不信任值”。不同SPB-WSDA的主要区别体现在传播规则的不同。传统SPB-WSDA主要存在三点不足:1)缺少统一的分析框架以及研究的理论方法;2)只依赖于网页间的链接拓扑结构,无法识别采用了其它非链接作弊手段的垃圾网页;3)算法改进以经验式为主,缺少基于数据驱动的分析手段和方法。针对上述SPB-WSDA存在的问题,本文针对性地进行了三项研究工作。首先,本文提出了统一分值传播模型(Unified Score Propagation Model,USPM)。USPM从更加抽象的层次定义了通用化SPB-WSDA计算模型,并总结和提出了一系列各不同算法模块可使用的算法策略。在USPM模型框架下,SPB-WSDA由前向传播函数(Forward Score Propagation Function,FSPF)和后向传播函数(Backward Score Propagation Function,BSPF)构成,而FSPF和BSPF又进一步拆分为三个子函数:分裂函数、接受函数和组合函数。因此,不同SPB-WSDA算法的区别体现在它们所使用的子函数的区别上。基于USPM,本文提出了有监督前后向排序算法(Supervised Forward and Backward Ranking,SFBR)。SFBR有两点重要改进:1)使用非对称FSPF和BSPF的设计方法;2)使用分值归一化技术来避免静态分布概率效用增强和减弱的现象。在三个公开数据集上的实验表明SFBR优于其它主流SPB-WSDA算法。其次,本文提出了基于深度排序学习的垃圾网页降级算法(Deep Learning to Rank based Web Spam Demotion Algorithm,DLR-WSDA)。DLR-WSDA使用深度置信网络(Deep Belief Network,DBN)构建优先函数,以判断任意样本对之间的优先关系。基于样本对间的两两优先关系,文本进一步提出了基于样本最高排名概率的数据聚合算法(Top-Ranking Probability based Algorithm,TRPA)。DLR-WSDA不但能够使用网页的非链接特征,同时因为TRPA的局部性质使得算法计算效率大大提升。实验结果表明,DLR-WSDA优于主流SPB-WSDA算法。第三,本文提出了一种有监督Page Rank算法:Learning Rank。与传统SPB-WSDA采用人工定义分值传播规则的方式不同,Learning Rank使用深度置信网络直接从数据中学习分值传播规则。为此,本文设计了Learning Rank的学习目标函数和基于梯度优化的训练算法。在垃圾网页降级和推荐系统两个真实任务上的实验结果验证了Learning Rank的有效性。在垃圾网页检测方面,本文针对决策树算法无法处理特征间组关系的问题提出了动态特征绑定决策树算法(Dynamic Feature Bundling Decision Tree,DFBDT)。DFBDT将C4.5对单个特征的信息增益和信息增益率的概念延伸至了一组特征。DFBDT设计了三种算法来寻找具有组关系的特征簇的最优分割点:抽象最优绑定法、抽象贪心绑定法和局部贪心绑定法。基于DFBDT,文本进一步提出了动态特征绑定随机森林算法(Dynamic Feature Bundling Random Forest,DFBRF)。在垃圾网页检测任务上,实验结果表明:1)DFBDT相较于C4.5算法有明显提升;2)DFBRF优于其它主流垃圾网页检测算法。