【摘 要】
:
目前主要是通过基于URL(Uniform Resource Locator)、关键词、图片等网页内容为特征的机器学习方法进行不良网站检测.但是,不良网站制作者也会通过更换URL,避免常见不良关键词
【机 构】
:
中国科学院大学,中国科学院计算机网络信息中心,中国互联网络信息中心互联网络域名管理技术国家工程实验室
论文部分内容阅读
目前主要是通过基于URL(Uniform Resource Locator)、关键词、图片等网页内容为特征的机器学习方法进行不良网站检测.但是,不良网站制作者也会通过更换URL,避免常见不良关键词的使用,对搜索爬虫隐藏图片等做法来规避检测,这使得基于内容的检测方法会有漏检的情况.为了更准确的检测出此类网站,本文提出了注册、解析方面的相关特征,并通过最主流的机器学习方法构建了检测模型.用模型预测新数据集,结果证明,基于解析和注册特征的检测方法可以有效的在网站集合中检测出前文提到的不良网站,并且对于一般不良也
其他文献
本文是对SKIG RGB-D多模态的孤立手势视频进行手势识别研究.首先将RGB和Depth两种单模态视频提取成图片的形式保存,然后采样成长度为32帧的手势序列分别输入到本文提出的稠密连接的3DCNN组件学习短期的时空域特征,然后将提取的时空域特征输入到卷积GRU网络进行长期的时空域特征学习,最终对单模态训练好的网络进行多模态融合,提升网络识别准确率.本文在SKIG数据集上取得了99.07%的识别准
SIFT算法是一种经典的图像匹配方法,但也存在计算量大、时间复杂度高的问题.针对这些问题,本文提出了一种改进的SIFT算法,将SIFT算法中表示关键点的特征信息结构进行改造,重新生成了一种新的有序结构.此结构将128维向量描述子根据关键点的8个梯度索引方向分成8组,产生新的有序描述子.重构之后的算法,减少了关键点匹配的计算量,从而提高算法的效率.实验表明,改进的算法,保持了原算法的优点以及在不降低
WebGL (Web Graphical Library)让浏览器在无需安装插件的情况下即可渲染出3D图形,而封装了WebGL低级别API的three.js更是为3D图形的高效创建提供了可能.针对传统方法的磁盘阵
XML关键字查询结果质量不高的一个很重要的原因是查询关键词难以反映用户真实的查询意图,而给关键词设置权重在一定程度上可以解决这一难题.本文结合关键字之间的结构关系提
针对不同无线环境(3G、Wi Fi)下获取用户体验质量(Quality of Experience,QoE)数据困难和不精确的问题,提出一种基于安卓(Android)移动终端视频业务QoE的自适应测量方法.通过实时测
全景图像拼接技术即通过将部分重叠区域的图像合成以描述某个场景信息的360度圆形图像.引用一种新型的基于SIFT(尺度不变特征变换)特征匹配的图像排序算法,实现图像的有序排列,针对图像拼接存在的误匹配点较多、耗时较长等问题,结合FAST算法进行特征点提取,接着针对相邻有序图像间的亮度差异采用自动校正操作,削弱了相邻图像间的亮度差异,并结合改进的Ransac算法剔除误匹配点对,最后用加权平衡算法实现图
贝叶斯在训练样本不完备的情况下,对未知类别新增训练集进行增量学习时,会将分类错误的训练样本过早地加入到分类器中而降低其性能,另外增量学习采用固定的置信度评估参数会
城市交通系统正逐渐由原来的单一模式转变为相互连通的多模式,为了更准确地表达多模式交通网络系统,并满足个人出行时路线规划和时间预测的要求,该文以Oracle空间网络数据模型为
为了在任何时间、任何地点向移动终端提供无缝网络服务,切换认证技术显得尤为重要.从认证节点的隐私保护出发,提出了一种基于身份且支持批量认证的切换认证方案,并且认证过程
针对日益突出的老人监护需求,设计并实现了基于安卓智能手机的老人关爱系统,系统围绕老人的位置信息采集、传送、处理生成服务三个核心问题,并探讨了基于极光推送的老人救助