结合深度学习与词性标注的网页分类算法研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:milksnake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了方便互联网用户高效地从海量网页中获取自己所需的信息,准确的网页分类技术越来越受到人们的重视。网页分类技术一般采用信息增益、互信息等进行特征选取,并使用k NN(k-nearest neighbor)、朴素贝叶斯(naive Bayes)和支持向量机(support vector machines)等进行分类。不同于传统的网页分类算法,结合深度学习的知识采用更深层次的方法进行特征提取。通过考虑网页HTML标签权重提取网页的内容,然后利用词性标注技术在剔除部分对网页分类贡献较小的词语的同时,也为区分能力高的名词赋予更高的权重,最后结合深度信念网络(deep belief network)进行特征提取和特征分类。实验结果表明,提出的网页分类算法具有和采用支持向量机相当的准确性,并且在使用词性标注技术后,网页分类结果的F1值又提升了3.35%。
其他文献
目的:研究改善癌症化疗患者自我感受负担利用心理支持干预的临床效果。方法:抽取本院肿瘤科收治的100例癌症化疗患者作为研究对象,根据护理干预的不同将他们均分为两组,50例
《中国现代文学研究丛刊》(以下简称《丛刊》)出版一百期了,值得祝贺。一份纯学术的刊物,而且几乎是专门研究中国现代文学的,在这个商业大潮汹涌、庸俗文学泛滥的环境中,能出到一
现代文学史上,有几部颇具特色的长篇寓言体小说。第一部是沈从文的两卷本《阿丽思中国游记》(上海新月书店1928年初版),借用英国作家卡罗尔的童话《阿丽思漫游奇境记》的寓言体
在计算机与通信网络紧密结合的时代,智能电网中的数据处理需要依靠计算机集群来完成,数据传输主要依靠高性能计算网络完成,而高性能计算网络在广域网中主要依赖于TCP协议来实
目的:对单纯性肥胖症患者,行穴位埋线辅助温针灸治疗的效果进行分析,并对患者的BMI与FAT变化情况进行总结。方法:将本医院2018年6月——2019年6月收治的68例患者作为研究对象
我们整理出版前人的著作,应该以哪一个版本为底本呢?有一种意见认识,最好是以作者生前最后校订的那一版作为底本,这当然是有道理的,它可以视为作者最后的改定稿,反映了作者最后的
应用最佳线性无偏预测法(BLUP法)估计了西农莎能奶山羊(简称西农羊)群1960~1985年间的遗传趋势(Genetic Trend),结果为这26年间羊群产奶性能的平均遗传趋势等于7.2千克/年,表
目的研究整形美容门诊心理咨询干预对患者的影响。方法 60例入组对象均筛选自整形美容门诊患者,研究时间选取2019年1月-2019年12月,随机分组,对照组(30例)实施常规美容咨询管
为了解决低照度彩色图像的边界提取不完整的问题,依据点处理和颜色空间变换理论,提出了应用非线性函数变换方法处理HSI颜色模型的强度分量的彩色图像增强方法。设计了基于非线性函数变换方法进行彩色图像增强的算法过程,并分析了算法中RGB和HSI颜色模型转换中强度分量计算公式的三种形式。通过实验将文中方法与对数函数变换、经典的直方图均衡化方法和小波增强方法进行比较,实验数据表明,该算法简单、适用性广,能够有
目的:探讨对胸腰段脊柱骨折脊髓损伤患者采取手术治疗的临床效果。方法:选择于2017年8月~2018年2月到我院接受治疗的23例胸腰段脊柱骨折脊髓损伤患者,所有患者均接受后路椎板