基于结构相似网页聚类的正文提取算法研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:jimislg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各"块"对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作为两个网页的相似度。该算法充分考虑结构差别较大的网页对网页正文提取的影响,通过计算网页间相似度将网页聚类,使得同一簇中的网页正文提取结果更加准确。实验结果表明,该方法具有更高的准确率,各项评价指标均有所提高。
其他文献
每667m2应用20,30,40g25%吡蚜酮可湿性粉剂,并以10%吡虫啉可湿性粉剂为对照防治假眼小绿叶蝉,结果表明,吡蚜酮对假眼小绿叶蝉有较好的控制作用,其中以30—40g的防治效果较好。
农业信息服务是现代农业社会化服务体系的重要组成部分,是发展现代农业、服务三农不可或缺的重要支撑。以提高农民信息意识和信息服务为目的,对"破窗效应"进行反向应用,进行促