基于统计的自动化Web新闻正文抽取

来源 :计算机应用与软件 | 被引量 : 19次 | 上传用户：fenderchu

【摘要】

：

目前有多种Web新闻正文抽取算法,其中,基于树编辑距离的算法需要假设整个网页有统一模板,基于包装器的算法需要大量训练集,面向感知的提取算法适应性强,但是效率相对较低。提出了基于统计的Web新闻正文自动抽取方法,能自动检测分割网页功能模块的HTML标签,然后基于该标签解析网页,找出正文。方法不需要大量训练集,不需要假设有统一的网页模板,有较高的抽取速度,能较好地满足大多数新闻搜索服务应用的需求。

【作者】

：

林子熠沈备军

【机构】

：

上海交通大学软件学院

【出处】

：

计算机应用与软件

【发表日期】

：

2010年12期

【关键词】

：

WEB新闻正文抽取自动化标签检测 Web news Text extraction Automatic tag detection

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

一种基于RSA／IDEA加密License文件的软件保护方案

总结常见软件保护方案及破解方法 ,提出一种采用RSA/IDEA双重加密机制的基于License文件的软件保护方案 ;结合常见的反跟踪技术讨论了软件保护和本方案的安全性。

期刊

软件保护文件RSAIDEA反跟踪技术加密破解方法常见安全性Software ProtectionEncryptAnti-trackRSA/ID

基于统计的自动化Web新闻正文抽取

其他学术论文