基于统计的自动化Web新闻正文抽取

来源 :计算机应用与软件 | 被引量 : 19次 | 上传用户:fenderchu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前有多种Web新闻正文抽取算法,其中,基于树编辑距离的算法需要假设整个网页有统一模板,基于包装器的算法需要大量训练集,面向感知的提取算法适应性强,但是效率相对较低。提出了基于统计的Web新闻正文自动抽取方法,能自动检测分割网页功能模块的HTML标签,然后基于该标签解析网页,找出正文。方法不需要大量训练集,不需要假设有统一的网页模板,有较高的抽取速度,能较好地满足大多数新闻搜索服务应用的需求。
其他文献
总结常见软件保护方案及破解方法 ,提出一种采用RSA/IDEA双重加密机制的基于License文件的软件保护方案 ;结合常见的反跟踪技术讨论了软件保护和本方案的安全性。