基于标签路径特征的Web新闻内容抽取研究

被引量 : 9次 | 上传用户:tju515
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web新闻内容抽取是Web智能信息处理过程中的一个非常重要的步骤,是情报获取与安全、网络舆情监测、移动终端个性化推荐服务、异构Web数据集成、信息检索、搜索引擎等研究与应用的基础。因此,面向Web新闻内容抽取领域中的相关问题开展研究,具有重要的研究和应用价值。实例分析和进一步研究发现,许多新闻网站具有类似的布局结构和风格,网页内容布局与其解析树的标签路径之间存在隐含的关联性。传统的路径表达式过于刚性,在Web信息抽取过程中难以适应HTML文档结构的细微变化,影响信息抽取的准确率;此外,Web新闻网页具有海量异构的特点,对手工构造包装器技术以及基于规则学习的包装器技术的通用性提出了挑战。为此,本文开展基于标签路径特征的Web新闻内容抽取研究,研究内容涉及两方面:面向特定网站,研究基于路径模式知识的高精度Web新闻内容抽取模型和方法;面向开放环境,研究基于标签路径特征的通用Web新闻内容抽取模型和方法。主要研究内容如下:(1)在研究网页内容布局与其解析树的路径模式之间存在隐含关联性的基础上,提出了一种新颖的Web信息抽取系统模型—基于区分路径模式的Web新闻内容抽取模型PP-WNE。在此基础上,定义了一种特殊的适用于Web新闻内容抽取的路径模式—区分路径模式,并提出一种区分路径模式挖掘方法,解决了抽取模式知识库的构建问题。以中文、英文网站上随机选取的网页为实验数据集,实验结果表明,通过采用合理设置的容噪阈值,基于路径模式挖掘的新闻网页内容抽取方法的F值可达到98%以上,同时也验证了路径模式应用于Web新闻内容信息抽取领域的可行性和有效性。(2)为解决基于路径模式的Web信息抽取模型PP-WNE中知识库规模的优化问题,提出区分路径模式覆盖问题,并证明了区分路径模式覆盖问题是一个NP-complete问题。为求解区分路径模式覆盖问题的近似最优解,定义了一种特殊的区分路径模式—极小区分路径模式,在此基础上,设计了一个求解区分路径模式覆盖问题的多项式时间(in|n|+1)近似算法MPM,其中,n为训练样本中正例的规模。在测试数据集上的实验结果表明,MPM算法可有效优化区分路径模式集,并且在节点级评估标准和文本级评估标准下均可达到98%以上的抽取精度、召回率和F值。(3)面向开放环境Web新闻内容抽取的需求,设计了一种文本标签路径比特征,描述了基于网页解析树节点遍历的文本标签路径比计算过程,提出基于文本标签路径直方图区分内容和非内容的阈值方法CEPR,有效地解决了在线Web新闻内容抽取的问题;提出了基于路径编辑距离的加权高斯平滑方法,有效地提高了CEPR算法在抽取短文本方面的能力,并解决了新闻内容中非新闻内容过滤的问题。CEPR是一种快速的、通用的、无需训练的网页内容抽取算法,可抽取多种来源、多种风格、多种语言的Web信息网页。在CleanEval测试数据集上的实验结果表明,大多数情况下,CEPR方法优于CETR等抽取方法。(4)设计并实现了一个HTML新闻网页过滤与总结系统NFaS。其中,提出并实现了一种基于URL特征、网页结构特征、内容属性特征相结合的Web新闻网页自动识别方法,有效地解决了Web新闻网页自动识别问题;采用Web新闻内容抽取技术,有效地解决了Web新闻网页过滤问题;采用一种基于词语语义联系的关键词抽取方法,通过词汇链构造词语语义联系图,抽取出高质量的关键词,完成Web新闻的总结任务。在测试数据集上的评估结果验证了NFaS系统的有效性。
其他文献
2005年国际古迹遗址理事会通过的《西安宣言》第一次系统的阐明了遗址周边区域的含义,对历史文化遗址的认识达到了一个新的高度。目前国内的研究大部分是针对大遗址保护理论
近年来,国际货币基金组织、世界银行和国际清算银行等著名国际金融机构以 及许多国家的中央银行定期发布金融稳定报告。但学术界并未就金融稳定的内涵和如何维护 金融稳定等
小组合作学习能调动学生学习的积极性,有利于培养学生合作精神和能力,增强学生学习的自信心,提高语文教学的效率。因此,在具体的教学中,要科学合理地组建学习小组,让每个组员
与新进入企业相比,现有企业开展突破性创新活动会面临更加复杂的组织环境。本文从组织惯性与突破性创新活动之间的内在矛盾出发,对现有企业组织内部创新活动所遭遇的惯性障碍
“陕北民歌是我国唯一走遍全国的民歌。”它的流传扩散与传播环境的推动和传播方式的革新密不可分。最初陕北民歌依赖口头人际传播和宗教祭祀、人生礼仪、节日庆典等仪式化群
新技术正在从根本上改变我们的社会日常生活,其中20世纪末数字化技术的发展和成就引发的电子技术和数字化媒体的兴起与普及,例如赛博空间借助譬如超媒体、信息技术、虚拟现实
提出了网络舆情突发事件的生命周期原理,将网络舆情突发事件分为潜伏期、萌动期、加速期、成熟期、衰退期五个阶段。基于生命周期原理,提出了网络舆情突发事件应对集群决策的
<正> 一、自由的本质个性化教学着眼于学生的"平民化自由人格"的培养,"平民化自由人格"孕含着三层意思:其一,完整的独立人格不是在真空中形成的,而是在作为社会生活的学校环
<正>脑血管病存活者中50%~70%遗留有严重残疾,给社会和家庭带来沉重的负担。脑梗死是常见的脑血管病,其发病率、致残率都很高,严重影响人民的健康[1]。急性脑梗死是由多因素
本文首先探讨了英国教育结构中的普通高中组成 ,然后在此基础上 ,重点对官方文件以及实例中的课程 2 0 0 0的改革措施及实施进行了研究 ,以期能对我国目前正在酝酿的高中课程