基于标点符号统计特征的中文类型网页正文抽取

来源 :湘潭大学 | 被引量 : 0次 | 上传用户：daxia3301

【摘要】

：

信息技术的快速发展，已经让web成为一个庞大的信息源，用户准确从web获取所需要的信息的必要手段是信息抽取，如何快速准确地从web文档中查询到人们感兴趣的信息成为必须认真对待

【作者】

：

王楠

【机构】

：

湘潭大学

【出处】

：

湘潭大学

【发表日期】

：

2012年期

【关键词】

：

信息抽取 DOM树统计特征 k-means 聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息技术的快速发展，已经让web成为一个庞大的信息源，用户准确从web获取所需要的信息的必要手段是信息抽取，如何快速准确地从web文档中查询到人们感兴趣的信息成为必须认真对待的重要问题。传统意义上的信息抽取技术是为文本的信息抽取而设计的，通常主要运用自然语言处理的技术。但是由于抽取信息时，除了文本内容之外没有其他可以使用的信息，所以信息抽取技术的发展相当的缓慢。如何提升web文档信息抽取的效率成为我们的研究热点，对于中文类型的web文档进行信息抽取有相当重要的实际意义。本文针对以上问题，对web文档信息抽取的深入地系统地研究，取得了以下两项研究成果。1.通过试验观察得出标点符号在web文档中的分布特征，发现标点符号可以作为web文档信息抽取的依据。2.针对中文类型网页，提出一种以标点符号统计特征为基础的抽取web文档正文的方法。该方法首先把web文档转换成与之相对应的DOM树，然后由标点符号的统计特征构造叶子结点的特征向量，由叶子节点的特征向量计算两个叶子结点的距离和每个叶子节点的权值，选择权重最大和最小的两个叶子结点作为样本叶子节点，把他们作为k-means算法的聚类的初始中心，利用抽取k-means把所有叶子节点分成两个聚类，选择权值最大的叶子节点所在的聚类，这个聚类中每个叶子所包含的内容都作为web文档的正文信息。实验结果显示，本论文提出的方法可以准确地把正文信息从web文档中抽取出来，这个算法拥有比较好的通用性。

其他文献

瞬态社会网络中信息扩散与影响力最大化

瞬态社会网络是指在特定时间、为特定事件、持续时间短及面对面接触所形成的社会网络。不同于在线社会网络,瞬态社会网络由于其特征,能够提供更加安全可靠的信息,但是瞬态社

学位

瞬态社会网络信息扩散结构洞相遇时间相遇次数

面向问答社区意见选择类问题的答案融合技术研究

随着问答社区（community-based Question Answering）的兴起，大量的问答资源在用户的交互中产生，为具有相似问题的用户解决问题提供了参照。问答资源中有一类问题称为意见选择类问

学位

问答社区情感极性判别答案摘要MMRROUGEWordNet

基于改进概率增量学习的蛋白质翻译后磷酸化修饰网络的研究

近年来,随着后基因组计划的飞速发展,蛋白质组学在生物信息学研究领域中占据的地位已不容小觑。其中,对蛋白质结构及功能起到调控作用的蛋白质翻译后修饰,更是成为该领域中的

学位

蛋白质翻译后磷酸化修饰心血管疾病改进的概率增量学习方法微分方程模型反向工程

Research on 2D Passive Blind Image Forensics using Characteristics of Discrete Wavelet Transform Coe

数字媒体是现代数字时代最主要的通信工具之一。数字视频和图像已经成为最主要的信息载体。目前,主流媒体、法庭证物、时尚杂志、科学刊物、政治运动工具和互联网等越来越多

学位

数字媒体图像取证篡改类型图像真实性特征提取

面向视觉惯性SLAM的通用增量式集束调整框架

随着人工智能概念的兴起和增强现实、无人机、移动机器人、自动驾驶等行业的发展,工业界与学术界对高效率、高精度的鲁棒SLAM算法的需求越来越大,而SLAM应用中,状态估计方法的效率和精度极大地制约了SLAM算法的性能表现。目前主流的SLAM系统一般使用集束调整来进行非线性状态估计。一些系统使用了开源的通用非线性最小二乘求解器,为了适应不同类型的优化问题,这一类求解器通常采用批量式最小二乘算法,牺牲了效

学位

基于深度学习和渲染数据的目标对象抠取

图像中目标对象抠取(Object cutout)是图像处理和编辑中的基本操作。但自动化的抠取真实图像中的目标对象是一项极其困难的任务,主要是因为真实图像中包含杂乱的背景,尤其是

学位

目标对象抠取深度神经网络渲染数据概率图

本体学习中关系获取的研究

本体是一种能够在语义层次和知识层次上对信息进行描述的概念模型，主要是用来描述概念以及概念之间关系。自从本体的概念提出了就引起了国内外很多科研工作者的关注，而且在计算

学位

本体关系获取分类关系非分类关系

图像灰度化与曲线降阶的几何优化方法研究

几何优化方法在数学、化学、物理、计算机等方面有着极广泛的应用。本文针对彩色图像灰度化和曲线的降阶逼近两个问题，研究相应的几何优化方法：1．彩色图像的灰度化灰度化方法的

学位

几何优化灰度化曲线降阶几何距离重新参数化

数字地图水印技术

本文主要研究数字地图的水印技术，针对矢量和栅格两种数据格式。首先，在分析矢量地图自身特点的基础上，根据其特点和鲁棒性要求，得出一种基于DCT变换的矢量地图数字水印算法，该算

学位

数字地图地理信息系统信息隐藏数字水印

基于节点覆盖的多层移动传感器网络移动控制策略研究

移动传感器网络作为一种新型信息获取和处理技术，具有静态传感器网络无法比拟的优势，在国防军事、城市管理、环境监测、医疗卫生、家居及商业等领域均有广阔的应用前景。移动节

学位

移动控制策略多层移动传感网络节点覆盖通信集合划分优化移动路径虚拟引力模型网络仿真

基于标点符号统计特征的中文类型网页正文抽取

其他学术论文