基于标点符号统计特征的中文类型网页正文抽取

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:daxia3301
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的快速发展,已经让web成为一个庞大的信息源,用户准确从web获取所需要的信息的必要手段是信息抽取,如何快速准确地从web文档中查询到人们感兴趣的信息成为必须认真对待的重要问题。传统意义上的信息抽取技术是为文本的信息抽取而设计的,通常主要运用自然语言处理的技术。但是由于抽取信息时,除了文本内容之外没有其他可以使用的信息,所以信息抽取技术的发展相当的缓慢。如何提升web文档信息抽取的效率成为我们的研究热点,对于中文类型的web文档进行信息抽取有相当重要的实际意义。本文针对以上问题,对web文档信息抽取的深入地系统地研究,取得了以下两项研究成果。1.通过试验观察得出标点符号在web文档中的分布特征,发现标点符号可以作为web文档信息抽取的依据。2.针对中文类型网页,提出一种以标点符号统计特征为基础的抽取web文档正文的方法。该方法首先把web文档转换成与之相对应的DOM树,然后由标点符号的统计特征构造叶子结点的特征向量,由叶子节点的特征向量计算两个叶子结点的距离和每个叶子节点的权值,选择权重最大和最小的两个叶子结点作为样本叶子节点,把他们作为k-means算法的聚类的初始中心,利用抽取k-means把所有叶子节点分成两个聚类,选择权值最大的叶子节点所在的聚类,这个聚类中每个叶子所包含的内容都作为web文档的正文信息。实验结果显示,本论文提出的方法可以准确地把正文信息从web文档中抽取出来,这个算法拥有比较好的通用性。
其他文献
瞬态社会网络是指在特定时间、为特定事件、持续时间短及面对面接触所形成的社会网络。不同于在线社会网络,瞬态社会网络由于其特征,能够提供更加安全可靠的信息,但是瞬态社
随着问答社区(community-based Question Answering)的兴起,大量的问答资源在用户的交互中产生,为具有相似问题的用户解决问题提供了参照。问答资源中有一类问题称为意见选择类问
近年来,随着后基因组计划的飞速发展,蛋白质组学在生物信息学研究领域中占据的地位已不容小觑。其中,对蛋白质结构及功能起到调控作用的蛋白质翻译后修饰,更是成为该领域中的
数字媒体是现代数字时代最主要的通信工具之一。数字视频和图像已经成为最主要的信息载体。目前,主流媒体、法庭证物、时尚杂志、科学刊物、政治运动工具和互联网等越来越多
随着人工智能概念的兴起和增强现实、无人机、移动机器人、自动驾驶等行业的发展,工业界与学术界对高效率、高精度的鲁棒SLAM算法的需求越来越大,而SLAM应用中,状态估计方法的效率和精度极大地制约了SLAM算法的性能表现。目前主流的SLAM系统一般使用集束调整来进行非线性状态估计。一些系统使用了开源的通用非线性最小二乘求解器,为了适应不同类型的优化问题,这一类求解器通常采用批量式最小二乘算法,牺牲了效
学位
图像中目标对象抠取(Object cutout)是图像处理和编辑中的基本操作。但自动化的抠取真实图像中的目标对象是一项极其困难的任务,主要是因为真实图像中包含杂乱的背景,尤其是
本体是一种能够在语义层次和知识层次上对信息进行描述的概念模型,主要是用来描述概念以及概念之间关系。自从本体的概念提出了就引起了国内外很多科研工作者的关注,而且在计算
几何优化方法在数学、化学、物理、计算机等方面有着极广泛的应用。本文针对彩色图像灰度化和曲线的降阶逼近两个问题,研究相应的几何优化方法:1.彩色图像的灰度化灰度化方法的
本文主要研究数字地图的水印技术,针对矢量和栅格两种数据格式。首先,在分析矢量地图自身特点的基础上,根据其特点和鲁棒性要求,得出一种基于DCT变换的矢量地图数字水印算法,该算
移动传感器网络作为一种新型信息获取和处理技术,具有静态传感器网络无法比拟的优势,在国防军事、城市管理、环境监测、医疗卫生、家居及商业等领域均有广阔的应用前景。移动节