基于块文本长度的网页主题信息抽取算法

来源 :东南大学 | 被引量 : 0次 | 上传用户:liongliong577
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,WEB已经发展成为一种巨大的、分布式和共享的信息资源。目前WEB数据大多以HTML页面的形式出现。由于HTML语言的半结构化特征,以及嵌入网页的各种广告信息等原因,给基于网页内容的应用--搜索引擎带来很多困难。因此,需要研究一种有效的获取网页信息的方法。   本文通过对大量主题型网页的分析,发现主题型网页一般采用大段的文本来描述一个或多个主题。在HTML的DOM树形结构中,这些描述主题的文本信息通常分布在一些离得比较近的块节点下。通过对现有的各种网页信息抽取算法分析基础上,结合主题型网页的特点,本文提出了一种基于HTML块文本长度的网页主题信息抽取算法。然后在用于解析HTML的开源项目HTMLParser基础上实现了这个算法。   具体地,本文的主要工作有:   1.完善了关于网页分块的理论与相关概念,提出了块文本的概念。   2.通过分析不同类型网页的特征,提出了一种用于辨别网页类型的网页统计模型。   通过编程获取大量的基准网页,然后经过统计实验获得一种判断主题型网页的方法。   3.通过分析WEB全文搜索引擎的分析子系统和查询子系统中与网页数据直接或间接关联的关键功能模块,提出了一种方便实用的网页结构化模型。   4.在网页分块理论的基础上,提出了一种基于块文本长度的网页主题信息抽取算法。使用Java语言编程实现了这个算法,并通过实验证明该方法切实可行,具有较高的准确率。   5.在本文提出的的网页信息抽取算法、网络蜘蛛程序Heritrix、索引工具Lucene、MVC框架Struts2以及Ajax等基础之上实现了一个全文搜索引擎-东南大学校园搜索引擎。网页主题信息抽取算法
其他文献
为了确保保乳手术在术中彻底清除病灶,需要快速、准确的术中乳腺癌灶边缘界定方法。生物电阻抗包含丰富的人体生理、病理相关信息,其测量技术具有无创、廉价、安全和快速等特点
锅炉是发电、炼油、化工等工业部门的重要能源、热源动力设备。过热蒸汽作为锅炉运行中的一项重要指标,反映出设备运行的经济性和安全性。对于发电厂中的中、高压锅炉,过热蒸
矩阵变换器(MC)是一种直接交-交功率变换器件,具有输入功率因数可调、能量双向流动、正弦输入正弦输出等优点,在双馈型调速及风力发电机组中具有重大的实际应用价值。  
多机器人系统的分布式协同控制是当前的热门研究领域,而一致性问题更是其中的一类基本问题。多机器人系统的一致性问题通常考虑的是系统中个体的内部状态,而在一些特殊的任务
运动目标跟踪一直是模式识别领域中的一项重要研究课题,可以广泛应用于视频监控,人机交互,智能环境,视频压缩及军事领域等方面,其主要困难在于如何使算法在复杂的真实环境中
信息科技的飞速发展推动着无线传感器网络及物联网技术的大发展,而物联网技术的发展使得位置感知这一重要课题获得了科研工作者们前所未有的关注。只有当物体的位置信息明确
天然金刚石具有硬度高、耐磨性好及磨擦因子低等特征,现行的光栅刻划刀具采用的材质是天然金刚石,但天然金刚石所具有的质脆、易崩裂、高温下易产生热化学磨损和扩散磨损等特
在这近100年来,人类的主要交通工具由普通马车变为了高速行驶的汽车。但是随之而来的环境污染、能源危机已经影响到人类的发展,人们开始希望汽车不仅动力强劲还能节能减排。
通过通信网络形成的反馈控制系统称为网络控制系统(Networked Control Systems,NCSs)。相比于传统的控制模式,NCSs具有共享信息资源、便于安装和维护、高可靠性等优点。随着
专用铁路运输是我国铁路运输的重要组成部分,目前,我国许多专用铁路都座落在矿区,承担着矿区煤炭运输的任务。由于我国的许多矿区都拥有多座一流的现代化生产矿井,综合机械化