网页结构模板生成新方法研究

来源 :北京机械工业学院学报 | 被引量 : 0次 | 上传用户：minlu123

【摘要】

：

Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中，使用户不能迅速获取主题信息．限制了Web的可用性。为了高效地抽取基于模板的网页主题信息，提出了一种新的从HTML网页

【作者】

：

冯少卿都云程

【机构】

：

北京信息工程学院中文信息处理研究中心

【出处】

：

北京机械工业学院学报

【发表日期】

：

2007年3期

【关键词】

：

DOM 结构分析网页相似样本集模板 DOM structure analysis webpage similarity sample colle

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中，使用户不能迅速获取主题信息．限制了Web的可用性。为了高效地抽取基于模板的网页主题信息，提出了一种新的从HTML网页结构分析入手的模板生成方法。该方法以文档对象模型（DOM）为基础，通过对网页对应的DOM树层次结构进行分析，来判断两个网页是否相似，结构上相似的网页可以作为一个样本集。利用生成的样本集可以比较方便的抽象出网页结构模板，实现高效的信息抽取。实验表明，该方法准确率可达97％。

其他文献

基于EJB委派技术的在线抽题组卷策略研究

介绍了简化EJB（enterprise javabean）开发的最新设计模式，即EJB委派技术；结合EJB委派技术研究了在线测试中抽题组卷策略，提出一种在线自动随机抽题策略（SOREI），即按照题库中“被抽次

期刊

在线自动随机抽题EJB委派CMP实体BeanJ2EE中间件online random extracting item EJB delegate

版式文档中对仿射变换显示的加速方法

本文对版式文档中仿射变换的显示加速进行了研究。对版式文档显示过程和仿射变换的关系进行了说明。对仿射变换中使用原始的逐点判断算法进行了分析,总结出逐点判断算法速度不够理想的原因。并根据这些原因提出使用扫描线算法来减少无效计算,使用SSE指令来提高内存数据的搬移速度的方法。最后在实验对比中说明了加速方法的有效性。

期刊

版式文档仿射变换逐点判断扫描线算法SSEfixed layout document(FLD)affinejudging point by poin

电弧炉的间接自适应模糊鲁棒控制

针对三相电弧炉电极调节系统的电极控制问题，设计了自适应模糊鲁棒控制器，给出了模糊鲁棒控制系统的详细设计过程。该方法考虑了跟踪误差和逼近误差对参数自适应律的影响，并对模

期刊

自适应模糊控制鲁棒控制电弧炉电极调节系统adaptive fuzzy controlrobust controlelectric arc furna

基于Web的数值分析CAI系统的设计与实现

对网络时代的计算机辅助教学的实现方式进行了探讨，重点讨论基于Web的“数值分析CAI系统”（课件）的设计和实现过程，主要包括系统目标、功能分析与设计等。阐述基于Web的CAI系统的

期刊

Web计算机辅助教学(CAI)目录树结点APPLET动态页面Web CAI catalog tree node applet d

基于DSP的磁悬浮轴承控制系统

针对磁悬浮轴承控制系统设计复杂、价格昂贵等问题，采用数字信号处理器为核心设计了磁轴承控制系统。采用FUZZY-PID控制算法，编制了控制软件。连续运转试验表明，磁悬浮轴承悬浮

期刊

磁悬浮轴承数字信号处理器A/D转换器active magnetic bearingdigital signal processingA/D conve

基于Linux和Qt／Embedded的数据销毁设计

针对在windows操作系统下对磁性存储介质进行数据销毁时容易感染病毒的难题，提出基于ARM架构的Linux系统作为开发平台，采用Qt／Embedded作为开发工具，利用其信号与槽机制，然后通过

期刊

QT/EMBEDDEDLINUX移植信号/槽Qt/Embedded Linux transplantation signal/slot

船舶横摇运动的时间序列预报

船舶横摇运动是对船舶航行影响最大的运动，研究船舶横摇运动的建模与预报对于提高船舶适航性、耐波性有重要意义。根据船舶在随机海浪作用下的运动特性，运用时间序列分析方法建

期刊

AR模型船舶横摇运动时间序列预报auto-regressive model ship rolling time series prediction

白度测量系统上位机软件设计

为满足测量仪器集成化、智能化的市场要求,同时提高测量仪器的人机交互性和实用性,基于Visual C#.NET的软件开发平台,设计了白度测量系统的上位机软件。该上位机软件通过计算机已有的通讯接口RS232进行通信,实现白度测量系统与个人电脑的连接;不仅能够实现白度测量系统全部的操作功能,还能够方便快捷的使用计算机设置和保存白度测量系统的相关参数。上位机软件界面友好,能够直接显示测量结果并保存测量数据

期刊

串口通信白度测量上位机下位机serial communication whiteness measurement upper computer

LabWindows／CVI平台下数据共享技术研究

针对LabWindows／CVI在实时数据的存储和管理方面的不足，提出了一种在LabWindows／CVI平台与Visual FoxPro数据库之间实现数据共享的解决方案，该方案应用开放式数据库互连（ODBC）做数

期刊

LABWINDOWS/CVIVISUALFOXPRO数据共享ODBCLabWindows/CVI Visual FoxPro data shar

计算机监测单元系统的分析与研究

针对现有系统监测工具可扩展性的不足，提出计算机监测单元系统，实现为管理员提供批量计算机系统监测的管理平台。通过研究，设计了具有CPU监测器、系统物理／虚拟内存监测器、进程

期刊

监测单元面向对象对象模型monitor unit object-oriented technology object model

网页结构模板生成新方法研究

其他学术论文