网页结构模板生成新方法研究

来源 :北京机械工业学院学报 | 被引量 : 0次 | 上传用户:minlu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息.限制了Web的可用性。为了高效地抽取基于模板的网页主题信息,提出了一种新的从HTML网页结构分析入手的模板生成方法。该方法以文档对象模型(DOM)为基础,通过对网页对应的DOM树层次结构进行分析,来判断两个网页是否相似,结构上相似的网页可以作为一个样本集。利用生成的样本集可以比较方便的抽象出网页结构模板,实现高效的信息抽取。实验表明,该方法准确率可达97%。
其他文献
介绍了简化EJB(enterprise javabean)开发的最新设计模式,即EJB委派技术;结合EJB委派技术研究了在线测试中抽题组卷策略,提出一种在线自动随机抽题策略(SOREI),即按照题库中“被抽次
本文对版式文档中仿射变换的显示加速进行了研究。对版式文档显示过程和仿射变换的关系进行了说明。对仿射变换中使用原始的逐点判断算法进行了分析,总结出逐点判断算法速度不够理想的原因。并根据这些原因提出使用扫描线算法来减少无效计算,使用SSE指令来提高内存数据的搬移速度的方法。最后在实验对比中说明了加速方法的有效性。
针对三相电弧炉电极调节系统的电极控制问题,设计了自适应模糊鲁棒控制器,给出了模糊鲁棒控制系统的详细设计过程。该方法考虑了跟踪误差和逼近误差对参数自适应律的影响,并对模
对网络时代的计算机辅助教学的实现方式进行了探讨,重点讨论基于Web的“数值分析CAI系统”(课件)的设计和实现过程,主要包括系统目标、功能分析与设计等。阐述基于Web的CAI系统的
针对磁悬浮轴承控制系统设计复杂、价格昂贵等问题,采用数字信号处理器为核心设计了磁轴承控制系统。采用FUZZY-PID控制算法,编制了控制软件。连续运转试验表明,磁悬浮轴承悬浮
针对在windows操作系统下对磁性存储介质进行数据销毁时容易感染病毒的难题,提出基于ARM架构的Linux系统作为开发平台,采用Qt/Embedded作为开发工具,利用其信号与槽机制,然后通过
船舶横摇运动是对船舶航行影响最大的运动,研究船舶横摇运动的建模与预报对于提高船舶适航性、耐波性有重要意义。根据船舶在随机海浪作用下的运动特性,运用时间序列分析方法建
为满足测量仪器集成化、智能化的市场要求,同时提高测量仪器的人机交互性和实用性,基于Visual C#.NET的软件开发平台,设计了白度测量系统的上位机软件。该上位机软件通过计算机已有的通讯接口RS232进行通信,实现白度测量系统与个人电脑的连接;不仅能够实现白度测量系统全部的操作功能,还能够方便快捷的使用计算机设置和保存白度测量系统的相关参数。上位机软件界面友好,能够直接显示测量结果并保存测量数据
针对LabWindows/CVI在实时数据的存储和管理方面的不足,提出了一种在LabWindows/CVI平台与Visual FoxPro数据库之间实现数据共享的解决方案,该方案应用开放式数据库互连(ODBC)做数
针对现有系统监测工具可扩展性的不足,提出计算机监测单元系统,实现为管理员提供批量计算机系统监测的管理平台。通过研究,设计了具有CPU监测器、系统物理/虚拟内存监测器、进程