【摘 要】
:
随着WWW成为丰富而庞大的信息来源,对大量信息进行自动自理是亟待解决的问题, 因为通过人工浏览,单个地处理WEB页面的方法是远远不够的.作者发现许多信息源是以相 对稳定和结
论文部分内容阅读
随着WWW成为丰富而庞大的信息来源,对大量信息进行自动自理是亟待解决的问题, 因为通过人工浏览,单个地处理WEB页面的方法是远远不够的.作者发现许多信息源是以相 对稳定和结构化的格式提供信息,这样就可以利用信息抽取程序(Informateon Extractor) 或信息打包程序(Wrapper)来自坳地获得格式化的信息(Formatted Information).信息抽取程序是依赖于信息源的.由专家人工手写,或通过自动分析用户标记的一组Web页面归纳推 导生成.该文将描述基于知识的Web信息抽取工具的原理、结构和实现,讨论基于知识的智 能系统(Knowledge-based Agent)的模型,描述关于信息源的格式的知识,根据用户标注的 学习页面,自动获得信息源的格式或信息模板(Information Template)和用户需要信息在页面上的位置,并加入知识库中,然后在知识库的指导下自动地从Web页面抽取相关信息.系 统原型用专家系统工具CLIPS编写.
其他文献
数字图象压缩编码技术是可视信息通信与交换的关键技术之一.个人通信对可视信息的要求,有GSTN网和INTERNET网的广泛分布促进了低码率视频压缩编码技术的发展及其标准化.该文
VHDL面向RTL级可综合子集的检查与优化实现受到国家211工程的支持.研究人员对VHDL面向RTL级可综合子集的检查与优化的实现进行了大量的测试,测试用例尽量包含了VHDL语言可以
该文根据面向对象分析方法,建立了研究生管理信息系统的对象模型,并据此进行了系统设计,同时对研究生管理的网络化设计、决策支持设计等进行了分析与研究.该文首先应用面向对
不同的人的指纹是不相同的,因此它常被用来表识一个人的身份特征.迄今为止,已有大量的学者对指纺识别进行了研究,也有了实际应用的例子.计算机技术的进步和数学理论的发展,人
该文提出了一种以软件方式实施在以太网上的带宽预留协议-BREther(Brandwidth Reservation Ethernet)协议.BREther协议通过令版服务器处理以太网上的带宽预留申请,并使用令
该文首先概括地介绍了分布式主动实时数据库系统的研究意义和发展现状,然后以工作人员研制的基于Client/Server的分布式主动实时数据库原型系统ARTs-CS为基础,深入地探讨了Cl
正交表是一类极其重要的组合结构,这一概念包括了拉丁方、正交拉丁方、射影平面、Hadamard矩阵等重要概念.该文对正交表的性质进行了深入的研究,从理论上给出了用拟物方法搜
该文共分六章.第一章论述数据开采的意义、内容、挑战、应用和系统框架;第二章阐述数据噪声的消除策略、自动的提取数值型和非数值型概念层次的方法;第三章讨论多层次概念数
该文根据国内电子制造业的实际情况,设计并实现了一种基于中心数据库的CAD/CAPP/CAM集成方法.此集成方法已应用于国家863项目武汉邮电科学院CIMS二期工程,不但提高了系统信息
本课题是针对空间辐射生物学实验装置中生命保障所需的温控问题而开展的研究。空间辐射生物学实验源自国家“十一五”民用航天返回式科学实验卫星项目“空间辐射对基因的作用