基于本体的Web非规范知识处理中采集技术研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:falconlingzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,现在世界上绝大多数人都在用网络进行交流,网络在把信息传到用户方面已经取得了难以置信的成功,Web己经成为一种主要的知识来源,它经过十年左右的发展已经成为一个巨大的全球化知识仓库。 Web数据的组织格式主要以HTML这种半结构化的形式为主,是典型的非规范知识。这种语言不能处理网络上的很多需求,因为它只是一种用于浏览信息的语言,不能表达数据本身,网络还没有形成一个良好的结构化文档的存贮,而只是一个可变的HTML页的聚集,因此迫切希望来自网络资源的信息以一种结构化的方式来存贮,XML和它的各种扩展功能(如数据模型、查询语言等)是实现结构化方式的一种。使用扩展的标志语言XML,它是SGML的一个子集,是一种元语言,可以弥补很多HTML的不足。随着语义网的发展,未来的网页会使用具有很好结构化的XML语言,但是现在这一阶段是过渡阶段,必须思考一种方法来实现HTML到XML的转换,以更好地利用网络资源。 不像结构化数据,半结构化的数据对于数据查询来说是十分不容易的。面对Web这个信息的海洋,用户要精确地找到所需信息变得非常困难,往往面对着从搜索引擎中查找的大量的信息而不知所措。为此,人们希望可以得到一种能达到专家水平的高质量的信息抽取方案,这样可以为我们提供准确和简洁的信息来源,而不至于在信息的海洋中苦苦查找。信息抽取技术(Information Extraction,缩写为IE)是一种面向具体任务的实用的文档理解技术。与复杂的自然语言理解技术不同,IE技术通常采用浅层的文本分析技术,提取出设计者关注的特定主题的信息。该技术适用于具有特定主题及相对确定的信息结构的文档,如:广告、新闻、数据库自然语言查询和特定领域的文告等。针对这种情况,本文提出了基于领域本体的资源管理平台,重点实现了平台中的资源采集模块,在信息抽取中引入了Ontology技术和DOM模板技术,提出了一种基于Ontology能处理语义的Web非规范知识(HTML文档)采集系统。 在实现Web网页的信息抽取中,本文引入bot网页抓取技术、lucene索引技术、Ontology技术、DOM模板技术、HTML转换XML技术和XML存储技术,实现了一种基于本体的、能把HTML非规范信息按领域本体生成的映射规则转换成XML规范信息的Web信息采集系统。为了减少工作量,本文尽量采用了现有的比较成熟的技术和工具包,所以本文的工作重点是采用Java技术、Ontology技术和DOM模板技术,使用XSLT模板来实现HTML文档向XML文档的转换。即设计一个HTML-XML包装器,从HTML页面中抽取信息,以嵌入字符串列表SL的形式进行存贮,最后通过领域本体生成的映射规则映射成XML信元,把该XML文档存储到资源库中,从而实现HTML到XML的转换。
其他文献
  本论文利用FPGA可编程逻辑器件和硬件描述语言Verilog,采用自顶向下的设计方法,开发了一款基于PCI总线的高速数据采集卡。本数据采集系统中,采用PLX公司生产的PLX9080作为PC
随着互联网用户和流量的爆炸性增长,网络资源不足及网络拥塞问题日益严重,而各种新的多媒体业务的出现又对网络的服务质量提出了新的要求。流量工程就是为了解决这些问题而提
目前,数据挖掘作为一种发现大量数据中潜在信息的数据分析方法和技术,己经成为各界关注的热点。电力企业信息化建设积累了大量历史数据,迫切需要利用数据挖掘技术研发分析决
随着计算机技术和无线网络技术的进一步发展,移动办公等移动计算环境下的应用需求日益强烈,同时,应用需要处理的数据量和复杂度也不断增加,这使得许多应用需要嵌入式的移动数
网格计算是一种新的高性能分布式计算方法。随着web技术的发展与影响,开放网格服务体系结构OGSA被提出,从此网格计算以网格服务的形式呈现出来。随后开放网格服务基础设施OGS
本文运用计算机和人工智能技术的相关理论和方法解决该领域中的声音定位效果问题,选题具有重要的理论意义和实用价值。 首先,介绍虚拟声音技术理论和发展概况,分析相关领域的
随着电子信息的爆炸式增长,作为冗余数据消除的重要手段,数据去重和差量压缩技术受到越来越多的关注。数据去重可以消除重复的数据块,而差量压缩可以消除不重复但相似的数据块间
 本文的工作主要集中在:分析和比较了J2EE与CORBA,COM/DCOM当前流行的组件技术和平台,最后得出J2EE的优势所在。探讨了J2EE为开发基于Web的多层分布式应用提供的支持,设计了基
开发和研究基于Internet的远程教学系统已成为世界各国所关注的重要课题。现有的远程教学系统大多仅仅是将面对面的教学网络化,未能充分体现远程教学的个性化和协作化,难以达到
随着XX单位网络(以下称专用网络)的建设和发展,指挥、办公和业务保障系统陆续上网运行。为了做好信息安全管理工作,虽然已经使用了一定的防护手段,但是,在网络信息安全管理的