基于互联网的构件库系统构件描述信息抽取算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:haolong12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于构件的软件开发方法被视为解决软件危机的现实可行途径,这种方法的前提是需要大量可以使用的元构件,为了解决构件的来源问题,当前互联网涌现了一批构件资源下载网站,但是这些构件资源总体分散,这对构件的准确、全面获取造成极大的不便,对这些构件资源网站的构件描述信息进行抽取、然后重新组织和整合,构建一个基于互联网的构件库系统,并提供统一的入口供构件获取者检索,具有重大的现实意义。构建基于互联网的构件库系统涉及到三个方面的关键技术,1)主题爬虫技术,主要从互联网当中采集包含有构件信息的web文档;2)信息抽取技术,从采集到的web页面中自动获取构件描述信息,并把它转换成语义更为清晰、更为结构化的格式;3)构件检索,对抽取到的信息进行标注、挖掘,并进行合理的组织和存储,提供一个入口供用户检索。本文将就信息抽取中的相关问题重点展开讨论,这是一个承上启下的研究,对上它需要对粗糙的、杂而无序的网页进行分析处理,提取出有效的构件描述信息,对下它需要以合理的方式进行组织,为后续的构件挖掘、构件检索提供便利。目前的一些网页信息抽取算法主要分为基于html结构、包装器归纳、网页语义分析三类,针对这些算法在抽取基于互联网的构件描述信息上的不足,提出了一种基于主题相似度不断逼近的构件信息抽取算法,通过引入结构化抽取模型的同义词表,屏蔽不同构件库网站对构件描述的差异,同时利用构件描述信息往往聚集在某个特定标签节点之下的结构特征,不断计算每个标签节点的主题相似度直到最大,从而达到精确定位和抽取目标信息的目的。充分且详实的实验表明,该算法在保证较高抽取率的前提下,实现起来相对简单,时间性能有小幅提升,同时可维护性好以及对网站结构的动态变化有很好的适应能力。
其他文献
畜牧疫情一直是畜牧业生产上的重要灾害,一直是制约畜牧业高产,优质,高效可持续发展的主导因素之一。随着我国经济建设的不断发展,畜牧业已经成为我国农业经济中的支柱产业,
随着移动通信技术的高速发展,手机用户的数量在飞速膨胀,由于手机短信使用简单、快捷、费用低廉,已经成为日常生活中不可或缺的通信方式之一。然而,低廉的传输代价,使得我们
随着云服务的应用领域越来越广,基于虚拟化技术的服务器集群规模越来越大,这对集群的资源调度提出了新的挑战。在大规模的虚拟化集群中,虚拟机的数量和负载会随应用的需求而经常
随着软件开发技术和测试技术的发展,仅仅依靠以密集劳动为特征的传统手工测试,已经不能满足快节奏软件开发和测试的需求,在测试中引入自动化测试技术已经成为共识。论文简要介绍
The emergence of mobile computing provides the ability to access information almost anywhere and anytime. Mobility and the remote access to information is quick
随着信息技术的迅猛发展,各种网络攻击已是非常普遍的现象。数据安全和通信安全也越来越受到人们的关注,如何在保证性能一定的情况下,还能提供完善的安全服务已经成为了炙手可热
粗糙集理论是波兰科学家Pawlak提出的一种新型的数学工具,可以处理复杂的不确定系统,在人工智能、数据挖掘、机器学习等领域都取得了较为成功的应用。但是经典的粗糙集理论是基
在当今信息时代,网络已经成为人们获取各种信息的主要渠道。其中,网页是承载这些信息的最主要载体。目前,网页数量已经相当庞大,并且每天都还在增长,网页内容也混杂不堪。为了能够
为了提高计算机的智能化程度,在自然语言处理的过程中,加入语义知识的理解是非常必要的。随着日益增长的信息处理需求,如何从海量的语料资源中自动地获取丰富的语义知识,以及
随着计算机技术的发展和互联网技术的进步,企业集成制造趋势越发明显,传统的产品信息表达方式和处理模式已无法适应现代企业的需求。产品信息的交换与共享已不再局限于数据内