基于互联网的构件库系统构件描述信息抽取算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：haolong12345

【摘要】

：

基于构件的软件开发方法被视为解决软件危机的现实可行途径，这种方法的前提是需要大量可以使用的元构件，为了解决构件的来源问题，当前互联网涌现了一批构件资源下载网站，但是这些

【作者】

：

周赵鹏

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2012年期

【关键词】

：

构件信息抽取抽取算法构件挖掘构件检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于构件的软件开发方法被视为解决软件危机的现实可行途径，这种方法的前提是需要大量可以使用的元构件，为了解决构件的来源问题，当前互联网涌现了一批构件资源下载网站，但是这些构件资源总体分散，这对构件的准确、全面获取造成极大的不便，对这些构件资源网站的构件描述信息进行抽取、然后重新组织和整合，构建一个基于互联网的构件库系统，并提供统一的入口供构件获取者检索，具有重大的现实意义。构建基于互联网的构件库系统涉及到三个方面的关键技术，1）主题爬虫技术，主要从互联网当中采集包含有构件信息的web文档；2）信息抽取技术，从采集到的web页面中自动获取构件描述信息，并把它转换成语义更为清晰、更为结构化的格式；3）构件检索，对抽取到的信息进行标注、挖掘，并进行合理的组织和存储，提供一个入口供用户检索。本文将就信息抽取中的相关问题重点展开讨论，这是一个承上启下的研究，对上它需要对粗糙的、杂而无序的网页进行分析处理，提取出有效的构件描述信息，对下它需要以合理的方式进行组织，为后续的构件挖掘、构件检索提供便利。目前的一些网页信息抽取算法主要分为基于html结构、包装器归纳、网页语义分析三类，针对这些算法在抽取基于互联网的构件描述信息上的不足，提出了一种基于主题相似度不断逼近的构件信息抽取算法，通过引入结构化抽取模型的同义词表，屏蔽不同构件库网站对构件描述的差异，同时利用构件描述信息往往聚集在某个特定标签节点之下的结构特征，不断计算每个标签节点的主题相似度直到最大，从而达到精确定位和抽取目标信息的目的。充分且详实的实验表明，该算法在保证较高抽取率的前提下，实现起来相对简单，时间性能有小幅提升，同时可维护性好以及对网站结构的动态变化有很好的适应能力。

其他文献

基于GIS的畜牧疫情预测模型的研究和实现

畜牧疫情一直是畜牧业生产上的重要灾害,一直是制约畜牧业高产,优质,高效可持续发展的主导因素之一。随着我国经济建设的不断发展,畜牧业已经成为我国农业经济中的支柱产业,

学位

地理信息系统(GIS)畜牧疫情灰色模型组件

基于内容的中文垃圾短信分类技术的研究

随着移动通信技术的高速发展,手机用户的数量在飞速膨胀,由于手机短信使用简单、快捷、费用低廉,已经成为日常生活中不可或缺的通信方式之一。然而,低廉的传输代价,使得我们

学位

垃圾短信文本分类贝叶斯分类算法特征提取

面向虚拟化集群的动态资源调度系统研究与实现

随着云服务的应用领域越来越广，基于虚拟化技术的服务器集群规模越来越大，这对集群的资源调度提出了新的挑战。在大规模的虚拟化集群中，虚拟机的数量和负载会随应用的需求而经常

学位

虚拟化集群动态资源调度系统实时监控软件设计

基于GUI的面向企业级应用的自动化测试框架及实现

随着软件开发技术和测试技术的发展，仅仅依靠以密集劳动为特征的传统手工测试，已经不能满足快节奏软件开发和测试的需求，在测试中引入自动化测试技术已经成为共识。论文简要介绍

学位

GUI功能测试企业应用自动化测试

Mobile Database Summarization Technique Research and Application

The emergence of mobile computing provides the ability to access information almost anywhere and anytime. Mobility and the remote access to information is quick

学位

移动设备存储信息数据库数据聚合策略离线功能

基于分布式文件系统GlusterFS的安全技术研究

随着信息技术的迅猛发展，各种网络攻击已是非常普遍的现象。数据安全和通信安全也越来越受到人们的关注，如何在保证性能一定的情况下，还能提供完善的安全服务已经成为了炙手可热

学位

分布式文件系统密钥身份验证访问控制黑名单

不完备信息系统中的粗糙集理论与方法

粗糙集理论是波兰科学家Pawlak提出的一种新型的数学工具，可以处理复杂的不确定系统，在人工智能、数据挖掘、机器学习等领域都取得了较为成功的应用。但是经典的粗糙集理论是基

学位

粗糙集理论不完备信息系统不确定性度量属性约简规则获取

基于Web挖掘的中文网页分类的研究与实现

在当今信息时代，网络已经成为人们获取各种信息的主要渠道。其中，网页是承载这些信息的最主要载体。目前，网页数量已经相当庞大，并且每天都还在增长，网页内容也混杂不堪。为了能够

学位

网页分类网页净化SVM二叉树决策函数

中文维基百科的结构化信息抽取及词语相关度计算

为了提高计算机的智能化程度,在自然语言处理的过程中,加入语义知识的理解是非常必要的。随着日益增长的信息处理需求,如何从海量的语料资源中自动地获取丰富的语义知识,以及

学位

词语相关度计算中文维基百科结构化信息

基于OWL的STEP产品信息语义转换器设计与实现

随着计算机技术的发展和互联网技术的进步,企业集成制造趋势越发明显,传统的产品信息表达方式和处理模式已无法适应现代企业的需求。产品信息的交换与共享已不再局限于数据内

学位

语义共享STEPOWL本体转换器

基于互联网的构件库系统构件描述信息抽取算法研究

其他学术论文