基于本体的Web页面聚类挖掘

来源 :太原理工大学 | 被引量 : 6次 | 上传用户:kuaileyt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网络的发展,Web页面的数量激增,人们需要对大量的文本资源进行有效的组织,以有利于信息检索、模式发现、为用户提供推荐服务,以及为进一步的分类提供模式基础,于是Web页面的聚类技术成为一种迫切需要,针对传统聚类方法的不足,将领域本体引入聚类中,实验验证,提高了聚类的效率,增强了结果的可解释性,大大节省了用户查找信息的时间。本文研究本体在Web页面中的聚类挖掘。本体作为领域模型,提供了人们对领域概念和概念层次的共同理解,同时其应用降低了对自然语言理解技术的依赖。本文主要的工作和成果如下:提出了一种基于本体的文本表示模型。针对传统模型中的不足,通过引入本体,能更好的表示文档集合的特征。提出了一种基于本体的聚类算法,通过利用本体提供的领域知识,有效地解决传统方法中参数确定和结果可解释性等问题。构建了一个基于本体的Web页面聚类挖掘系统,原型系统通过结合领域本体的优势,在一个引擎的环境下对返回的页面进行聚类,实验验证,这样有效地减少了用户寻找信息的时间,同时增强了聚类结果可解释性。
其他文献
无线传感器网络由大量的微型网络传感节点构成,这些节点被用于测试、传感、收集、处理被观测对象,节点收集的信息被发送到远端用户。对这样大量长时间部署的节点的应用很可能
司法部门的信息化建设对于提高工作效率、加强司法公正是十分重要的。法院综合管理信息系统采用以网络技术为支撑平台,以“沟通、协作、协调”为基本理念,通过对司法部门的信息
随着数据通信的飞速发展,相对于有线网络,无线网络已经有着越来越广泛的应用。但是,虽然无线网络有着灵活性的优势,但在性能方面和有线网络还存在一定的差距,例如速率、覆盖范围、
网格系统是将地理上分布不同、系统异构、性能各异的各种资源,通过高速互连网络连接起来形成的广域范围的资源共享和协同计算环境。网格计算技术的出现,使得我们可以突破地理位
随着世界网络化和数字化的快速发展,搜索引擎成为网络用户不可缺少的一部分。基于内容的图像检索由于语义鸿沟,检索出来的图像并不能满足用户的需求。无论使用哪一种特征(颜色
近年来,随着信息技术的发展与普及,在智能控制、商务、金融、实验科学研究、信息服务等应用领域提出了一系列新的复杂智能决策问题,它们具有海量数据、包含随机因素、要求环境适
人类获取客观世界信息的主要途径是图像,而图像在获取和传输过程中容易受到各种各样的干扰,如光学图像容易被高斯白噪声干扰。噪声会大大降低图像的分辨率,严重影响图像的后续处
由于计算机的迅速普及和互联网的广泛流行,产生了数据和信息的汪洋大海。要想从中获取隐藏、有用的知识,就要使用各种学习算法和方法。而许多学习算法要求输入的属性值是离散的
本论文主要的研究内容是基于噪音环境下的语音识别性能的改进研究。语音识别是指利用计算机通过识别和理解把人类的语音信号转变为相应的文本或命令技术。然而,大多数语音识别
智能视频监控是计算机视觉领域一个新兴的应用方向和备受关注的前沿课题,其研究内容涉及计算机视觉、模式识别、人工智能、通信网络等多个学科。智能视频监控的目的是利用计算