论文部分内容阅读
随着互联网络的发展,Web页面的数量激增,人们需要对大量的文本资源进行有效的组织,以有利于信息检索、模式发现、为用户提供推荐服务,以及为进一步的分类提供模式基础,于是Web页面的聚类技术成为一种迫切需要,针对传统聚类方法的不足,将领域本体引入聚类中,实验验证,提高了聚类的效率,增强了结果的可解释性,大大节省了用户查找信息的时间。本文研究本体在Web页面中的聚类挖掘。本体作为领域模型,提供了人们对领域概念和概念层次的共同理解,同时其应用降低了对自然语言理解技术的依赖。本文主要的工作和成果如下:提出了一种基于本体的文本表示模型。针对传统模型中的不足,通过引入本体,能更好的表示文档集合的特征。提出了一种基于本体的聚类算法,通过利用本体提供的领域知识,有效地解决传统方法中参数确定和结果可解释性等问题。构建了一个基于本体的Web页面聚类挖掘系统,原型系统通过结合领域本体的优势,在一个引擎的环境下对返回的页面进行聚类,实验验证,这样有效地减少了用户寻找信息的时间,同时增强了聚类结果可解释性。