论文部分内容阅读
Internet作为一个庞大的信息资源库,已成为人们获取信息的主要途径之一,也是教育资源的重要来源。但是,随着网上资源爆炸式地增长,人们在Web上找到自己感兴趣的资源越来越困难。搜索引擎技术的出现在一定程度上缓解了人们在搜索信息过程中遇到的困难,但是搜索引擎的弱点近年来逐渐显现,那就是它不能准确地提供给用户他们真正想搜索的信息,这是因为现有的Web内容,是以人浏览和理解为出发点而设计的,缺少计算机能够理解的信息,语义Web这时为解决此问题应运而生的。在现有的Web向语义Web过渡的过程中,人们无法立即舍弃现有的具有丰富信息的Web页面,所以现有Web页面的语义信息提取就成为能否向语义Web顺利过渡的关键。目前的Web页面语义信息提取工作需要大量的人工参与,而自动化程度较高的语义信息提取技术,性能相对较低,并且均采用定制的语言表达提取规则,缺乏通用性,系统不易升级。针对上述问题,本文提出一种Web页面语义信息提取模型,该模型可以自动地、批量地对Web页面进行语义标注,并自动提取领域的语义信息。具体地,使用了基于页面视觉特征技术的Web内容预处理技术,去除了网页内的噪音,提高了语义提取的速度和精度;提出了基于文本聚类的语义标注,使用基于段落的改进HAC算法,自底向上地对组成文档的各级段落进行聚类,对各级段落的候选关键词进行了提取和上卷,使聚类过程得到了各个语义层次的语义关键词;定义了“语义簇”的概念,设计了基于语义簇聚类的Web页面语义信息提取方法,根据文本聚类确定不同的阈值,控制语义实体的层次关系,利用语义簇相关度进行分析,建立语义簇之间的语义关联,并生成代表某一语义主题概念的用“种子语义簇”表示的词类,由此实现Web页面语义信息的提取。实验证明,基于段落层次的的改进HAC算法,缩减了语义关键词集合规模;基于改进HAC的语义簇聚类,在时间和精度上较传统算法具有更大的优势。