Web页面语义信息提取方法的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:ez062009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet作为一个庞大的信息资源库,已成为人们获取信息的主要途径之一,也是教育资源的重要来源。但是,随着网上资源爆炸式地增长,人们在Web上找到自己感兴趣的资源越来越困难。搜索引擎技术的出现在一定程度上缓解了人们在搜索信息过程中遇到的困难,但是搜索引擎的弱点近年来逐渐显现,那就是它不能准确地提供给用户他们真正想搜索的信息,这是因为现有的Web内容,是以人浏览和理解为出发点而设计的,缺少计算机能够理解的信息,语义Web这时为解决此问题应运而生的。在现有的Web向语义Web过渡的过程中,人们无法立即舍弃现有的具有丰富信息的Web页面,所以现有Web页面的语义信息提取就成为能否向语义Web顺利过渡的关键。目前的Web页面语义信息提取工作需要大量的人工参与,而自动化程度较高的语义信息提取技术,性能相对较低,并且均采用定制的语言表达提取规则,缺乏通用性,系统不易升级。针对上述问题,本文提出一种Web页面语义信息提取模型,该模型可以自动地、批量地对Web页面进行语义标注,并自动提取领域的语义信息。具体地,使用了基于页面视觉特征技术的Web内容预处理技术,去除了网页内的噪音,提高了语义提取的速度和精度;提出了基于文本聚类的语义标注,使用基于段落的改进HAC算法,自底向上地对组成文档的各级段落进行聚类,对各级段落的候选关键词进行了提取和上卷,使聚类过程得到了各个语义层次的语义关键词;定义了“语义簇”的概念,设计了基于语义簇聚类的Web页面语义信息提取方法,根据文本聚类确定不同的阈值,控制语义实体的层次关系,利用语义簇相关度进行分析,建立语义簇之间的语义关联,并生成代表某一语义主题概念的用“种子语义簇”表示的词类,由此实现Web页面语义信息的提取。实验证明,基于段落层次的的改进HAC算法,缩减了语义关键词集合规模;基于改进HAC的语义簇聚类,在时间和精度上较传统算法具有更大的优势。
其他文献
上世纪50年代中期创立仿生学以来,人们不断地从生物进化的机理中得到启发,提出了许多用于解决复杂组合优化问题的新方法,比如蚁群算法和粒子群算法等等,它们都是适于大规模并行且
车辆牌照识别是智能交通系统(ITS)的一个重要组成部分,尤其是复杂背景下的车牌识别,有着广泛的应用领域和美好的应用前景,其发展必将大大加速ITS进程。本文针对目前车牌识别
电动机是所有自动设备的动力之源,磁瓦是电动机中的一个主要组成部件,其性能关系到电动系统的可靠性、稳定性和安全性。对于功能面的缺陷,必须在检测时予以剔除,以免装入电动机后
物联网技术、云计算、大规模高效能计算的蓬勃发展催生了以“制造即服务”为理念的云制造模式。随着这种模式的深入推广,越来越多的资源接入到云制造虚拟资源池中,资源提供商、
随着信息技术的不断发展,Web上的信息量呈爆炸性增长。按照所蕴含信息深度的不同,可以将Web划分为Surface Web和Deep Web两大类。其中,Deep Web是指那些存储在Web数据库里、不能
信息技术的发展,使得多媒体通信技术也日新月异地变革着。而视频直播系统作为多媒体通信技术的一个典型应用,在发挥着越来越重要的作用。随着计算机网络的发展,在网络上传输视频
近年来,随着人们对人机交互兴趣的增加,表情识别逐渐成为一个研究热点。人脸表情识别是指利用计算机分析特定人的脸部表情及变化,进而确定其内心情绪或思想活动,实现人机之间更自
伴随着网络技术和多媒体技术的飞速发展,多媒体数据逐渐成为人们获取信息的重要来源,并成为人们生活的重要组成部分。如何传输大量的多媒体信息并如何保护其安全成为国际上研究
互联网技术的推广,使得数字校园也正在飞速的发展。随着数字化校园建设的逐步完善和发展,各种基于校园网的应用系统风起云涌。各种应用系统独立认证的弊端使得校园网络集中管
目的:随着Web技术的飞速发展,一种新的、基于Internet构建的医学影像存档与传输系统受到越来越多的国内外学者的关注。本课题应用Java技术开发一个基于Internet的操作简易、通