基于领域本体的新闻搜索引擎的研究与实现

来源 :南昌大学 | 被引量 : 0次 | 上传用户:yushui223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的大规模覆盖,浏览网络新闻已成为大家了解社会动态的一个重要渠道,新闻搜索引擎不可或缺。然而,虽然网络如一本无所不包的百科全书,由于当前搜索引擎技术仍处在革新阶段,致使信息检索结果还不尽如人意。由此,本文将本体、信息检索等技术相结合,使搜索引擎能够朝着智能化方向发展,进而改善当前搜索引擎性能。本文的主要研究工作如下:一、提出了基于领域本体的新闻网页分类算法。为了改进当前分类算法只考虑内容相似度的普遍性不足,本文提出了兼顾内容相似度与结构相关度的语义分类思想:首先.解析本体得到本体类别向量,抽取新闻网页文本关键词并进行语义降维,此时找出网页文本中存在的与本体类别向量相同的词汇构成文本期望向量,再运用向量余弦定理计算两者的内容相似度。其次,将上述共同词汇映射到本体层次结构图上,通过计算该有向无环图的加权路径得到结构相关度。最后,结合内容相似度与结构相关度计算新闻网页与本体的综合关联度,通过判断结果与阈值的大小关系来决定新闻网页的类别。二、提出了加权修正信息增益的ωID3算法。针对ID3算法偏向选择取值较多属性作为分裂节点的缺陷,coID3算法的改进思路是:找出信息增益及取值个数都达到阈值的属性,并同时考虑条件属性与决策属性的相关性,加权修正上述属性的信息增益值,再依据修正值选择分裂节点。实例对比说明本算法构造的决策树在一定程度上有所改善。三、设计了基于领域本体的新闻搜索引擎MONSE原型系统,并在Heritrix、 Lucene、Eclipse、Tomcat等开源工具的支撑下通过实例验证。
其他文献
近年来,关键行业的关键任务对工业自动化日益强烈和多样化的需求促进了工业控制计算机(简称工控机)的快速发展。作为微处理器主要供应商的ARM公司为了适应这一发展需求,针对工控
推荐系统是应用在电子商务系统中的一门非常成功的技术,它能有效缓解由于互联网飞速发展所带来的信息超载问题,并根据人们的行为、偏好等特点从海量数据中挖掘用户的潜在需求
现如今,网络通信的快速发展和电子商务活动的蓬勃兴起,各种网络设施也与之进步。数据库,作为信息的存储系统,是IT设施的基石之一,为用户提供了数据存储和共享服务。为了获得
安全多方计算(Secure Multi-party Computation, SMC)是研究多方协作计算问题的,即互不信任的两个或多个用户能够进行协作计算某项计算任务,并且保证自己的私有输入是安全的
与传统的静态数据相比,现代数据多以数据流的形式产生和积累,数据类型方面也越来越常见到多标签类型。数据形式与类型的变化无论对单标签数据流分类还是多标签数据流分类都提
最近几十年,随着计算机技术的迅猛发展,对于分布式多智能体系统(MAS: Multi-agent System)的研究和应用已经成为以人工智能为主的众多相关学科的研究重点。RoboCup即机器人足
RCP (Rich Client Platform)是基于Eclipse开发平台而推出的一套用来开发富客户端程序的应用框架,其主要功能是能够为开发人员提供一个快速的、功能强大的、具有良好扩展性的
计算机网络技术与多媒体技术的快速发展,很大程度上促进了通信技术综合化、数字化、智能化、个人化的发展,使得在单一网络平台上实现语音、数据、图像等多种业务成为可能。综合
图像阈值分割是图像处理领域中的一个经典的基本问题,至今仍是国内外研究热点,同时也是一个研究难点。在实际系统中,图像中的目标和背景之间并不具备截然不同的灰度,受不均匀光照
随着数字时代的到来,传统的模拟媒体内容逐渐朝着数字方面转变,由于数字媒体非常容易被传播、复制与修改,这让盗版者提供了很好的机会,然而,也同时损害了原始作者的利益。因