基于粗糙集的“规则+例外”网页分类研究

来源 :太原理工大学 | 被引量 : 2次 | 上传用户:adonis77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,网络信息不断膨胀。如何让网络信息更好地为人类服务,已成为未来几年的一个研究热点。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是网络信息的纷繁芜杂,在这两者之间架设一座桥梁的确是一个巨大的挑战。网页自动分类技术正为解决这个问题提供了一种合理有效地组织信息的方法。为了有效地组织和分析网页信息,帮助用户迅速地获取所需要的信息,论文针对不同用户对网络信息的不同需求来提取对应的规则,同时根据知识中规则与例外相互补充的学习理论对存在的例外进行分析,从而对中文网页文本进行精确分类。本文从理论和应用的角度对中文网页文本信息的分类技术进行了深入的研究,提出了将粗糙集与面向自然语言处理的规则与例外学习理论应用到中文网页分类中,并实现了一个基于粗糙集的“规则+例外”中文网页分类系统。论文对中文网页分类的关键技术、粗糙集理论的主要内容、规则归纳以及例外分析进行了系统的研究和详细的介绍,并在这些理论知识的指导下设计了一个解决用户需求的中文网页文本分类器。论文主要做了以下研究工作:网页文本分类首先需要收集WEB文本,对WEB文本进行预处理,保存其中的文本信息。在这部分,文章首先实现了抢先式多线程中文网页收集器,采用深度优先的算法获取特定类型的网页,接着根据HTML Tag文本的特点,实现了基于非递归方式匹配的WEB文本预处理器,它用于提取网页中的文本信息以及定义的网页标记集。其次,本文在研究文本信息表示和网页信息特点的基础上,改进了中文网页文本表示的权重计算方法,设计了面向用户需求的属性约简算法,该算法在文本分类系统中取得了较好的效果。此外,本文结合粗糙集理论中的研究内容分析了规则与例外的形成过程,并提出基于reduct的例外鉴别方法。论文最后设计了中文网页文本分类系统的总体方案,并根据方案实现了基于粗糙集的“规则+例外”中文网页文本分类系统。为了进行实验评估,论文进行了两组实验进行结果比较。实验数据表明本文设计的网页文本分类器提高了网页文本分类的效率,有一定的实际意义。
其他文献
对等网络技术(Peer-to-Peer,简称P2P)带给了我们诸多的好处,其中之一是加强和改进许多原有的应用。基于客户端/服务器(Client/Server,简称C/S)模型的互联网游戏由于有大量的数据需
为了监控网格环境下分布的、动态的、异构的资源,本文分析了网格环境下资源监控的任务、难点和用途,并对GMA网格资源监控框架,以及不同部件之间的交互方式进行了研究。在分析了
本论文所反映的研究工作的项目背景是四川省网络通信技术重点实验室与核工业部九院的合作预研项目“无人驾驶机群作战网络体系结构研究”。无人驾驶机群作战网络是一类特殊的
在信息技术飞速发展的今天,信息安全显示出前所未有的重要性。电子商务、电子银行、网络安全等应用领域更是急需高效的自动身份认证技术,生物特征识别技术以其特有的稳定性、
计算机支持的协同设计是并行工程的重要组成部分,是21世纪的生产模式,其重要性在于使不同地点的设计人员、施工人员和用户能同步或异步地参与协作设计工作,从而加快设计进度和提
随着Internet技术和网络业务的飞速发展,用户对网络资源的需求空前增长,网络也变得越来越复杂。越来越多的网络应用程序需要了解网络延迟、带宽、吞吐率等网络性能参数,以支持不
网络技术的迅速发展和J2EE平台的广泛应用,基于B/S的多层WEB体系结构逐渐发展起来,多层WEB应用的开发已经成为主流。但是,多层WEB体系结构的设计中,仍然存在程序可重用度低、维护
儿童计划免疫工作手续繁琐,工作量大,不易及时汇总分析。现在全国有不少地方在进行信息化建设来解决上述问题。由于经济条件、网络覆盖等因素影响,目前的儿童计划免疫大多使用单
在没有软件源代码的情况下,为了对其增加功能或修正错误,需要在机器指令级别上对软件进行修改,将机器代码嵌入到宿主软件中。这就是软件或代码嵌入。软件嵌入由来已久,文件补丁、
当今,人类已经进入了网络时代。然而,人们在得益于信息革命带来的巨大机遇的同时,也不得不面对信息安全问题的严峻考验。入侵检测技术作为确保计算机网络信息安全的一个重要手段