Web挖掘相关问题的研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:uuuuuuuuii
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展,“信息爆炸”不可避免地产生了。人们急切需要一种从Web上快速、有效地获取知识的技术,Web挖掘伴随着这样一个背景产生了,并且已成为研究热点。与传统的数据挖掘不同,Web挖掘面对的大都是半结构化和非结构化的数据,这给挖掘带来了难题。近年来,XML逐渐成为新一代因特网数据组织和交换的标准,它能够使不同来源的结构化的数据很容易地结合在一起,能有效地解决上述难题。于是,如何从XML数据中挖掘有价值的知识就成为一个具有探索意义和挑战性的研究课题。本文的主要研究工作包括以下几个方面:首先,研究了Web挖掘和XML的基本概念和性质,分析了Web挖掘的复杂性以及XML在Web挖掘中的应用。其次,本文研究了Web挖掘中的HTML-XML转换问题。分析了现有转换算法的不足,设计并实现了一种基于DOM和JTidy技术的HTML-XML转换模型。测试结果表明,转换模型是可行的、高适应性的。最后,本文研究了频繁子树挖掘的基本概念和性质,重点研究了基于模式增长原理的嵌入式子树挖掘算法——Tree Growth(TG)算法,分析了此算法的不足,并提出了一种对此算法的改进。在改进算法的基础上,通过引入分区的思想,提出了一种新算法——PTG(Partition TreeGrowth)算法。理论分析和仿真实验结果表明,新算法能够解决大数据集挖掘时出现的内存问题,且运行高效。
其他文献
随着计算机和信息技术的发展,各企业部门都不同程度的构建了信息管理系统。但由于各种原因,这些系统的数据库存在诸多不同程度的异构,使得相互联系的部门之间不能交换和共享信息
软件测试是软件开发过程中非常重要的部分。随着软件越来越庞大,花费在软件测试工作的时间、人力、物力也越来越多。测试用例的数量决定着软件测试的成本以及效率。在保证软
如何迅速从海量数据中获得准确的决策信息在现代企业日常决策活动中起着至关重要的作用,作为解决这个问题关键的OLAP技术中最核心的概念,数据立方体的实现已经引起了广泛的关
学位
VoIP的出现给传统电信网络带来了翻天覆地的革命性变化,会话初始协议(SIP)作为继H.323之后兴起的VoIP支撑协议已经逐步替代H.323在VoIP领域的地位,全球的大运营商都已经采用S
随着Web服务的发展,越来越多的应用集成采用了Web服务技术,Web服务的安全问题也越来越受到人们的关注和重视。Web服务环境松耦合、跨域、分布式、跨平台等特性,使得传统的单
无线传感器网络路由协议设计的首要目标是高效利用节点能量。GEAR(Geographical and Energy Aware Routing)路由协议是一种采用贪婪转发与节点能耗均衡性相结合路由方案的地
本论文的研究和开发工作围绕一个面向代码移动的IP_TASCM(IP Trace Analysis System based on Code Moving)分析系统进行,该系统的工作目标是为了解决大规模高速网络被动测量的
移动Ad hoc网络是一种不依赖于固定网络基础设施的、自组织的无线移动网络。其组网快捷、灵活,不受时间、空间限制的特点使它十分适用于军事应用或一些紧急场合的应用。例如,
随着互联网业务的高速发展,广域网在网络响应速度方面已经无法满足用户的需求。依靠增加带宽解决这一问题是一个方法,但由于响应速度还受到其它因素的影响而收效甚微,广域网