XML文档分类方法的研究及其应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:ggep123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的飞速发展,信息大量膨胀和聚集,XML(eXtensible MarkupLanguage)作为一种常用的数据交换和传输标准,蕴含了丰富的信息。因此,对XML文档的挖掘已经成为Web挖掘一个新的研究热点。本文重点对XML文档分类方法进行了研究。XML文档的结构特征是XML文档分类区别于文本分类的一个重要方面,这使很多成熟的文本分类算法无法应用到XML文档分类中。因此,本文重点对XML文档的结构特征进行了研究。首先,给出一种频率一路径模型来表示XML文档的结构,该模型中不但保存了节点的标签信息,同时统计了相同路径出现的频率,使得在保证不丢失有效信息的前提下大大减小了原来路径模型的规模。其次,在频率.路径模型的基础上,给出一种带位置权重的基于路径的XML文档结构相似度计算方法WLCS(Weighted Longest Common Subsequence)。该方法在路径匹配时,使用最长公共子序列方法,能够捕捉到现有路径匹配方法漏掉的有效信息;在进行路径相似度计算时,引入位置权重向量,将路径节点的位置信息考虑在内。通过在真实数据集上做实验表明WLCS方法召回率和准确率均高于当前存在的基于路径计算相似度的方法。再次,基于频率.路径模型给出一种新的XML文档结构向量化方法。该方法使用一种基于路径频率的信息增益方法选择特征路径,使用WLCS方法中的路径相似度计算方法生成特征路径向量,并通过实验说明该方法的有效性。最后,在本文研究基础上,结合大连市公安局“全文搜索系统”的实际课题,给出XML文档分类的一个具体应用。
其他文献
Web服务在电子商务和企业应用集成中的作用日益突出,而服务发现是Web服务技术的核心和难点,是Web服务调用和组合的前提。Web服务发现是指服务请求者在候选服务集中查找与需求
大量案例显示,软件安全所面临的威胁来源不仅仅包括不可信的第三方实体,更包括那些怀有恶意的用户终端。针对软件知识产权的侵权行为,通常正是始于攻击者通过正当途径对目标软件
在21世纪这样的信息时代,数据库技术已经渗透到各种应用领域当中,互联网的快速发展推动着数据库技术应用的激烈变革。在信息数据量飙升的环境下,用户不再仅仅需求某种单一软
当前生产环境中的服务器协同工作方式普遍是多台服务器运行的简单叠加。在这种形式下,随着企业(尤其是大中型企业)对业务逻辑处理需求的与日俱增,只能通过盲目增置硬件设备来
日常生活中存在着复杂的动力学问题,振动状态纷繁复杂。由于建筑物或设备的异常振动而造成的事故时有发生,常常会给人类带来巨大的伤亡和损失,倘若我们可以在事故发生之前就
操作系统与应用软件的安全问题一直是学术界和工业界的研究重点与热点。如何防范与检测各种软件安全漏洞和恶意攻击则又是研究的重中之重。目前,研究者对常见的漏洞类型和攻击
自从第一个机器人诞生以来,机器人技术及智能化水平有了长足的发展,由于机器人本身综合了机构学、自动控制技术、人工智能、微电子技术、通讯技术,仿生学,传感器技术等多门学
人脸作为一种人体生物特征,具有难以伪造、不会遗失、随身携带、方便易用等特点。人脸识别在安全验证系统、档案管理、人机交互等方面有着巨大应用前景。传统的自动识别系统
伴随着嵌入式技术和网络技术的发展,嵌入式远程监控技术的研发不断深入,越来越多的企业和科研机构将视线投入到了远程监控领域中,其中安防领域是其关注的重点之一。本文就是
图像识别在模式匹配、计算机视觉、机器学习等研究领域都是一个热门的研究课题。经过多年的研究发展,图像识别领域已经形成了许多成熟的技术并且被广泛应用到遥感、航拍、车