论文部分内容阅读
面对飞速发展的信息时代,WEB数据的挖掘日益重要,而传统的搜索引擎难以胜任对数据的挖掘处理。基于XML良好的结构性和层次性,提出了利用DOM树进行WEB挖掘的方法。首先利用Tidy工具库将WEB数据转换成良好结构的XML文件,简化生成DOM树,然后通过遍历解析XML的DOM树结构,提取需要的WEB信息,实现对WEB数据挖掘。实验表明,该方法能够方便地对数据进行结构化存储和信息处理。