论文部分内容阅读
提出了一种以XML文件内在的分层结构为基础的文件分类方法,井与改良的VSM方击的实验结果进行了比较。和以往XML文件的分类方法不同的是.此方法更加注重XML文件特有的结构信息。首先利用TF-IDF方法针对XML文件非蛄构的信息产生一般特征集,然后再针对XML文件各个屡次重要性赋予一定的权重。从而产生层次特征集,然后根据一些领域知识,产生知识特征榘。将三个特征集结合起来对XML进行分类。试验结果表明,这种方法比改良的VSM方法在分类的准确性方面有大幅的提高。