论文部分内容阅读
随着互联网技术的迅速发展,网络上的信息资源呈爆炸式增长,万维网己经成为拥有几十亿个web 页面的分布式信息空间。在这海量的数字资源中,信息大都以半结构化或非结构化的数据形式存在,存储组织杂乱无章,从中迅速有效地获得所需信息非常困难。网页分类作为处理和组织大量web数据的关键技术,可以在较大程度上解决信息杂乱问题,方便用户准确地定位所需的信息和分流信息,具有广泛的应用前景。
本文研究了中文网页自动分类问题,运用支持向量机算法进行分类,有效地提高了网页分类的准确性。首先,对网页源代码进行深入研究,建立了一种网页噪音自动过滤的方法。根据web页面的特征,提出网页去噪的三个层次:标签过滤、提取内容、再标签过滤,去除网页中的Tag标签、广告、版权信息,有效剔除与网页主题无关的内容,保留了网页正文及相关信息。其次,将提取的网页信息分为关键信息部分和正文信息部分,并将两部分分别进行处理,生成文本的向量格式。通过学习支持向量机分类算法,对向量文本进行分类,得到的文本类别信息反映了对应的网页的类别信息。最后,选用北京大学网络与分布式实验室收集的中文网页样本集CCT2002-v1.1进行了实验。对11678个训练网页实例和3630个测试网页实例进行去噪,再对提取后的正文进行分类。实验表明,提取网页正文的准确率达到99%,能有效地去除网页的噪音信息。网页分类的召回率和准确率都有所提高,并在此基础上设计实现了中文网页自动分类系统。