论文部分内容阅读
我的论文题目为“文本自动分类系统的研究与实现”,该项目得到了国家自然科学基金、北京市自然科学基金的资助。本文是对我研究生期间所作研究工作的总结。Internet的快速发展使得信息资源得到了急剧增长。越来越多的信息通过互联网被传送到世界各地,互联网中也积聚了越来越多的信息。从发展的趋势来看,网络必将成为人们获取信息的主要来源。但互联网的组织杂乱,缺乏必要的条理,多且杂的信息使得人们从中获取自己感兴趣的内容变得越来越困难。信息分类技术可以帮助人们准确高效的定位信息。文本是互联网上主要的信息载体,一个良好的文本自动分类系统能够有效地将信息组织管理起来,为信息获取提供有力的支持。文本分类技术的研究是我的主要研究课题。在我的研究工作中,首先建立了一个文本自动分类系统,以此作为深入研究文本分类技术的试验平台。在“the 4 Universities Data Set”数据集上,我们测试了各种特征提取算法和分类算法,分析总结了它们的效果和特点。在对特征提取实验结果的分析基础上,我们提出了一个针对特征提取算法的量化评测标准,并使用该标准对现有的特征提取算法作了评测。在对评测结果的分析中总结了特征提取应有的原则,根据该原则提出一个新的特征提取算法,对该方法完成了评测,并讨论了它相比其他算法的特点。