遗传算法在文本特征选择中的应用研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hgq41102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从大量繁杂的文本信息中获取有用的信息是信息处理的一大任务,文本分类是实现这个任务的最重要的方法之一。而文本分类的前提在于文本的表示和特征项的选择。因为在文本分类中,自然语言文本集中往往包含大量的词汇,特征空间的维数高达几万,甚至远远超出训练样本的数目。如果把这些词都作为特征,将带来诸如计算和存储压力、区分度不高、难于覆盖所有特征词以及“过学习”等一系列问题。特征选择正是为了选取最能表征文本内容的特征来对庞大的文本空间进行约减,既提高了文本分类的效率又可以通过去除噪音特征提高分类精度。 本文分析了传统特征选择算法的局限性,在前人工作研究成果的基础上,阐述分析了遗传算法的优势,以及将遗传算法用于文本特征选择的可行性。通过对现有的文本特征选择技术进行分析,发现对原始候选特征集合中的每个词条计算一个评估函数值,例如:信息增益、互信息等,然后基于评估函数值大小从而进行特征选择的方法,本质上都是贪婪算法,没有搜索到所有的可行域空间,并不能发现最优特征集。而遗传算法能获得全局最优解,且具有较高的寻优效率。因此,提出利用遗传算法进行文本的特征选择,主要解决现有特征选择算法的两个不足:1)基于评估函数值排名的贪婪选择策略,不能发现最优特征集;2)依赖于经验参数事先固定选择比例,而对不同的语料集,没有一个普遍适用的选择比例。 最后,为了验证本方法的正确性,我们在三个公开的互联网标准测试语料库数据集上,对每种特征选择方法均进行了多次实验,将其输出的特征词汇集合用于文本分类,记录、分析训练出来的分类器的评测指标。结果表明:基于遗传算法的特征选择方法在降低文档的特征空间、自适应选择特征词方面的效果是令人满意的。
其他文献
近年来,随着计算机通信技术和网络技术的飞速发展,出现了一种新的数据模型—数据流。与传统的数据模型不同,数据流的特点是:(1)数据流是无限的,无法完整的存储;(2)数据的传输
k-匿名方法是视图发布条件下防止数据隐私泄露的一种重要方法,准标识符值是影响k-匿名表隐私保护程度和数据质量的关键因素,如何在给定各个准标识符属性泛化树的情况下求解准