论文部分内容阅读
在分类问题中,主要有两种特征选择方式。一种是算法独立,例如F-score方法。F-score方法通过计算特征之间差异值,选出差异值较大的特征,简单有效,但是该方法并不能展现特征之间的多重信息。另一种方式是算法依赖,例如SVM-RFE,该方法在运算量上消耗较大,但是特征选择的效果较好。近些年,Jayadeva等人提出了双子支持向量机的分类方法,该方法在分类思想上与传统的支持向量机分类思想有所不同。双子支持向量机寻求的是一对不平行的分类超平面,从双子支持向量机的模型便分解成两个二次规划问题,这相对于传统的支持向量机来说在运算量上大大降低,为原来的1/4。求解双子支持向量机,在决策函数中,这两个权重向量同时起作用。正是由于存在着两个不同的权重向量,使得在基于双子支持向量机的特征选择问题就不能单独利用其中一个权重向量进行。针对这个问题,我们进行了综合分析,采用将这两个权重向量进行合并成一个权重向量的方法,提出了本文的两种基于线性双子支持向量机的特征选择算法。本文把第一种算法叫做sort-TWSVM,该算法的思想是将两个权重向量合并成一个向量,接下来类似于F-score方法进行特征选择。该算法运算量较小,速度快,一次性次删去多个特征。第二种算法称为TWSVM-RFE,该算法同样先将两个权重向量进行合并,然后类似于SVM-RFE方法进行特征选择,该算法展示了各个特征之间的联系,效果较好。在数据实验部分,我们通过对比F-score方法的实验结果,验证了本文提出的两种特征选择算法的可行性。并且将本文所提出的两种算法应用到对葡萄酒优劣的辨别中,起到了特征选择的效果。