论文部分内容阅读
大数据爆炸式的增长对数据挖掘带来了空前的挑战,需要获取并分析的样本的范围有了普遍的扩展,新的数据类型的出现成了十分常见的现象。各类计算机和互联网在世界范围的广泛领域中的应用,导致了数量非常巨大、结构异常复杂的各类数据的出现。特征选择通过弃去无关的、冗余的、噪声性的特征而降低数据的维度,从而起到了非常有意义的作用:降低了数据采集与数据加工的成本;推动与加速了改进算法精确性的学习型算法的研究;导致了更加具有可理解性的模型的构建.因此,对特征选择的深入研究是非常重要的。 分析了通过内部距离或类间距离及最大化互信息等工具而形成了一些有效的特征选择启发式算法,指出了那些算法的启发式排序通常仅仅依据类相关性的度量,因而它们在高维度数据集上的运行总是相当不理想;论述了特征冗余的存在及其在特征选择问题上的重要性,以及近来由此而出现的一系列新的启发式算法在高相关性与低冗余性进行权衡的要点。鉴于更多的方法、原则、参数有效整合的思考,我们提出了可以把特征选择归类于一个多指标评价过程。 数据包络分析(DEA)是一种有效进行决策单元评估的非参数方法,在许多领域有着十分广泛的应用,它采用线性规划的方法并将决策单元的生产过程表达成一个多输入、多输出的黑箱结构,我们通过一种全新的视角去看待DEA,将其实体性的决策单元泛化,使DEA效率评价方法与特征选择能够有效地整合,并将DEA对多指标系统的有效评估功能应用于特征选择。 构建了一种基于超效率 DEA的特征排序框架。在此基础上,给出了速度快、效果好的集成DEA和条件独立性测度的DEAFS特征排序算法。与现有特征选择方法比较,DEAFS的独特之处在于:对每个特征进行条件独立性测试时,将所有其它特征均作为了条件变量。此外,DEAFS还采用了超效率 DEA模型根据条件独立性测试结果对特征进行排序。 考虑到 DEAFS在条件独立性测试时对于参与条件变量特征规模的敏感性,提出了一种基于超效率 DEA和类独立策略的迭代前向搜索特征选择算法 DEA-CS。该算法将类标签视为一个独立的类而对其与特征间的相关性及条件独立性进行测试,并基于超效率 DEA模型对特征进行迭代排序。DEA-CS虽折中了速度,但有更好的精确度。对这些算法,我们还给出了和计算复杂度分析和分类实验验证。在一批著名的UCI数据集上,我们将所给出的两种算法与一批著名且常用的经典特征选择算法在实验中进行了比较,并给出了实验结果,表明了所提算法的明显优势。 最后,以用户在线评论及在线评论的有用性预测为实际背景,设计了一个基于IP池和并行技术的大规模在线评论爬虫,对美国亚马逊网页上的1337502条商品评论进行了爬取与搜集。设计并实现了一个基于 DEA特征选择方法的评论有用性预测系统,并将其用于所搜集的用户评论的有用性预测中。结果表明,所提 DEA特征选择方法在评论有用性预测上的性能要优于其它有代表性的特征选择方法,展现了DEA特征选择算法在大数据背景下电子商务领域中的广泛应用前景。