基于数据包络分析的特征选择方法及应用研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：ck198

【摘要】

：

大数据爆炸式的增长对数据挖掘带来了空前的挑战，需要获取并分析的样本的范围有了普遍的扩展，新的数据类型的出现成了十分常见的现象。各类计算机和互联网在世界范围的广泛领域

【作者】

：

杨安蓉

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2015年期

【关键词】

：

大数据技术特征选择数据驱动数据包络分析在线评论学习型算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

大数据爆炸式的增长对数据挖掘带来了空前的挑战，需要获取并分析的样本的范围有了普遍的扩展，新的数据类型的出现成了十分常见的现象。各类计算机和互联网在世界范围的广泛领域中的应用，导致了数量非常巨大、结构异常复杂的各类数据的出现。特征选择通过弃去无关的、冗余的、噪声性的特征而降低数据的维度，从而起到了非常有意义的作用：降低了数据采集与数据加工的成本；推动与加速了改进算法精确性的学习型算法的研究；导致了更加具有可理解性的模型的构建.因此，对特征选择的深入研究是非常重要的。　　分析了通过内部距离或类间距离及最大化互信息等工具而形成了一些有效的特征选择启发式算法，指出了那些算法的启发式排序通常仅仅依据类相关性的度量，因而它们在高维度数据集上的运行总是相当不理想；论述了特征冗余的存在及其在特征选择问题上的重要性，以及近来由此而出现的一系列新的启发式算法在高相关性与低冗余性进行权衡的要点。鉴于更多的方法、原则、参数有效整合的思考，我们提出了可以把特征选择归类于一个多指标评价过程。　　数据包络分析（DEA）是一种有效进行决策单元评估的非参数方法，在许多领域有着十分广泛的应用，它采用线性规划的方法并将决策单元的生产过程表达成一个多输入、多输出的黑箱结构，我们通过一种全新的视角去看待DEA，将其实体性的决策单元泛化，使DEA效率评价方法与特征选择能够有效地整合，并将DEA对多指标系统的有效评估功能应用于特征选择。　　构建了一种基于超效率 DEA的特征排序框架。在此基础上，给出了速度快、效果好的集成DEA和条件独立性测度的DEAFS特征排序算法。与现有特征选择方法比较，DEAFS的独特之处在于：对每个特征进行条件独立性测试时，将所有其它特征均作为了条件变量。此外，DEAFS还采用了超效率 DEA模型根据条件独立性测试结果对特征进行排序。　　考虑到 DEAFS在条件独立性测试时对于参与条件变量特征规模的敏感性，提出了一种基于超效率 DEA和类独立策略的迭代前向搜索特征选择算法 DEA-CS。该算法将类标签视为一个独立的类而对其与特征间的相关性及条件独立性进行测试，并基于超效率 DEA模型对特征进行迭代排序。DEA-CS虽折中了速度，但有更好的精确度。对这些算法，我们还给出了和计算复杂度分析和分类实验验证。在一批著名的UCI数据集上，我们将所给出的两种算法与一批著名且常用的经典特征选择算法在实验中进行了比较，并给出了实验结果，表明了所提算法的明显优势。　　最后，以用户在线评论及在线评论的有用性预测为实际背景，设计了一个基于IP池和并行技术的大规模在线评论爬虫，对美国亚马逊网页上的1337502条商品评论进行了爬取与搜集。设计并实现了一个基于 DEA特征选择方法的评论有用性预测系统，并将其用于所搜集的用户评论的有用性预测中。结果表明，所提 DEA特征选择方法在评论有用性预测上的性能要优于其它有代表性的特征选择方法，展现了DEA特征选择算法在大数据背景下电子商务领域中的广泛应用前景。

其他文献

实验室不符合工作管理的思考

本文阐述了实验室应正确理解和对待不符合工作.发现不符合工作时,第一时间采取纠正和纠正措施就足以消除不符合工作,但要提高不符合工作的管理效率、有效利用不符合工作改进

期刊

不符合工作质量管理体系改进

论王小波荒诞叙事中蕴含的象征性

摘要：王小波是中国现当代作家，其文字内容和叙事风格均呈现荒诞化的特点。在王小波的作品中，以《黄金时代》、《白银时代》和《青铜时代》较为著名。本文以《黄金时代》、《白银时代》和《青铜时代》中的《寻找无双》三篇文章来分析王小波荒诞化叙事所蕴含的象征意义。　　关键词：王小波;荒诞叙事;象征性　　[中图分类号]：I206 [文献标识码]：A　　[文章编号]：1002-2139（2019）-30-0-01

期刊

王小波荒诞叙事象征性

基于证据推理的省级自然科学基金项目后评价方法研究

对省级自然科学基金项目进行后评价的实质是评判基金项目的完成情况,客观准确的评价不仅有助于促进科技水平的进步,也可以作为衡量项目主持人以后申请基金项目的参考依据。目前对基金项目的评价既有定性方法也有定量的方法,但综合国内外的情况,主要采用的是专家评议法。该方法的实质是专家根据自身的经验知识去评价项目,因此评价结果存在较大的主观性,同时组织专家评议也耗费较大的人力、物力和财力。省级自然科学基金项目主要

学位

省级自然科学基金项目后评价证据推理

城市水系建设项目监理工作的思考

为响应国家“绿水青山也是金山银山”的号召,遵循生态环境保护,提倡打造城市水系建设,努力提升城市水系生态建设的质量和水平,各地制定相应政策,为市民营造人水和谐、生态型

期刊

城市水系建设监理工作

提高计量检定工作质量的途径及意义

随着产品质量标准要求逐渐提高,在产品生产过程中,计量检定工作已经成为强化质量监督,提高产品质量的重要保障性措施.本文主要探讨提高计量检定工作质量的意义,并就如何提升

期刊

计量检定工作质量途径意义

一类多级供应链牛鞭效应及其复杂特性研究

供应链牛鞭效应自发现以来一直是供应链管理的热门话题,也是使供应链平稳运作所面临的一个难题。牛鞭效应一直严重影响着导致整个供应链及各节点企业的效能,同时会带来不必要的运作成本。因此,研究供应链中的牛鞭效应,将有助于提升供应链效率,提高企业竞争力,具有重要的理论和现实意义。为了更好的了解牛鞭效应的产生机理以及控制机制,本文将在一定的理论与实践基础上对牛鞭效应做进一步研究。本文构建了包含一个供应商和两个

学位

牛鞭效应市场占有率价格波动需求预测李雅普诺夫指数

供应链管理模式下的生产计划与控制研究

该文从供应链管理对生产管理模式转变的影响出发,研究适应供应链管理的企业生产计划与控制方法以及相关支持系统.

学位

生产计划供应链管理控制企业集成生产组织

县域中低压配电通信组网方案探讨

随着科学技术的发展，智能电网建设也有了新的突破。近年来，随着智能电网的建设，配电自动化、智能台区等业务增长迅速，电力通信网覆盖能力和接入能力的提升成了电力系统亟待解决的

期刊

中低压配电通信组网方案现状

抽样检测法在产品质量检验中的作用及具体运用研究

在进行产品生产的过程中,为了有效提高产品的质量,一定要采取合理的措施来对其进行客观的检验.本文主要从抽样检测法的角度,相对深入的进行了有关产品质量检测作用以及实际应