基于非参数前沿面的分类模型及应用研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:li63991923
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题广泛存在于不同领域,如模式识别、医学疾病诊断、企业破产预测、信用评级等。基于数据包络分析(Data Envelopment Analysis,DEA)前沿面的分类方法利用DEA模型得到的分段线性前沿面区分不同类别的样本数据。DEA模型中的标杆使得基于DEA前沿面的分类方法对分类结果具有较强的解释能力。然而已有研究中,基于DEA前沿面的分类方法在理论和实践上仍存在一些不足,主要表现在:(1)分类问题里的属性并不都是可互相补偿的,DEA方法的凸假设仅适用于刻画可互相补偿的属性;(2)局限于解决只有单调属性的分类问题,对于常见的非单调属性需要进行数据预处理;(3)通常基于径向测度构建DEA模型,尚未关注到测度选择对分类结果有重要影响;(4)较少考虑非对称错判成本,尤其是在相应的分类规则设计上。鉴于此,本文结合实际分类问题,从测度选择、前沿面构建、分类规则设计以及结果可解释性等方面对基于非参数前沿面的分类方法进行了研究,主要研究内容如下:首先,针对单调属性之间不可互相补偿问题,提出了基于单个非凸前沿面的分类方法。DEA方法中的凸假设反映了分类背景下属性之间的可补偿关系。实际应用中,当属性之间不可补偿时,这一假设可以放宽,构建基于Free Disposal Hull(FDH)模型的非凸分类前沿面。为了直接利用原始样本数据,提出用Minimize the Sum of the Deviations(MSD)模型来判断各属性相对分类结果的单调性。提出根据方向距离函数(Directional Distance Function,DDF)测度结果设计分类规则,此时决策者可根据实际需求选择不同的投影方向,相应的标杆可实现反向分类。在一个小样本算例下,将提出的单个前沿面分类方法与DEA-Discriminant Analysis(DA)方法以及常见的分类模型进行了比较。结果表明,放松凸假设能够提升前沿面分类模型的分类表现。单前沿面分类方法与现有的分类模型相比显示出一定的优越性,并且受不平衡数据的影响较小。其次,针对具有非单调关系的属性,提出基于单个包络壳的分类方法。基于单个前沿面的分类方法适用于刻画单调属性,而在实际分类中,并非所有属性都满足严格的单调关系。如破产预测中,资产负债率过大或者过小都意味着企业破产概率增加。因此,基于DEA阻塞研究中的S-处置性,构建一般处置性来度量非单调属性的期望取值范围。在不同偏好方向向量下构建多个前沿面,这些前沿面共同构成划分不同类别的包络壳。根据属性是否可补偿,可分别基于DEA和FDH构建凸和非凸包络壳,并提出一个偏好自适应方向距离函数来度量样本点到不同前沿面的相对距离。算例研究表明,与凸包络壳分类方法相比,非凸包络壳不仅在训练数据上表现更好,而且具有更好的预测表现。不平衡数据对包络壳分类方法的影响要小于现有的分类模型。再次,针对追求整体分类正确率的决策者,构建相对前沿面分类方法。决策者对正类或者负类有明确的偏好时,单个前沿面分类方法具有良好的表现。但是当决策者对类别没有偏好,追求整体分类表现时,构建相对前沿面分类方法,以充分利用两类样本数据。根据属性之间是否可互相补偿,可分别基于DEA和FDH构建凸前沿面和非凸前沿面。提出基于DDF测度结果设计分类规则,通过算例研究发现,测度选择对模糊区域的分类结果有重要影响。对于错判成本非对称的分类问题,设计了一种算法最小化总错判成本,通过允许前沿面内移来构建成本敏感型前沿面,并且非对称错判成本的影响也反映在了分类规则的设计中。某银行信用卡违约数据的实证结果表明,在不同样本量下,相对前沿面分类方法具有良好的预测表现,尤其是在小样本和不平衡数据集下,其整体表现优于已有分类模型。最后,针对具有非单调属性问题下追求整体分类正确率的决策者,构建相对包络壳分类方法。正类包络壳是不同偏好方向向量下前沿面的交集,负类包络壳是相应前沿面的并集。在根据正类包络壳划分负类样本后,基于负类样本的子集构建负类包络壳。此外,多元分类问题中,即使所有属性均为单调属性,其多元性决定了属性值呈现出非单调性,于是提出利用多个包络壳实现多元分类。某银行信用卡违约数据的实证结果表明,针对非单调数据构建包络壳分类模型是必要且有效的。一般情况下,与已有分类模型相比,包络壳分类方法具有更好的预测表现,在不平衡数据集下,该优势更加明显。随着样本量差异的增大,包络壳分类模型在预测少数类上仍保持较高的正确率。
其他文献
外交是晚清面临的关键性重大问题,其制度演变、运作特点和外溢效应等使其成为近代中国社会转型和变革的先导性因素和关键变量。清代中前期处在世界格局转变的大历史背景下,自康熙年间正式开始的清政府对俄外交在中国传统外交制度和运行特点基础上,吸收了俄罗斯传递而来的部分西方外交因素,形成了具有“亚现代性”特点的外交制度,这表现在专门的外交事务管理机构、驻京使团、条约体制等方面。同时期清政府与西方其他国家并无这样
学位
随着现代社会的发展与人们生活水平的提高,对于电子器件的小型化的需求也越来越迫切。因此,巨介电材料(ε’>103)吸引了诸多科研工作者的广泛关注,要求巨介电材料在具有巨介电常数和低损耗(tan δ<0.1)的同时,其巨介电性能也要有弱的温度、频率或者直流偏压依赖性。近些年,新发现的In3+与Nb~5+共掺杂金红石TiO2巨介电材料,因其在很宽的频率范围(20 Hz到2 MHz)与温度范围(80 K到
学位
植被净初级生产力(Net primary production—NPP)不仅是表征植物活动的重要变量,而且是判定生态系统碳源/汇和调节生态过程的主要因子,主要受气候、土地利用等环境因子的影响。黄土高原位于我国半干旱半湿润地带,水土流失严重,是典型的生态脆弱区,NPP变化对干旱和土地利用变化响应敏感。因此,掌握并理解黄土高原植被NPP时空变化及其与气候、土地利用等环境因子之间的定量关系,有助于我们深
学位
巴丹吉林沙漠是中国第二大流动沙漠,2020年巴丹吉林沙漠高大沙山—湖泊群被列入世界自然遗产提名地。巴丹吉林沙漠高大沙山和湖泊景观是大自然赋予人类不可多得的宝贵自然遗产,不但具有科学研究价值,而且具有极高的美学欣赏价值。然而关于巴丹吉林沙漠乃至世界其他沙漠,至今没有关于美学价值的系统论述。本文是应用地貌学在沙漠美学领域的尝试,融合美学原理和风沙地貌学理论,通过问卷调查、照片与遥感影像数据分析、实地考
学位
近年来随着我国国民可支配收入的持续提高和社保覆盖范围保障力度的稳步增加,我国居民财富水平也得到了显著的提升。家庭作为我国经济结构的基础单位,其财富储备、资产分布、投资参与和配置比例等微观问题都关乎经济的增长和宏观经济结构的平衡。因此近年来对于家庭财富水平、家庭资产分布、资产结构以及资产配置的讨论也成了家庭金融问题所研究的焦点。根据人民银行发布的2019年城镇居民家庭资产负债情况调查报告显示,我国城
学位
深化商事制度改革是党中央、国务院作出的重大决策,是推进简政放权、转变政府职能、激发市场主体活力和创造力的重要举措。自党的十八届三中全会上明确提出“推进工商注册便利化”,到十九大报告中明确提出“深化商事制度改革”,再到“十四五”规划和二〇三五远景目标建议中明确提出“构建以国内大循环为主体、国内国际双循环相互促进的新发展格局”的战略构想实现,都与商事制度关系密切。例如,就构建新发展格局而言,深化商事制
学位
煤经合成气制天然气是洁净煤技术的重要途径之一,其中强放热的CO甲烷化反应(CO+3H2→CH4+H2O,ΔH298K=-206.1 kJ mol-1)是其关键。尽管多段串联绝热固定床反应器工艺已进行了工业化应用,但该工艺对催化剂提出了互为矛盾的要求,即:具有高的低温催化活性和优良的高温抗烧结性能,使得高性能CO甲烷化催化剂的开发极具挑战。在综合分析CO甲烷化工艺及Ni基催化剂相关研究报道的基础上,
学位
本文的核心问题是探讨在理解的过程中,诠释学经验如何通过语言传达以及语言如何成为存在论诠释学的视域。我们知道,狄尔泰将诠释学从工具转化为认识论,海德格尔则进一步将其转化为存在论并与现象学将结合,他借助诠释学考察了人类此在的生存论环节,如此在的有限性、理解与解释、话语与语言、实践的基础地位等多个主题。伽达默尔则从“理解”入手,在艺术经验中发现了对艺术真理进行理解的奥秘,从而导致诠释学的出场,在对它的重
学位
古代君主在国家治理中具有核心地位,君权至高无上使得君主之私德不仅为个体道德问题,亦关乎社会治乱。因此,在缺失他律性之情况下,君主能够自我约束便显得尤为重要。修身为治国、平天下之基,纵观前古,大多开创盛世之君主重德修身,而君主轻视道德修养易致天下大乱。《群书治要》是唐朝初年魏徵、虞世南、褚亮、萧德言等人受命于唐太宗李世民,从中国古代经、史、子书辑录精华以资辅政,形成一套以“修身—齐家—治国—平天下”
学位
多孔聚合物材料因为具有可精确控制的孔隙率、高的比表面积和机械强度以及密度可调等优势,受到越来越多的关注,广泛应用于催化剂载体、吸附分离、组织工程、智能材料、环境科学、传感基质等多个领域。因此,多孔聚合物材料的高效制备,具有重要的科学意义和社会价值。经过近二十年的潜心研究,作者所在课题组发展了一种以凝胶乳液为软模板制备多孔聚合物材料的方法。相比于传统硬模板法,基于凝胶乳液的软模板法不需要牺牲模板且有
学位