【摘 要】
:
现今,数据的日趋复杂化促进了人们对高质量分类系统的需求。鉴于集成学习在提升分类性能上的优势,以其为核心的、具有自主创新方法设计的分类系统有着重要的研究和应用价值。而在当前集成学习方法中,对不同模型作集成时往往忽略了选择严谨性和系统精简性的问题;对适宜作同质集成的C4.5模型,则缺少对其属性阈值序列、属性对目标影响度及增益率偏差等因素的综合考虑,从而影响到分类精度。针对上述问题,本文进行了方法研究,
论文部分内容阅读
现今,数据的日趋复杂化促进了人们对高质量分类系统的需求。鉴于集成学习在提升分类性能上的优势,以其为核心的、具有自主创新方法设计的分类系统有着重要的研究和应用价值。而在当前集成学习方法中,对不同模型作集成时往往忽略了选择严谨性和系统精简性的问题;对适宜作同质集成的C4.5模型,则缺少对其属性阈值序列、属性对目标影响度及增益率偏差等因素的综合考虑,从而影响到分类精度。针对上述问题,本文进行了方法研究,并设计了一个集成学习型分类系统。具体研究工作如下:(1)提出了一种基于排序选择度量方式、自适应权重设置的集成方法。针对不同的分类模型,该方法结合交叉验证,并以设计的误差熵与互补性为基础构造组合指数度量法,可以选择出集成优先性最高的两个模型;依据以组合指数为基础设计的整体组合指数度量法,能够实现对剩余模型集成优先性的度量;基于得到的排序索引,通过自适应权重设置的方式,可为不同模型找到最终权重值以进行集成处理。实验结果表明,与其它分类模型相比,该方法的各项分类评价指标均有提高,验证了该方法的有效性。(2)提出了一种基于改进型C4.5算法的组合集成方法。该方法在C4.5算法处理连续属性时,在相邻不同类别对应的属性区间的交接边界处附近进行采样和阈值补充处理,可以缩小候选分割阈值的序列范围;利用标准化欧式距离来度量属性与目标的关系,并将同一属性下不同分量对不同子集的影响度加入子集熵值,可将利于属性选择的信息和属性的局部影响信息作用于信息增益,从而综合考虑属性对目标分类的影响;在处理分裂信息时,计算其它属性对测试属性的平均化基尼指数的同时加入校正因子,可以缓解属性间冗余度和增益率偏差带来的影响。实验结果表明,该方法提升了分类准确率,验证了该方法的有效性。(3)设计开发了一个包含常用分类算法在内、以上述设计的集成方法为主导的数据分类系统。该系统主要由预处理、分类和评估三个功能模块组成。其中,分类模块作为核心部分,实现了异质集成、同质集成和综合分类三大功能。测试结果表明,该系统有助于处理数据分类任务,具有实际的应用价值。
其他文献
目的:探讨健脾除痹汤联合沙利度胺治疗脾肾亏虚、痰湿痹阻型强直性脊柱炎(Ankylosing Spondylitis,AS)的临床疗效,为中西医治疗AS的方法提供一定的依据。方法:纳入2016年5月1
黄瓜白粉病是危害黄瓜(Cucumis sativusL.)生产的主要病害之一,植株发病时光合效能下降,进而影响黄瓜产量和果实品质,常引起30%左右的减产。黄瓜抗白粉病品种选育及应用是克
本论文主要内容是对光子纠缠源的产生,操纵以及其在量子信息上的应用进行的实验研究。 我们在实验上进一步发展了多光子纠缠源技术。利用光参量下转换产生的纠缠光子对和线
在化工过程及许多过程工业生产中,流体混合占有很重要的地位。喷射反应器是近年来得到迅速发展的一种具有高强度混合效果的反应器型式。它具有结构简单、维护方便、无泄露和
<正>1 工程建设质量现状 党的十一届三中全会以来,党和国家的工作重点转向以经济建设为中心,经济建设的发展,推动城市建设、特区建设、住宅建设、工业建设、基础工程建设蓬勃
叶片早衰不仅导致玉米植株光合效率降低,光合产物减少,还能够显著的影响叶片发育后期营养元素从营养器官向生殖器官和贮藏器官中的转运,严重影响优良品种产量潜力的发挥。随
目的观察针刺肩康穴治疗失眠的疗效以及对睡眠质量、睡眠率的影响,为临床针刺治疗失眠提供新的选穴参考。方法将60例符合标准的失眠患者,随机分为治疗组(常规取穴加肩康穴组)
第一部分体外分析DOCK5对肝细胞脂代谢的影响目的:体外改变DOCK5表达证实其对肝细胞脂代谢的影响。方法:构建DOCK5过表达质粒和抑制腺病毒,感染Hepa1-6细胞,使用FFAs诱导肝细胞脂肪变性造高脂模型。提取RNA和蛋白,PCR法测定肝脏脂质代谢相关基因CD36、FATP2、FATP4、FATP5、FABP4、ACC、chREBP、FAS、SCD-1、SREBP1、Acox1、CPT-1、
海明威的《丧钟为谁而鸣》是一部颇有争议的作品 ,学者们的观点大致可分为三类 :全面肯定、全面否定和既有肯定也有否定。笔者认为 :《丧钟为谁而鸣》虽然不是一部完美无缺的
<正>稳定是中国的最高利益,而政权稳定则是保持中国稳定的关键。伴随着中国现代化建设进程的推进,现代化与政权稳定之间的张力愈发凸显,影响政权稳定的因素也呈现出多维发展