【摘 要】
:
在大数据时代下互联网发展日新月异,新的数据正在源源不断产生,同时数据类型也越来越多,其中成分数据广泛应用在地理、经济和生物等领域。成分数据是反映相对信息的数据,具有Aitchison几何结构。分类是机器学习中一个重要的研究内容,生活中人们往往会根据某一对象或事件的某些特征进行分类,并依照分类结果进行决策。对于成分数据,如果直接应用传统的多分类算法,可能会产生误导性的结果。现有的关于成分数据分类方法
论文部分内容阅读
在大数据时代下互联网发展日新月异,新的数据正在源源不断产生,同时数据类型也越来越多,其中成分数据广泛应用在地理、经济和生物等领域。成分数据是反映相对信息的数据,具有Aitchison几何结构。分类是机器学习中一个重要的研究内容,生活中人们往往会根据某一对象或事件的某些特征进行分类,并依照分类结果进行决策。对于成分数据,如果直接应用传统的多分类算法,可能会产生误导性的结果。现有的关于成分数据分类方法主要是对单个成分数据进行多分类或多元成分数据进行二分类,对多元成分数据的多分类问题不适用。因此本文对多元成分数据的多分类问题进行研究。主要研究内容如下:(1)本文提出一种基于Dirichlet特征嵌入的多元成分数据多分类算法(D-Co DAGSVM),该算法基于Dirichlet特征嵌入和有向无环图支持向量机(DAGSVM)。首先对训练数据集中的每一类成分数据进行类条件Dirichlet密度估计,根据DAGSVM的原理,对数据组合进行Dirichlet特征嵌入,并基于嵌入后的训练集数据构建DAGSVM分类器,将测试数据集输入DAGSVM分类器中,最终确定数据集的类别标签。(2)针对本文提出的D-Co DAGSVM算法进行数值模拟,具体在成分数据不同类别数、不同部分数、不同样本量和不同特征数下以及一般情况下(即成分部分数和样本量均不相同的情况下)模拟多元成分数据。并在Accuracy、F1、G-mean和Kappa系数四个指标上,将提出算法与基于原始数据的DAGSVM多分类算法(Co DAGSVM)、基于ilr变换的DAGSVM多分类算法(Ilr-Co DAGSVM)两种算法进行比较,验证提出的算法的有效性。模拟结果表明D-Co DAGSVM算法具有高精确率和一致性的特点,较好地解决了多元成分数据的多分类问题。(3)针对D-Co DAGSVM算法进行实证分析,将该算法应用在代谢组学数据集上,分别对不同产地黄芪化学组分数据以及小鼠给予黄芪干预后可被鉴定的内源性代谢物数据进行分类,分类结果显示该算法效果良好。
其他文献
中国正在应对日益严峻的国际经济挑战,同时也在努力应对全球变暖带来的生态环境威胁,探索出高质量的可持续发展之路。当前,关于可持续发展已成为研究热门领域之一,本文通过把经济、社会、能源和生态等方面统一到DPSIR框架内,计算得到可持续发展效率,尝试解决单一效率无法表征可持续发展的各个方面,得出了可持续发展效率的评价方法,为后续研究提供了理论基础。以全国30个省份(不包括西藏和港澳台)为节点,考察各省2
本文将理论与实际相结合,阐述传统教学模式中存在的问题,说明进行教学模式创新的必要性,并且提出创新教学模式的具体方法。运用创新模式进行小学语文教学,可以通过作业设置多元化、利用多媒体教学、拓展教学内容、组织丰富的课外活动等方式,促进教学质量的提高。
山西省承担着“在转型发展上率先蹚出一条新路”的重担,而山西省的转型发展不仅需要内部合力,更需要外部助力。国家高度重视山西省转型发展进程,2018年,国家发展与改革委员会出台了《关于支持山西省与京津冀地区加强协作实现联动发展的意见》,为山西省加强区域间协作,加强与京津冀地区区域联系提供了指导;山西省在“十四五”规划中,也强调了加强与京津冀地区融合发展的战略部署,山西省加深与京津冀地区联动发展成为山西
党的二十大报告中指出,“人民健康是民族昌盛和国家强盛的重要标志。把保障人民健康放在优先发展的战略位置,完善人民健康促进政策。”医疗保险基金不仅是医保制度发展的“基石”,更是人民群众的“救命钱”。十八大以来,审计署始终将医保基金审计作为工作重点,但我国目前尚未形成一套科学、完整、统一的医保基金绩效审计评价指标体系。加强医保基金绩效审计,有助于推动医疗健康事业的高质量发展。在此背景之下,本文通过构建医
在中国进入新时代这一大背景之下,我们亟需增强中国特色社会主义道路自信,其基本要求就在于深入贯彻新发展理念,着力构建现代化经济体系。党的十九大报告明确提出我国目前经济发展所处的阶段,林兆木说过我国经济发展是否高质量体现在是否能够更好的满足人民的美好生活需求,反映在五大维度上,即创新、协调、绿色、开放、共享。所以本文就从这五个维度入手,对我国经济发展水平进行测度。近年来,废气等的污染、大气中二氧化碳浓
中国煤系气资源丰富,其中沁水盆地是中国煤系气分布的主要盆地之一,明确煤系气叠置含气系统分布特征,有助于实现煤系气的共探合采。为此,以沁水盆地榆社—武乡示范区石炭系—二叠系含煤地层为研究对象,在分析煤系气地质特征的基础上,划分了煤系气叠置含气系统,研究了煤系气的源岩—储层共生组合特征、储层分布特征、共生成藏特征,并详细分析了示范井的压裂合采效果,预测了示范井产量。研究结果表明:(1)研究区目标煤系空
水资源是重要生态资源,提升水资源承载力与水资源利用效率是实现黄河流域生态保护与高质量发展的关键。本文以2010-2020年黄河流域77个城市为研究对象,测度分析不同城市的水资源承载力与利用效率,并进行耦合诊断。主要研究内容包括以下三部分:1.黄河流域水资源承载力的测度与分析本文从水资源禀赋、经济社会和生态环境三个准则层构建水资源承载力评价指标体系,基于CRITIC法与主成分法确定组合权重,通过TO
党十九大提出的乡村振兴是促进未来农业农村现代化进程的总抓手,其中乡村产业振兴是关键所在。但是,乡村产业振兴面临诸多问题,如产业发展和效益不匹配、产业要素欠缺活力、产业所需基础设施薄弱和产业抗风险能力弱等问题。而数字经济作为经济发展的重要驱动力,如何有效释放其对乡村产业振兴的助推作用,成为我国各界广泛讨论的重要议题。虽然国内外学者从多方面探讨数字经济促进乡村产业振兴路径机制,对数字经济和乡村产业振兴
随着全球产业化的加速发展,我国正在迈向推动高新技术发展的新阶段。高科技产业的发展为科技创新提供了强大的推动力,而政府的大力投入也使得它们在经济、社会和环境方面发挥出了重要的作用。因此,探讨政府财政支持力度是否有效提高了高技术产业的创新效率,对建立有效的财政支持机制,发挥政策杠杆作用具有重要意义。本文采用“文献梳理、理论探讨、实证检验和政策建议”的研究流程,深入探讨了政府财政投入力度如何提升高科技产
随着社会老龄化的程度日益加剧,老年人的健康护理越来越受到人们的关注。习近平总书记曾谈到,“病有所医、老有所养、住有所居、弱有所扶”,要把人民的利益始终放在至高无上的地位。对老年人来说,医疗护理成为庞大而刚性的需求服务,准确评估老年人失能等级及护理需求将为国家建立长期护理保险制度提供重要依据。利用中国健康与养老追踪调查的2015年和2018年问卷数据,对中国老年人的失能等级进行多维评定,并预测老年人