若干数据聚类问题研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:MUWANG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代发展,机器学习算法所使用的数据维度以及样本数量均已达到前所未有的规模。传统的聚类算法的假设已不再有效,其时间复杂度不可接受。针对以上挑战,本文从子空间聚类,多视图聚类,深度聚类3个角度研究聚类算法。本文调研了三类算法中的发展现状及代表性算法,并且从中发现了四个具体问题进行研究。首先,针对子空间聚类算法中存在的子任务相互依赖问题,第三章提出使用成对约束打破子空间查找和子空间样本分配的相互依赖,更加准确地寻找包含簇的子空间。进而设计了一种同时进行维度选择和维度加权的子空间聚类算法。实验结果表明本文中提出的子空间聚类算法较现有算法有一定的性能优势。其次,针对多视图聚类算法中各个视图内簇分布不一致的现象,第四章提出一种为各个视图簇增加权重的多视图聚类算法。通过为各个视图内区分度更高的簇赋予更大权重,更好地利用视图间的信息优势,增加簇分配准确度。实验结果表明本文提出的赋簇权重多视图聚类算法提升了聚类性能。再次,针对多视图数据中存在的视图内表象缺失的现象,第五章提出了一种数据不完全对应的多视图聚类算法。算法能够利用二分图将不完整的实例的表象进行匹配,从而使多视图聚类可以处理更广泛的实际数据集。实验结果表示本文提出的此多视图聚类算法能够正确地处理含有不完整实例的多视图数据,并能得到准确的聚类结果。最后,本文研究了深度神经网络与多模态聚类中的早期信息融合问题,第六章提出了一种基于交叉重构的深度多模态聚类算法。为在利用自编码器提取各个模态潜在特征时,以便与其它模态的信息进行融合,框架设计了全局交叉重构和局部交叉重构两种新式自编码器网络,并且基于两种网络设计了两种聚类算法,并将其整合到一个框架中。实验结果表明,交叉重构能够充分利用多模态信息,提高聚类效果。本文开展的研究表明,通过发掘数据内在规律,合理设计算法,利用创新工具等科学研究方法,提升了若干数据聚类任务的性能,扩展了应用范围,为无监督学习的发展做出了一点贡献。
其他文献
随着世界各国对汽车排放与能耗标准的不断提高以及多国禁售内燃机汽车计划时间节点的临近,众多汽车制造商纷纷推出了采用电机驱动行驶的电动汽车。电动汽车相比传统燃油汽车在续航方面依然存在劣势,延长续航里程对电动汽车产业发展具有重要意义。与此同时,汽车智能化程度也日渐提高,辅助驾驶员操控汽车的功能逐步完善,未来的汽车有望在不需要驾驶员的操作下自主行驶,这将彻底改变人类的乘车出行方式。综上所述,在未来的汽车产
石化和化学工业是国民经济的重要支柱产业,制约我国由石化和化学工业大国向强国迈进的关键瓶颈之一就是核心工艺包开发能力不足,因此响应产业发展共性需求,推动工艺流程模拟、分析与综合方法论的基础与应用研究意义愈发凸显。反应-分离系统是工艺流程的主体部分,由于精馏是目前最广泛使用的工业分离技术手段,因此反应-精馏系统是其中最常见也是最重要的。伴随大型化、集群化、多样化等产业趋势带来的生产工艺复杂化,既体现在
F-box/Kelch(FBK)亚家族成员的数量在小麦(Triticum aestivum)F-box家族中位列第四,也是其他植物F-box家族中较大的亚家族之一。本实验室前期已对小麦F-box家族进行了系统地分类鉴定,并获得了58个TaFBK成员。随着2017年小麦参考基因组数据库(IWGSC v1.0)的公布,是不是会有更多Kelch类型的F-box蛋白注释出来呢?据报道,FBK亚家族成员能够
在常温或高温环境下,很多材料会表现出有明显时间效应的粘弹性质。特别地,对由这些材料组成的结构,当因含有缺陷而存在局部应力奇异性时,会在加载一段时间后才延迟出现裂纹扩展和断裂破坏。延迟断裂破坏如同疲劳破坏一样格外危险。因此,对粘弹性断裂问题的研究有着重要意义。数值方法是研究粘弹性断裂问题的有效手段之一。由于粘弹性问题具有时变特性,需要同时结合对时域和空间域作处理的数值方法。本论文通过与精细时域展开(
大脑皮层神经网络的正确建立是哺乳动物大脑执行感觉、运动和认知功能的基础。神经元的树突发育是神经网络形成的关键一步,由不同分子在时间和空间上精确的调节。在大脑皮层的关键区域中,树突的发育缺陷可导致神经网络的异常,从而引起神经发育障碍。压后皮层(retrosplenial cortex,RSC)就是其中一个关键区域,它支持高级认知功能,其损伤及病变与多种神经系统疾病密切相关。这些疾病严重损害病人的生活
随着社会经济的快速发展,环境污染问题日益严重。其中水污染对人类的身体健康危害最为严重,治理水污染、营造良好的生态环境已成为社会发展道路上必须解决的重大问题。在目前已发明的各种水污染治理方法中,半导体光催化技术因能耗低、适应面广、降解彻底等优点被成功应用于污水处理,并逐渐成为研究热点,其中以TiO2和ZnO为代表的金属氧化物光催化剂得到了最为广泛的研究和应用。但TiO2和ZnO在实际应用中仍有两个关
结构催化剂由于具有传质增强、压力降较低、易分离等优点,能够对反应动力学、对流传递及物质扩散等因素独立优化和调控,在多相催化领域显示出巨大的应用前景。已有研究结果显示很多具有特殊三维结构的结构催化剂可以极大的促进物质传递,但是传统挤出式制备方法很难加工具有复杂形状的基底结构,且难以在基底上涂覆催化剂层。基于此,本论文将3D打印和激光烧蚀等现代数字化加工技术与界面性质调控结合,构筑既能强化传质又具有高
多年冻土的稳定性预测,季节性冻土的冻融灾害,以及人工冻土的强度与开挖效率平衡问题,是影响寒区和地下空间工程建设的重要方面。该类冻土的稳定、冻融变形和强度等力学问题与其温度场密切相关。受土中水的非线性冻结影响,冻土的导热系数、比热和相变潜热等热学参数呈现随负温的非线性变化规律。受加热-测温方法引起的冻土中冰体融化影响,常规物质的比热和导热系数测试技术并不能直接用于冻土测试。同时,将非线性的热参数用于
设施选址作为企业的长期战略,直接影响企业的市场占有率,进而影响企业的利润,是企业生存根本之所在。近年来,经济全球化迅猛发展,环境问题日益突出,已成为人类面临的严峻挑战之一。可持续发展成为当今企业的重要发展战略,企业不仅要关注经济目标,也要注重环境影响。为有效控制碳排放,越来越多的国家出台碳排放政策,促使企业重新审视其设施选址策略。随着消费者需求的多样化,企业生产经营趋于多元化,可以同时为消费者提供