多源异构数据学习问题研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：Carlower

【摘要】

：

近年来，社交媒体、监控摄像头、生物识别传感器和社交媒体产生的数据迅速增长。大量的可视化数据对机器学习方法提出了更高的要求。同时，数据来源多样、标签信息弱等问题使得传

【作者】

：

崔荔蒙

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2018年期

【关键词】

：

多源异构数据图像特征融合学习模型弱监督学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，社交媒体、监控摄像头、生物识别传感器和社交媒体产生的数据迅速增长。大量的可视化数据对机器学习方法提出了更高的要求。同时，数据来源多样、标签信息弱等问题使得传统的机器学习模型和特征提取方法面临着更为严峻的挑战。如何挖掘和利用多源信息、建立机器学习模型来有效地处理多媒体大数据是本文研究的目标。结合多源异构数据融合学习和弱监督学习两个研究点，本文提出了一系列的方法，主要研究内容和贡献如下:　　1.提出多源的图像特征融合学习模型。本文聚焦于路面裂纹自动检测，研究如何有效融合多源图像特征，并提出了一个高效的路面裂纹检测方法Crack-Forest。通过有效地融合来自多源的特征，即传统裂纹检测特征以及积分通道特征，重新定义了构成裂纹的局部结构，从而得到更好的裂纹表示。接着，随机结构森林对得到的特征集合进行了特征选择，并将裂纹的局部结构聚类。利用局部结构的出现和共现信息，本文提出了一个新颖的裂纹描述符。它能够准确的区分裂纹和噪声，并在裂纹检测中有效地消除噪声的影响。实验结果证明了CrackForest的有效性。此外，本文作者收集整理了一个手工标注的中国城市路面裂纹图像数据集，并提出了两个裂纹检测评价指标，为后续相关研究提供了基准数据集。　　2.提出基于多视角学习的多模态数据检索模型。数据往往具有异构性，即含有多个模态（图像和文本）、多个视角（不同的特征）以及不同的数据类别。不同的特征描述对象的不同方面，并且提供了互补的信息。本文提出了一个跨模态检索框架MCTD。通过建立张量模型，MCTD有效地融合了来自多模态多视角的特征，探索了特征之间的关联性，并避免了稠密视角在特征空间的主导问题。MCTD率先性地将张量分解技术应用到多模态多视角特征融合中，找到不同模态间共同的潜在语义空间，为理解信息实体提供了更全面的信息，从而获得了更好的检索结果。大量的实验验证了MCTD的性能，并证明了特征关联性的作用。　　3.提出噪声数据的弱监督学习模型。作为一种弱监督学习问题，比例标签学习是近年来备受关注的一种新的学习问题。不同于监督学习，在该问题中，实例是以包的形式给出的，并且每个包的标签比例已知，每个实例的标签未知。比例标签学习方法被广泛地应用于预测投票和垃圾邮件过滤等场景。本文分析了比例学习问题中噪声的来源，并通过引入pinball损失，提出了一个新颖的比例标签学习方法，称为“pSVM-pin”。该方法可以将经验损失和比例损失整合进同一个模型中，并通过最大化类间分位数距离，有效地消除了噪声的影响。本文通过交替地预测未知的示例标签和求解分类超平面，来求解该问题。本文通过一个人工数据集展示了pSVM-pin的稳定性，并在UCI数据集上证明了算法的性能，最后通过一个真实案例说明了pSVM-pin的可行性。

其他文献

入侵防御系统的研究与关键技术的实现

随着通信技术和计算机技术的飞速发展,计算机网络已经成为当前信息交流的主要媒介。越来越多的国家、企业和用户接入因特网,网络安全问题日益突出。防火墙可以阻挡针对网络层

学位

防火墙入侵检测系统入侵防御系统模式匹配AC-BM改进算法

基于业务规则的流程建模方法研究

随着企业系统日益庞大,流程日益复杂,业务流程建模已经成为了企业系统设计和运行中重要环节。迄今为止,基于流程模型的建模方法,关注点一般都集中在流程控制方面,而对于流程

学位

业务规则流程建模业务流程中介模型

基于构词法的中文自动分词方法研究

中文自动分词是中文自然语言处理的核心问题之一。近年来，随着汉语词语切分标注语料库的丰富，以及相关评测的推动，基于机器学习的分词方法取得了巨大成功。然而，实际应用中的中文

学位

构词法语素语料库条件随机场中文自动分词方法

基于XML安全策略的博客信息发布技术研究

我们在Internet世界的第二人生当中，博客信息发布管理系统的出现给使用者和读者都创造了一个魅力无限的学习和交流平台。博客作为一种全新的网络产品它的出现得到了广大网络产

学位

博客信息发布管理系统XML语言数据访问安全策略

改进DV-Hop算法在随机传感器网络中的应用研究

随着人们对无线传感器网络技术研究的不断深入,很多基于位置信息的协议和应用相继而出,使得定位技术成为了无线传感器网络的主要支撑技术之一。定位技术根据是否需要实际测量

学位

无线传感器网络节点定位非测距DV-Hop算法随机传感器网络

人脸识别过程中特征提取方法的研究

特征提取对高维数数据的分类具有重要的研究意义,应用非常广泛。特征提取的目的是提取一组特征,使得这些特征的维数比原始数据的维数低,且保持数据的类别特性。用提取的特征

学位

人脸识别特征提取小波变换类增广PCA模糊集理论

基于JBPM的柔性工作流研究及在漏洞库上报管理平台中的实现

随着新一代信息技术的推广,信息安全成为信息技术发展的重点之一,信息处理技术也受到越来越多的关注,漏洞库上报管理平台作为国家互联网应急中心信息安全漏洞共享平台的子项

学位

柔性工作流规则引擎漏洞库JBPM

太阳帆航天器轨道设计和姿态控制研究

随着深空探测活动的广泛开展和深空探测技术的进步,常规的推进技术已经很难满足日益发展的深空科学任务要求。开发更为有效的推进技术逐渐成为人们研究的焦点,其中太阳帆就是

学位

深空探测太阳帆航天器轨道设计局部最优化姿态控制太阳极地观测

高性能嵌入式系统网络协议栈关键技术研究与实践

计算机的硬件正以惊人的速度在发展。目前在多媒体下载、流媒体数据业务支持、航天通信等领域的嵌入式开发应用中,使用的嵌入式硬件平台已经完全突破了早期的单片机的性能限

学位

实时操作系统高性能硬件平台嵌入式系统网络协议栈

风送式喷雾机风筒结构仿真与优化研究

风送式喷雾是一种先进的喷雾技术，利用风的作用使雾滴具有较好的穿透性。但国内对风送式喷雾机的研究仍存在以下问题：一是对于风送式喷雾机的作业机理缺乏较深入的研究，风筒的设

学位

风送式喷雾机风筒结构设计方案优化模型正交试验CFD仿真

多源异构数据学习问题研究

其他学术论文