大规模多源时间序列预处理与隐藏空间映射分析研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：laijacky1

【摘要】

：

近年来,随着互联网技术、大数据技术的迅速发展,数据呈现出爆发式的增长。对数据进行预处理提升数据质量是确保数据挖掘方法有效性的重要一步。数据预处理通常是指处理包含噪

【作者】

：

石巍巍

【出处】

：

上海交通大学

【发表日期】

：

2018年01期

【关键词】

：

时间序列回归模型矩阵分解张量分解隐藏空间

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着互联网技术、大数据技术的迅速发展,数据呈现出爆发式的增长。对数据进行预处理提升数据质量是确保数据挖掘方法有效性的重要一步。数据预处理通常是指处理包含噪声数据和冗余数据的输入数据。传统的方法基于单一数据源进行处理或者难以处理含较高噪声的数据。本文首先介绍了时间序列的基本概念及基本分析方法,结合具体的研究内容,总结并分析了多源时间序列的研究方法及研究现状。之后,主要针对多源时间序列的数据预处理算法进行研究,研究的问题从简单到复杂,提出的算法也从浅到深。研究了含辅助数据源低维多源时间序列预处理及数据融合问题;不含辅助数据源信息的高缺失噪声低维多源时间序列缺失数据预处理问题;高维含多种噪声的多源时间序列预处理问题;同时研究在隐藏空间中直接建立含噪声多源时间序列的回归模型,为系统未来状态预测作预处理。取得的主要成果如下:提出了含辅助数据源的低维多源时间序列预处理框架。在此数据预处理框架中,提出了基于优化线性回归(OLR)、优化支持向量机(OSVM)和精炼支持向量机(RSVM)的缺失数据预测模型,结合辅助数据源策略,提升原始数据的数据质量。此外,本文引入了一种基于皮尔逊关联分析的方法融合辅助数据源的数据,提取了与目标数据源有强关联关系的辅助信息,本文进一步设计了一种基于主成分分析法(PCA)的数据清洗方法,通过对融合后的数据进行预处理,减少了原始训练集的数据维度和噪声,从而提升了故障诊断的准确性,而且可进一步减少模型的训练时间。大规模多源时间在并行环境下的实现验证了所提出方法的有效性及更高的执行效率。提出了基于正则化矩阵分解的高缺失噪声低维多源时间序列预处理算法。为提升模型的鲁棒性,从整体上提取原始多源时间序列信息,本文将时间序列矩阵映射至隐藏空间,并设计适用于时间序列的正则化约束项以提高缺失数据预测准确率。对此,本文提出了可较为精确提取矩阵分解过程中隐藏空间的隐藏因子的方法,通过约束矩阵分解以预测多源时间序列缺失数据。该方法利用每条时间序列的平滑性及传感器网络的跨源信息约束矩阵分解目标方程。相应地引入了平滑性约束、相关传感器约束、不相关传感器约束,并建立了五个相应的模型。较好的实验结果验证了引入约束之后矩阵分解过程中的隐藏因子提取的有效性。此外,并行环境下的实现不仅验证了所提出方法的有效性,更证明了在处理规模较大数据时的高效性。针对时间序列的动态特性,建立动态的矩阵分解模型,以适应当有新样本进入系统时的快速更新。此动态模型可确保在新样本数据到来后更新模型时误差控制在合理范围内,精炼策略可确保动态模型在长时间更新后仍保持很好的鲁棒性。对于大规模数据的处理,本文同样在并行计算环境下实现了动态矩阵分解模型。提出了基于特征选择及张量分解的高维含多种噪声时间序列预处理算法。为从高维含多种噪声时间序列中提取紧凑的精确的表示信息进行降噪,以获得更优的高维含多种噪声时间序列分类准确度,本文提出了一个有监督时序张量分解核框架STT(Supervised Temporal Tensor kernel framework)。STT克服了传统方法的一些缺陷,例如传统的方法要求给定训练数据的相对高的完整性,要求原始时间序列的多个数据源间无时延,以及对高信噪比的需求。STT由三步组成:(1)用于特征选择及提高模型泛化能力的鲁棒性池化;(2)有监督时序因子分解,用于提取所选特征的更紧凑的信息表示;(3)用于核生成的张量结构投影。实验结果验证了即使当多源时间序列中的噪声较高时,所提出的方法也可以取得较为优良的性能。提出了面向系统未来状态评价的含噪声多源时间序列预处理框架。为了对系统未来状态预测作预处理,通过预处理含辅助数据源的多源时间序列,本文提出了不完整时间序列预测框架ISM(Incomplete time series prediction based on Selective tensor modeling and Multi-kernel learning)。ISM由三部分组成:张量构建;隐藏因子提取;张量结构映射及多核学习。针对含辅助数据源的多源时间序列,设计了较优的张量构建方法;之后,将构建的张量进行因子分解,即将含噪声数据映射至隐藏空间从而达到降噪的目的;最后,基于张量结构映射并利用多核学习天然对应的多数据源特性,进行时间序列未来数据预测,为系统未来状态评价作准备。实验结果表明,ISM框架展现出比传统方法更优的性能。

其他文献

第十三届创业与家族企业成长国际研讨会(2017)

<正>"创业与家族企业成长国际研讨会"创办于2005年,已成功召开了12次大会。"第十三届创业与家族企业成长国际研讨会"将于2017年11月24日~26日于广州召开。本次会议由中山大学

期刊

家族企业成长家族企业研究研讨会

血府逐瘀汤治疗高粘滞血症68例

期刊

血府逐瘀汤血液流变学高粘滞血症

基于GPS的矿山地质工程测量技术应用

近些年,GPS技术已经广泛地运用到了社会发展各个领域中,工程测量领域也因其具备的高效率、高精度以及全天候等特性得到了较为深入的运用。矿山测量是测量领域的一种,传统的矿

期刊

GPS技术矿山测量测量方法使用探讨研究

胶州湾沉积物可培养细菌的多样性及其抑菌活性

【目的】海洋微生物在活性物质开发方面具有巨大的应用前景。为了研究胶州湾微生物的多样性和抑菌活性,选取胶州湾9个观测站点的沉积物进行了细菌多样性及抑菌活性分析。【方

期刊

细菌抑菌活性功能基因胶州湾

社交媒体对高校思政课教学带来的挑战及应对策略

社交媒体信息传播具有自主参与、平等共享、秒速自传播等特点,带来社会生活方式和交往方式的巨大改变,如信息受众由被动接受到主动参与,信息应用由独占转向共享,人的社会地位

期刊

社交媒体思政课教学挑战应对策略

BL房地产公司员工绩效管理研究

人力资源管理已成为现代企业管理工作的重要组成部分,绩效管理是人力资源管理活动的核心,是企业人事决策的基本依据,通过绩效管理提高员工的工作绩效,进而改善企业整体绩效这

学位

人力资源管理员工绩效管理BL房地产公司

浅析男装女性化时尚的形成因素及设计元素

随着社会朝着多元化方向发展，在强调多元性和差异性的大众化环境和服饰的国际化背景下，男装女性化已成为一种时尚，它符合男性对服饰奢华的追求。社会历史的变革、女性地位的提高

期刊

女性化

垃圾焚烧飞灰的微波水热法无害化处置及产物吸附性能研究

中国城市生活垃圾产量逐年增加,焚烧处置在城市生活垃圾处理构成中所占的比重也越来越大,已经成为垃圾处置重要手段,因此作为焚烧产物的飞灰的处置问题也引起了社会的广泛关

学位

微波水热法垃圾焚烧飞灰重金属二噁英稳定化机制降解路径吸附性能

阜阳市临泉县毒品犯罪防控研究

加强禁毒工作的防控工作,根据毒品犯罪防控工作的具体情况完善临泉县的社会保障措施以及临泉县对于毒品犯罪的社区矫正工作。最后就是提出立法建议,弥补法律在毒品犯罪上的不足。因此,研究阜阳市临泉县毒品犯罪防控的现状,对于推进安徽省阜阳市临泉县毒品犯罪防控工作和提升安徽省社会主义精神文明现代化建设具有重要的现实意义,对我国毒品犯罪防控工作也有一定的推动作用。研究指出临泉县毒品犯罪防控存在问题主要在于特殊的历

学位

毒品犯罪防控

纳斯鲍姆能力进路理论的哲学基础研究

政治哲学史上经久不衰的正义议题始终牵动着这个领域学者们的心。当代西方大行其道的功利主义和契约论的正义方法,看似要构建一个完全公正、平等和自由的社会,将所有人纳入正义体系之中。但事实上,这些自由主义的正义方法并未惠及到每一个人,其正义理论在根本上只是一种形式正义。由此,当代著名的美国哲学家玛莎·纳斯鲍姆将目光转向了“能力”,期望通过能力的方法构建一种能够使所有公民过上有尊严的、最低限度意义的丰富生活

学位

亚里士多德主义纳斯鲍姆能力进路功能能力

大规模多源时间序列预处理与隐藏空间映射分析研究

其他学术论文