论文部分内容阅读
现代科学已成为数据密集型学科。因此,用于数据管理,数据共享和发现新颖数据集的创新解决方案的需求与日俱增。大数据时代,时序数据在各行各业的重要性渐渐凸显。通常时序数据具有非平稳的特点,常见的相关性分析方法难以刻画。多重分形降趋势交叉相关性分析(Multi-Fractal De-trended Fluctuation CrossCorrelation Analysis,MF-DCCA)方法却能够很好的刻画两个非平稳时间序列之间的非线性波动相关性。本文在药物研发、产业工人、股票市场领域做了以下研究:在药物研发领域,本文率先使用假性时间序列和MF-DCCA方法研究了药物分子性质与水溶性之间的非线性交叉相关性。实验结果表明,药物分子的分子量和水溶性之间具有较弱的长程交叉相关性;其他药物分子性质和水溶性之间具有较弱的幂律交叉相关性;滑动窗口宽度对时变赫斯特指数的鲁棒性较强。这项工作可以为深度学习药物分子性质预测的多尺度特征输入任务,提供一种新的特征选择方法。在产业工人领域,本文通过网络大数据和MF-DCCA方法的结合对产业工人队伍的研究文献和网络搜索做了调研。对产业工人队伍相关的文献基金资助、文献发表年度、主要研究机构情况进行了统计分析。通过自然语言处理、百度指数和MF-DCCA融合的方法提出了一种分析产业工人队伍的框架。利用知网文献提取关键词,使用关键词进行百度指数的时间序列检索,使用MF-DCCA方法分析基于关键词的时间序列与产业工人时间序列的相关性,可以帮助政府了解舆情,研究现状并采取相关措施响应民意。在股票市场领域,本文提出了一种股票价格涨跌趋势预测框架。它包含了数据收集,MF-DCCA相关性分析和股票价格涨跌趋势预测环节。实验结果表明,网络大数据与股票价格涨跌趋势之间存在长程交叉相关性;百度指数加入前后对股票价格涨跌趋势预测性能表现出贡献不统一。可能存在的原因是投资者的不理智行为使得百度指数与实际股票市场信息不匹配或百度指数对大众搜索行为数据的整合性太差。这项工作可以为股票价格涨跌趋势预测和决策提供帮助。