论文部分内容阅读
随着计算机信息技术的快速发展,海量时间序列数据在工商业生产和科学研究过程中被收集。时间序列是指将某种现象某一个统计指标(如气温、股指、脉搏等等)在不同时间上的各个数值,按时间先后顺序排列而形成的序列。由于相比起传统的静态数据,时间序列数据背后包含着和时间动态有关的未知的、有价值的规律和机制,因此若能挖掘出这些知识进而对数据走向进行预测或干预,将对科学研究、商业营销、工程生产等方面产生重要意义。本文的工作是挖掘时序数据背后的因果网络。由于时序数据的变量间普遍存在因果性,而因果网络正好是分析事物间因果关系的有效工具,因此,因果网络比其它方法更适合于研究时序,成了该领域的常用方法。推断因果网络,实质是筛选出节点间的强关系组成完整因果图,由于节点间因果关系强弱不一,因此需要准确衡量出因果关系的强弱。然而,传统衡量标准普遍存在量纲不统一和冗余较多的缺点,无法准确衡量因果关系的强弱,严重影响时序网络因果推断的算法的准确性。针对这个情况,本文所做工作主要分为两部分:第一,针对传统衡量方法的两项不足,提出一种基于信息熵的因果强度衡量新标准,“归一化因果熵”,该方法的核心创新点有两项,一是通过归一化处理,使量纲不同的节点间强度具备可比性,统一了不同信息量的节点间强度的量纲,二是通过排除节点间的间接影响,减少高估强度的情况,大幅减少冗余,这两项改进使得“归一化因果熵”相比传统方法能更准确地衡量时序节点间的因果强度;第二,在此基础上,设计出相应的时间序列因果网络推断算法,以“归一化因果熵”衡量节点间因果关系的强弱,筛选出对单个节点形成强关系的“父辈”,再迭代计算每个节点相应的“父辈”子图,最终组成完整因果图,基于本文算法推断出的因果图相比起传统算法的推断结果,冗余更少,且能克服节点自信息量纲不统一带来的问题。在实验部分,本文通过人工生成的模拟数据集,在Matlab平台上进行实验验证。首先,设定标准数据集,通过ROC曲线测试传统算法和“归一化因果熵”在标准数据集下的实验表现,结果表明在召回率相同的情况下,“归一化因果熵”大幅降低了误中率,整体表现更优:然后,通过改变标准数据集中的数据特征,测试“归一化因果熵”和传统方法对数据集特征的敏感度,结果表明,“归一化因果熵”对数据特征变动的鲁棒性较好;最后,根据实验结果,分析“归一化因果熵”的不足和可改进之处。