基于因果强度的时序因果关系发现算法研究

来源 :广东工业大学 | 被引量 : 1次 | 上传用户:lhcllk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机信息技术的快速发展,海量时间序列数据在工商业生产和科学研究过程中被收集。时间序列是指将某种现象某一个统计指标(如气温、股指、脉搏等等)在不同时间上的各个数值,按时间先后顺序排列而形成的序列。由于相比起传统的静态数据,时间序列数据背后包含着和时间动态有关的未知的、有价值的规律和机制,因此若能挖掘出这些知识进而对数据走向进行预测或干预,将对科学研究、商业营销、工程生产等方面产生重要意义。本文的工作是挖掘时序数据背后的因果网络。由于时序数据的变量间普遍存在因果性,而因果网络正好是分析事物间因果关系的有效工具,因此,因果网络比其它方法更适合于研究时序,成了该领域的常用方法。推断因果网络,实质是筛选出节点间的强关系组成完整因果图,由于节点间因果关系强弱不一,因此需要准确衡量出因果关系的强弱。然而,传统衡量标准普遍存在量纲不统一和冗余较多的缺点,无法准确衡量因果关系的强弱,严重影响时序网络因果推断的算法的准确性。针对这个情况,本文所做工作主要分为两部分:第一,针对传统衡量方法的两项不足,提出一种基于信息熵的因果强度衡量新标准,“归一化因果熵”,该方法的核心创新点有两项,一是通过归一化处理,使量纲不同的节点间强度具备可比性,统一了不同信息量的节点间强度的量纲,二是通过排除节点间的间接影响,减少高估强度的情况,大幅减少冗余,这两项改进使得“归一化因果熵”相比传统方法能更准确地衡量时序节点间的因果强度;第二,在此基础上,设计出相应的时间序列因果网络推断算法,以“归一化因果熵”衡量节点间因果关系的强弱,筛选出对单个节点形成强关系的“父辈”,再迭代计算每个节点相应的“父辈”子图,最终组成完整因果图,基于本文算法推断出的因果图相比起传统算法的推断结果,冗余更少,且能克服节点自信息量纲不统一带来的问题。在实验部分,本文通过人工生成的模拟数据集,在Matlab平台上进行实验验证。首先,设定标准数据集,通过ROC曲线测试传统算法和“归一化因果熵”在标准数据集下的实验表现,结果表明在召回率相同的情况下,“归一化因果熵”大幅降低了误中率,整体表现更优:然后,通过改变标准数据集中的数据特征,测试“归一化因果熵”和传统方法对数据集特征的敏感度,结果表明,“归一化因果熵”对数据特征变动的鲁棒性较好;最后,根据实验结果,分析“归一化因果熵”的不足和可改进之处。
其他文献
在项目的设计阶段不仅要考虑项目的建造成本,而且还要考虑项目全寿命周期成本。本文结合工程项目实例,分别对设计阶段的传统造价管理和LCC理论下的造价管理进行了理论和实际
大数据服务平台在电网系统中具有重要的应用价值.海量准实时数据平台作为电网重要数据中心,存储了大量有价值的数据,其存储的数据多为非结构化数据,无法直接通过SQL语句获取.
鹤壁矿区的矿井水主要分为含悬浮物矿井水、高矿化度矿井水以及含特殊污染物(铁、锰、氟)矿井水。矿井水中悬浮物的去除采用混凝沉淀过滤的常规工艺,高矿化度矿井水处理采用
以PCR技术扩增得到弗氏柠檬酸细菌ATCC8090中酪氨酸酚裂解酶的结构基因tpl,与表达载体pQE30连接后构建质粒pQTPL,并转化到E.coliM15中进行表达,在加入0.2mmol/L的IPTG、18℃
目的:综述有助于改善睡眠的中药及其成分相关研究进展,为临床用药及剂型制备提供参考。方法:查阅国内外公开发表的相关文献资料并进一步综合分析。结果:研究表明,一些中药具
应该正视纠纷的法律效果,对纠纷的积极机制要有进一步认识。要根据纠纷的特点及社会提供的纠纷解决机制,作出谨慎的抉择。应重视法律处理纠纷的机能
模块化课程是实现中高职合理教学衔接的基础,有助于避免教学内容的重复和脱节。高职课程模块化设计应符合专业设置标准、学生个性选题要求以及市场需求,要易操作、易推广。根据
很多市场人士一直有疑问,运盛实业究竟计划以多高的成本来最终完成向民营医疗产业的转型。对此,公司董秘没有直接回应,仅向记者表示以公告为准。$$   公开信息显示,运盛实业此
报纸
辛弃疾词作,多写其复杂心态和身世之感,表现手法细腻曲折。本文探讨了辛氏词作中的名词短语构成和语用功能,并对辛弃疾词作中名词短语频繁出现的原因做了多角度分析。
邓小平的青年观是其思想体系的重要组成部分,他的观点中每一字每一句都蕴含着对青年浓厚的感情与热切的期望,视青年为国家之未来民族之希望。青年须牢记党和国家的历史重托,