论文部分内容阅读
近年来,医疗机构信息化程度不断提高,各类医疗健康信息在数量上有着惊人的增长。由于医疗健康大数据具有数据量大、多样性突出的独特性,所要采集与处理的数据类型也变得越来越复杂和多样,传统的医疗数据处理技术手段已经渐渐无法满足目前的需要,所以如何采集与分析医疗健康大数据并从中挖掘出潜在的价值,依然是值得研究的问题。身体数据作为一种常见的医疗健康大数据,比其他的数据更能反映医疗大数据的特点。本文针对身体数据,在研究了现有的数据采集方法以及数据分析方法的基础上,设计了一种基于大数据的身体数据采集与分析系统。系统实现了身体数据的采集、存储、分析、管理及可视化功能。针对身体数据的特征,本文研究了国内外大数据采集发展的现状,分析了主流大数据采集产品的优缺点,设计制定了身体数据采集集群的架构,并划分了集群的各个组件模块,对集群的各个组件模块的配置和实现进行了详细的描述。针对现有数据挖掘中的关联分类算法,本文通过引入全置信度对经典关联分类算法进行改进,提出了一种改进的关联分类算法。该算法不同于传统的基于支持度-置信度模型的关联分类算法,采用了全置信度的判别机制,从而大大减少了规则生成的数量,算法还对新实例预测阶段的流程进行了改进,使其更加适用于身体数据的挖掘分析。通过使用标准数据集对算法进行对照实验,验证了算法在运算效率和预测准确率方面的表现。最后基于以上研究,设计并实现了身体数据采集与分析系统。测试了系统的各个功能,还对改进的算法进行了仿真实验,使用真实的身体数据集进行分析,与现有的常见算法进行了对比,验证了该改进算法在进行身体数据挖掘时的优越性。