【摘 要】
:
人类社会已经进入大数据时代,使用数据分析方法研究问题已成为普遍共识。随着医疗数据的不断发展,对医疗数据进行分析建模有广泛的应用前景。疾病诊断相关分组方案(又称为DRGs分组)是国际上比较公认的科学合理的分组方法,能够促进医疗资源的合理分配,减轻患者的负担。但我国目前缺乏较完善的DRGs分组理论体系,需要结合实际国情和医疗数据的具体情况研发出一套较合适的对患者数据进行分组的方法。基于此,本论文利用数
论文部分内容阅读
人类社会已经进入大数据时代,使用数据分析方法研究问题已成为普遍共识。随着医疗数据的不断发展,对医疗数据进行分析建模有广泛的应用前景。疾病诊断相关分组方案(又称为DRGs分组)是国际上比较公认的科学合理的分组方法,能够促进医疗资源的合理分配,减轻患者的负担。但我国目前缺乏较完善的DRGs分组理论体系,需要结合实际国情和医疗数据的具体情况研发出一套较合适的对患者数据进行分组的方法。基于此,本论文利用数据挖掘方法,使用决策树模型对医疗数据进行拟合,达到对医疗数据分组的目的。首先,本文介绍了决策树模型的基本理论知识,讨论了 ID3、C4.5、CART、CHAID和E-CHAID五种主要决策树生成算法及其特点,并给出了对决策树进行剪枝的算法,用一个实例直观地展示了决策树模型生成的完整过程。接下来,论文介绍了数据的来源、数据的规模以及对数据进行预处理的过程。数据预处理主要包括数据集中变量的筛选、清洗和整合。通过预处理,可以获取对患者住院总费用有重要影响的变量指标,并使数据中所有变量全部为数值型变量且不含有缺失值,从而可以直接用于决策树模型的拟合,为后续的研究做进一步准备。然后,本论文采用了 CHAID、E-CHAID、CART三种决策树算法拟合处理后的数据,以图表的形式完整地呈现了所得模型的分组结果。最后,论文利用统计学方法对模型的分组效果进行了检验,并在各个方面上进行比较。结果显示,这三种算法所得模型在训练数据集上的交叉验证结果相近,在测试集上的总平方损失也无明显区别。但基于CHAID算法构建的模型过于复杂,因此我们认为基于E-CHAID和CART算法构建的模型是更优的。这两种模型都将患者数据分成9组。总体而言,论文对于医疗数据的DRGs分组提出了一些新观点和新见解,利用数据挖掘方法设计了一套完整的研究方案,并采用了多种统计分析软件进行实践。研究成果有一定的综合性和创新性,可以为更一般的医疗数据的处理和分析过程提供参考。
其他文献
以聚乙烯醇(PVA)为主要原料,采用浸渍法将其与磷酸银(Ag3PO4)进行复合,通过热处理的方法使其脱水得到了具有共轭结构的聚乙烯醇衍生物/磷酸银(CDPVA/Ag3PO4)复合微粒。借助扫描电子
随着移动互联网和云计算的持续发展,人们的工作和日常生活中的很多活动都拓展到了互联网中。面对这些互联网产生的海量文本数据,如何提高信息抽取的准确性就成为了一个热门话题。命名实体识别作为信息抽取的重要内容,也随之成为相关研究领域的一个重要方向。近年来随着计算机性能的提升以及词的分布式表示的出现,深度学习逐渐成为命名实体识别的重要方法,尤其是使用神经网络和统计方法的混合模型,有着良好的识别效果和泛化能力
随着我国教育的改革与发展,学生的资助管理工作逐渐成为社会关注的焦点问题。经过不断的探索与研究,目前,我国形成了以“奖、贷、助、减、补、勤”等形式的资助育人体系。随着国家资助体系制度的不断完善,效果成效初显。由国家主导、政府出资、社会参与的中职国家助学金政策在学生资助管理体系中占有重要的地位。从2007年5月,国务院常务会议审定通过《关于建立健全普通本科高校、高等职业学校、中等职业学校家庭经济困难学
随着地下矿山中难动用矿产资源回采的持续推进,多次爆破作用所引起的采场岩体的累积损伤问题日益凸显,且中深部较高的地应力会进一步影响多次爆破作用下采场围岩的累积损伤,
近年来视频中人体行为检测已经成为计算机视觉领域的一个研究热点,它通过图像处理、模式识别等方法对视频数据进行分析处理,从而建立底层数据和高层语义之间的关系,在人机交
始于二十世纪七十年的民主化浪潮使民主成为普世价值,许多威权主义国家纷纷摆脱旧有体制投入民主的怀抱,然而新兴民主政权并没有建立有效、稳定的民主政治,初生的民主制度面临着诸多困难,民主转型学家的乐观预期也受到诘难。在理论与现实的双重冲击下,学者们开始关注民主巩固的概念、测量、条件等问题,民主可持续(民主巩固)成为当代西方民主理论领域的重要课题。作为美国当代著名的政治学家,亚当·普沃斯基是研究民主持续与
快能谱反应堆物理计算的物理模型日趋精细及数值方法日趋精确,核数据固有的不确定性成为计算中最重要的不确定性来源。高精度数值模拟计算结果有助于减少反应堆设计的安全裕量,利于平衡反应堆的经济性与安全性。因此,提高核数据的准确度有重要意义。利用已有的积分实验信息调整核数据,可达到提高计算结果精度的目的。依据设计目标精度,给出核数据的不确定性水平的定量要求,可指导核数据的改善。为此本文针对核数据调整方法与目
在当今的商业活动中,银行承兑汇票作为一种重要的支付工具和信贷手段而存在。金融业的改革和飞速发展,也使得银行承兑汇票被进一步广泛使用。中小企业及大型上市公司频繁使用银行承兑汇票采购货物,银行也在存款保证金、中间业务收入等利益的驱动下青睐于办理银行承兑汇票业务。然而,伴随着信贷业务所产生的风险,银行承兑汇票授信违约也日渐增多,这给银行甚至整个经济环境造成了极其消极的影响。近年来,银行承兑汇票余额的增长
本论文的工作是围绕着两类天然产物的合成研究来开展的。其中一类是含噁唑环结构的天然产物Melanoxadin,MR-93A,Melanoxazal以及MR-93B,它们都是黑色素生物合成抑制剂。另一
伴随着物联网技术的急速发展,如何对其产生的“海量”大数据进行高效迅捷的信息处理成为物联网技术发展应用的重要课题之一。随着人工智能技术的快速发展成熟,其与物联网技术的有机结合越来越受科研人员的关注。在人工智能技术的应用中,机器学习技术无论是在数据学习处理还是挖掘等方面均具有强大的技术优势,该技术未来将在物联网领域得到广泛的应用也逐步成为了人们的共识。本文基于课题组研发的ANN(Artificial