基于Hadoop的中文并行LDA算法及在电子病历挖掘中的应用

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:entine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子病历作为互联网医疗的基础技术,记录了病人的临床诊疗记录,是极具价值的数据资源。我国市级以上医院的病历信息系统的总数据规模估计在100TB以上,日新增数据的数量级为GB,数据类型多样,符合学术界对大数据的定义。目前对电子病历的数据挖掘实践多采用在单台计算机上运用常规的聚类分类算法和关联规则处理结构化数据的分析方法,不能较好地适应大数据环境。Hadoop是当前热门的分布式处理系统,通过组合数量巨大的廉价通用硬件形成巨大的资源池,部署简单,容错能力较高,因此本文以Hadoop为平台构建大数据分析算法的并行程序。本文选择主题模型中的LDA模型作为并行化的目标,参数估计方法为塌缩Gibbs采样法。本文引入点互信息算法PMIk对ICTCLAS分词系统增加了词库的动态更新功能,并给出了处理大规模数据集的并行框架。将输入的文档从外部和内部分块,为避免参数采集中的依赖性,采用对角线法分配数据。在塌缩吉布斯采样时统计每一个单词在所有文档中的词频,在归一化词频向量上叠加合适的随机数序列,过滤掉低于阈值的词语。本文采用复旦大学的中文语料库从准确率、困惑度、加速比三个指标分析实验结果,得到如下结论:改进后的分词算法能有效增加分词准确率和召回率;改进的并行LDA算法能显著减少模型运行时间。最后,本文以真实新生儿电子病历集为挖掘对象,采用并行LDA算法进行文档分类和特征发现。挖掘结果显示算法分类的准确率较高;算法输出的描述性的词语矩阵包含了候选特征,通过单因素方差分析检验对四种新生儿疾病患病率有显著影响的因素。
其他文献
厨师行业本身的传承性较强,其在过去的发展历史中也多采用学徒制度,这种制度在当今环境中也要得到进一步的发展,一些高职院校的烹饪专业就引入了现代学徒制度,以期能获得更好
智慧课堂已经被誉增强教学和学习互动的一个有前途的工具.世界各地的大学都推行了教育改革及有关科技应用的措施.然而,以往的研究往往忽略了学生对此类教学模式的看法,这可能
教学方法的创新是课堂教学中特别重要的部分,新颖的教学方法不仅能吸引学生的注意力,还能增加学生的课堂参与度,使得学习的过程由“被动”转为“主动”.职业教育需要培养的是
10月,美国股市走出了先降后升的行情,为帮助美国经济走出金融市场振荡的困境,美联储10月31日决定再次降息。受多重因素推动,10月份,香港股市一路攀升,屡创新高。10月的A股虽
互联网时代,高职教师继续教育存在教学层次不清晰、学习目标不明确、教育内容缺乏针对性、学时分配不合理、评价标准不健全等问题.为解决这些问题,本文设计出能力本位视域下
我国小型水库具有分布广、坝型多样等特点,这些水库的主要作用是为人民提供生活用水,同时也是工业用水水源,为防御洪水灾害起了一定作用。近年来,水库养殖范围也在扩大。但由于各
当职工们在自己很熟悉的小黑板上看到“全体放假,每个职工分一亩地顶替工资”的通知时,谁也没想到有着30多年苗木生产历史的抚松县江北苗圃真的要“黄了”大伙个个绷着个脸,心里
教师的素质及能力水平,是决定高校人才教育、培养质量的关键要素.因此,在当前的时代和社会背景下,高校方面应当加强自身的双师型教师队伍建设,增强教师的素质及能力水平.本文
循环经济是区域经济研究的重要内容,是对整个区域经济的整体发展前景进行科学规划的经济。纵观西方国家经济发展的历史,它告诉我们:不能走“先污染,后处理”的经济路子,我们在发展
入学教育是高职院校新生进入学校接受的第一门课,对学生尽快适应大学生活、明确未来学习方向有重要作用.新生入学教育不仅是高职院校教育的重要组成部分,也是思政教育工作的