论文部分内容阅读
电子病历的快速增长为机器学习和数据挖掘人员分析医疗数据提供了巨大的支持,从而为患者提供更好的医疗服务。孕妇产时信息的预测是机器学习应用于医疗健康领域的一个分支。产前预测孕妇产时信息中的胎儿体重和分娩时间对于医生和孕妇恰当地选择分娩时机,正确地选择分娩方式以及为分娩做好充足准备等具有重要的意义。孕妇的产前体检记录属于特殊的电子病历,围产医学规定的产前体检、孕妇个人的健康状况和高危妊娠的随访等使得孕妇的体检次数和体检时间间隔各不相同,因而造成了孕妇的体检记录在妊娠时间上的不均匀时间间隔分布。然而,传统的时间序列模型默认事件之间的时间间隔是相等的,以事件的先后顺序表示时间关系,难以充分有效地表征变长时间间隔的事件,而变长时间间隔的事件在电子病历中普遍存在。本研究针对不均匀时间间隔的处理提出了基于LSTM原型的优化模型——变长时间间隔LSTM(Variable Time Interval-LSTM,VTI-LSTM)。本研究的数据来源于2015-2018年多家妇幼保健医院的17845个孕妇的共计208610次产前体检记录。实验分为胎儿体重预测和孕妇分娩时间预测两部分。在胎儿体重预测的实际应用中,本研究更多地关注胎儿异常体重的预测,因此胎儿体重预测实验分为总体上的回归和胎儿异常体重的分类。在孕妇分娩时间预测中,本研究以回归任务的方式关注预测分娩时间与实际分娩时间的差值落在-14到+14(单位:天)区间上的比例,并截取了分娩前固定的妊娠周做预测。实验比较了胎儿体重和分娩时间预测的传统公式估算法、经典机器学习方法(SVR、GBDT、MLP)、传统序列模型(RNN、LSTM)、具有时间间隔表征的序列模型(Deepr、Time LSTM、Time-Aware LSTM、DeepCare)以及VTI-LSTM模型的预测结果。在胎儿体重预测任务中,VTI-LSTM在低体重和巨大儿的分类上取得了最好的预测结果,在回归任务上则以微小的优势超过其他模型。在分娩时间预测中,VTI-LSTM模型的表现仍优于传统方法、经典模型、传统序列模型以及具有时间间隔表征的序列模型。本研究对两个任务的预测结果分别进行了分析讨论,并且对两个任务也进行对比分析。