论文部分内容阅读
[目的/意义]研究机器学习中集成学习与直推学习方法对电子病历命名实体识别任务的性能影响,为基于机器学习方法的文本信息抽取提供一种性能优化方法。[方法/过程]首先对CCKS-2018提供的电子病历文本进行分析,提取中文分词、词性标注、临床实体类别特征;然后在条件随机场CRF算法下,采用不同输入特征组合的方法构造“基学习器”进行投票集成;最后用直推学习方法对集成学习结果进行优化。[结果/结论]实验中集成学习获得总体效果F1值86.93%均优于“基学习器”结果值,直推学习获得了模型的最佳泛化性能87.06%,同