论文部分内容阅读
本文研究基于文本分类技术的自动诊病系统。已有病案记录了疾病现象与疾病种类的关系,利用机器学习方法构造分类器,可以习得疾病现象与疾病种类之间的规律性知识。当面对新的病案时,根据习得的知识,通过对疾病现象的分析,可以预测病人所患疾病的种类,从而实现自动诊病过程。医疗部门积累的海量文本,为针对医疗领域的信息处理研究提供了宝贵的数据资源。应用自然语言处理技术对医疗领域的信息进行处理,日益成为自然语言处理的一个新兴的研究和应用热点。通过对已有电子病案的分析,可预测各种疾病的人群分布、常见特征以及发展趋向,有利于我们提高医疗水平和治疗效率。因此基于自然语言处理技术的医疗病案研究具有理论意义和实用价值。对于中文病案,实现自动诊病系统需解决组织电子病案、分词、构造分类器等几个主要问题,本文围绕这几个主要问题展开研究。首先组织电子病案,它是对文本的采集过程。本系统采用出院病人病案为原始数据进行数据采集。电子病案因为已经包括疾病的症状、诊断和治疗情况,成为人工分类后的训练数据,即学习文本。由于学习文本的质量直接关系到系统能否实现,因此需要对其进行预处理,使病案文本以便于计算机处理的数据形式保存。为此,本文构建了病案自动生成和管理子系统确保数据的准确和高效采集,它是诊断系统的支持系统。接下来从中文文本的自动分词入手,对电子病案进行处理。在自然语言理解当中,词是有意义的最小处理单位。把没有分割标志,也就是没有词的边界的汉字串,自动转换到符合语言实际的词串,即在书面汉语中建立词的边界,这是汉语分词的任务。汉语自动分词是任何中文自然语言处理的第一道“工序”,其作用非常重要。只有逾越这个障碍,中文处理系统才能称得上初步打上了“智能”的印记。本文介绍了目前采用的几种汉语自动分词技术,包括:最大匹配法、改进的最大匹配法、全切分法等。本系统采用分词和词性标注一体化的方法对病案进行预处理,实验表明,该方法准确率高于直接分词方法。最终本文利用贝叶斯算法,通过对训练文本的学习,构建了一个面向医疗领域的文本分类器,从而实现了本文提出的自动诊病的目标。贝叶斯分类算法<WP=7>是现在比较流行的方法,它的分类效果比较好,简单而且高效,可以通过大规模的训练语料提高分类的质量,还可以对它进行改进。比如应用基于向量空间模型的其它方法对其结果进行修正。贝叶斯算法在概率的分布上做了假设,假设文本的所有属性值在给定类的上下文中是相互独立的。使用一个包含这些假设的具体模型,用大量标记好的文本训练,生成模型参数。测试文本的分类是选择最有可能生成该文本的类。只有以病案文本为知识源建立了知识库,按照疾病的分类进行训练,才可以构造相应的分类器,对相关的新病案进行分类而生成诊断。本课题采用的是基于统计的信息抽取方法,可解决基于知识的专家系统中知识获取瓶颈的问题,而且知识是来源于真实病案,具有客观性好,一致性强等优点。通过试验证明,本系统具有一定实用性,可实现辅助诊病。本系统还具有较强的可移植性,可扩展到其他应用领域。将知识源扩展一下,通过对分类器的训练,经过一定的预处理,本文可以实现对其它领域的文本处理。本文的研究表明,基于文本分类的自动诊病系统具有较强的通用性,具有一定的后续开发潜力。