论文部分内容阅读
随着国民健康意识水平的不断提升,人民对于医疗健康知识更加关注,对于获取医疗健康知识的方式也提出了更高的要求。目前网络上提供的医疗知识获取方法还停留在依靠关键词搜索和人工回复的阶段,获取信息的便捷性、时效性、针对性和智能程度不足,影响了医疗健康知识的普及。而同时以深度学习技术为代表的新一代自然语言处理技术的出现,使得智能问答系统愈加成熟。因此,针对人们便捷获取医疗知识的需求,结合目前日益成熟的自然语言处理技术,本文研究并实现了面向医疗领域的智能问答系统。针对用户的提问,系统利用实体识别、文本分类和语义相似度计算等技术对用户问句进行处理解析,在医疗知识库中获取问句对应的知识并拼接生成答案或在问答库中获取与用户问句相匹配的答案。本文首先使用网络爬虫技术构建了以疾病为核心的医疗知识库,并使用了Neo4j图数据库存储方案,实现了医疗知识的结构化存储。其次,设计与实现了基于实体识别和文本分类的语义解析功能,在实体识别方面,通过综合使用医疗实体词典匹配和基于BiLSTM+CRF的实体识别模型,并使用规则和编辑距离计算判定的方法对结果进行融合处理,有效提升了实体识别在医疗实体词汇上的效果;在文本分类上,设计实现了基于融合特征的BiLSTM文本分类模型,将实体识别的结果提取为onehot向量融入到模型中,提高了模型在医疗问句分类上的效果。此外,实现了基于TF-IDF加权和word2vec的语句向量生成方法,并使用余弦相似度进行语义相似度的计算,通过TF-IDF算法对word2vec词向量进行加权计算,提高核心词汇在语句向量中所占的比重,得到了相似度计算问句匹配的良好效果。最后,使用模板匹配和知识库查询的答案生成方法与基于语义相似度计算结果问答集检索的答案生成方法得到问句答案。测试结果表明,本文实现的面向医疗领域的智能问答系统能够正确理解用户提问内容并作出符合预期的专业回答,系统性能表现良好,吞吐率及响应时间均在合理范围之内。