论文部分内容阅读
现如今移动互联网和智能终端的发展越来越快,已经渗透到了社会的各个角落,新的医疗健康信息化服务模式应运而生。在这个人口逐渐老龄化与慢性病并发、健康管理需求日益增加的社会背景下,结合移动互联网技术和智能终端技术,催生了一批批移动医疗应用软件。人们通过移动医疗应用的信息化服务,随时随地从移动设备得到自己需求的医疗信息,更加便捷、人性化的帮助人们进行健康管理。面对急剧增长的互联网信息资源,移动医疗信息化服务必须定位用户如何获取即时有效准确的医疗知识。但是目前移动医疗的应用特别是医疗信息服务这部分,缺少一定的行业规范和专业性,导致了用户对此的信任度处于中等偏下的水平。虽然分类可以在很大程度上解决互联网信息杂乱的现象,而当前主流的基于机器学习的分类算法,在分类的专业性和层次化方面缺少对信息的敏感而且容易忽略信息之间的相关性;另外,在移动医疗领域的开发应用中,这些算法的局限性主要表现在开发周期较长,效率低下等方面。因此,本文对面向移动医疗应用的文本分类算法进行了研究,在一定程度上改善移动医疗关于信息化服务模块的质量。在本文中,我们构建单一主题领域的主题词表,结合词共现语言模型,通过主题词表的语义关系网络,挖掘词汇与主题词的语义相似度,实现单一领域的自动文本分类。本文的研究重点就是如何从网络资源中抽取有效的信息并分类,以及语义网络的建立和可视化的实现。本文的研究内容主要有以下三个方面:在某一领域主题下的语料库中提取领域主题词。首先,研究分析了影响文本词汇成为主题词的多种因素;随后经过切分拼接词的预处理、三级过滤机制,最后根据多权重值的评分排序来提取领域主题词。建立领域主题词表,并将词间错综交织的语义关系网络呈现出来。主要通过主题词间语义关系的研究,以领域主题词集作为其构成元素,分析主题词之间和修饰词之间的内联关系,以及主题词与修饰词之间的相关关系,构建交织的语义关系网络,并实现可视化。提出一种基于词共现语言模型的文本分类算法。算法的主要思想是结合构建的主题词表,分析文档特征词与主题词之间的相似度,来映射文档与类别的相似度,实现文本的分类。将相似度分成两部分计算:主要部分通过主题词与文本表示模型之间的共现度来评估;而修饰词与文本表示模型相似度部分采用平滑构建方法,作为辅助矫正参数,使得分类在一定程度上具有更强的语义相关性。最后经过系统的测试,其分类性能保持在较高水平,相较于SVM算法,本算法的平均准确率提高了2%,尤其是在专业性类别的准确率明显更好。本算法针对于移动医疗应用,在效率化、专业化和智能化方面有比较明显的提升,具有一定的可行性。