基于信息论的文本分类模型与算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:bobo1116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络上文本信息爆炸式的增长,文本分类已成为非常重要的研究方向。为了面对时代的挑战,本文针对文本分类问题进行了深入的研究,取得了一系列突破性进展。 本文在研究了现有分类模型的基础上,提出了文本分类的信息论模型。该模型以信息论为基础,将文本所提供的关于各个不同类别的信息作为分类的依据。文本分类的信息论模型从另一个的角度来思考文本分类问题,具有一定的理论价值。同时,该模型统一了传统的朴素贝叶斯法和基于KL距离的中心向量法两种不同的分类模型,为研究统一的分类算法奠定了基础。而且,该模型在各种不同的语料库上都表现出了非常高的分类性能。 根据文本分类信息论模型的基本思想,以互信息最大化原则为指导,本文提出了一种新的特征选择算法和两种特征聚类算法。并从实验上证实了该特征选择算法优于传统的特征选择算法。在保证分类准确率降低不到2%的条件下,特征聚类算法可以将文本特征空间的维数降低2~3个数量级,大大降低了文本特征的数量。 为了进一步推广文本分类的信息论模型,本文基于广义信息论模型的基本理论,提出了文本分类的广义信息论模型。该模型为文本空间中的各个特征赋予不同的权重,区分重要的特征和不重要的特征。不同于特征的其它属性,特征的权重无法通过公式直接计算得到。为了计算特征的权重,本文从不同的角度提出了两种权重学习算法——基于错误驱动的特征权重学习算法和基于免疫进化的特征权重学习算法,并且从实验上验证了这两种算法的有效性。
其他文献
目的 将细节护理应用到消毒供应室的预防工作中,观察工作差错率和灭菌消毒服务满意度.方法 选取我院2019年1月至10月在消毒供应室的20名工作人员为研究对象,随机分为对照组10
目的 研究分析糖尿病黄斑水肿(DME)患者中应用577 nm阈值下微脉冲激光光凝治疗的临床效果和安全性.方法 选取我院2018年2月至2019年6月收治的60例确诊为糖尿病黄斑水肿患者为
随着社会经济的高速发展,我国的科学技术水平也取得了突飞猛进式的发展,其中在医学领域内,借助于诸多先进技术研发而成的医疗设备、技术,用于患者疾病诊断与治疗中,发挥着非
非结构化补充业务数据(Unstructured Supplementary Service Data,USSD)是一种基于GSM(Global System for Mobile Communications)的新型交互式移动数据业务。USSD定义为移动
迅速发展的网络技术正改变着人们的工作、学习、生活模式。在教育的发展中,网络也为其注入了新的活力,网上教育,已成为了现代教育发展的一种趋势。而考试是教育的一个重要组
并行计算模型是为研究并行算法的性能,开发具有可移植性并行程序而建立的一种理论计算模型。本文研究面向网格的可扩展并行计算模型与算法设计,构建面向网格环境的可扩展并行算
目的 探讨对老年糖尿病患者加强社区健康教育,其血糖控制情况是否好转.方法 选择2018年在我社区医院签订家庭医生服务的老年糖尿病患者共64例,对比初始值及开展社区教育3个月