基于SPN的文本分类

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：fch_ray

【摘要】

：

随着信息社会的发展，互联网上的信息爆炸式增长，其中百分之七十是文本信息的形式，如何有效的管理这些芜杂的文本信息，快速准确的找到用户需要的信息，这是一个重要的研究领域。而文

【作者】

：

李俊

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2016年期

【关键词】

：

数据管理文本分类特征抽取和积网络节点结构

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息社会的发展，互联网上的信息爆炸式增长，其中百分之七十是文本信息的形式，如何有效的管理这些芜杂的文本信息，快速准确的找到用户需要的信息，这是一个重要的研究领域。而文本分类作为组织和处理海量文本数据的关键技术，可以帮助用户快速的获取需要的信息。本文先介绍了现有文本分类的问题，做特征抽取的原因。和积网络(Sum-Product Networks)是近几年提出一种深度概率模型，通过大量多层次的隐层节点表示输入数据中的抽象信息和全局信息。本文提出了一种基于和积网络的特征抽取的方法，从数据中无监督学习SPN并使用所学到的SPN隐层节点作为新特征，在分类实验上取得了比使用原特征更加好的效果。最后本文进行了详尽的实验对比和分析。本文的主要工作集中在以下几个方面:　　1.为了更好的利用SPN进行特征提取，本文提出对SPN结构学习的改进算法。通过本文提出的节点合并，枝叶修剪，限制sum子节点的个数和分布离散化等方法，学习得到一个更加好的SPN结构。由于特征过于冗杂会产生过拟合等问题，对此本文提出了结构合并算法，通过节点合并对SPN结构进行优化，将网络上相近的节点和子网络进行自底向上的合并，从而得到一个紧凑的SPN。本文提出了枝叶修剪方法，去掉类别辨别力较差的子SPN或者节点，得到更加好的特征表示。为了得到更加多的抽象信息，本文提出了限制sum子节点的个数的方法，从而学到一个更加深度的表示，具有更加强的表达力。相比原SPN结构，使用改进的SPN结构生成的新特征，会在分类精度上有一定的提高。本文还提出了三种不同的参数学习方法，并且学到了更加好的分类特征值。此外本文还进行了判别式SPN的学习，该方法可以直接对数据进行分类。　　2.本文提出了多种新的基于SPN的特征生成算法。本文使用经过改进算法学到的SPN结构，提出三种不同的选取非终结点的方法作为新的特征。每个新生成的特征代表原始输入数据部分变量的联合概率分布，从而对数据进行新的表示。本文还对新生成的特征进行归一化分析和特征选择，新生成的特征具有更加强的类别辨别力。　　3.本文做了详细的实验分析。本文在二十一个数据集上，各比例的特征数量下，发现新得到的特征集合取得了比原特征集合更加好的分类精度。新生成的特征的平均类别辨别力，远大于原特征的平均类别辨别力。

其他文献

基于TMS320DM642 DSP的H.264编码器结构设计与实现

随着因特网的日益普及、第三代移动通信技术的广泛使用和多媒体业务的迅猛发展,视频应用领域不断扩大,开发高质量、高性能的嵌入式视频压缩系统具有重要的理论意义和实用价值

学位

H.264DSP结构设计帧间预测优化

序列图像中的运动目标检测算法研究

利用图像序列进行运动目标的检测是很多计算机视觉应用的基础步骤。视频中的运动物体往往是需要关注的目标，运动目标检测算法的目的就是找到和提取这些目标的所在区域。传统的

学位

计算机视觉运动目标检测算法序列图像背景减除法

异构网络干扰管理研究

随着宽带多媒体及互联网业务的迅猛发展，未来移动网络在技术变革的同时将更加关注用户体验质量(Quality of Experience，QoE)。除了提高系统吞吐量性能，对各种新兴业务的支撑能力

学位

无线通信异构网络干扰管理资源分配

基于图像显著性与PLSA-GMM的自动标注技术研究

近年来，在基于内容图像检索研究领域，由于图像底层视觉特征与高层语义间“语义鸿沟”问题的存在，图像语义自动标注技术得到了广泛的研究。本文主要围绕着图像自动标注技术开展工

学位

图像特征标注模型高斯混合模型概率潜语义分析反馈日志

水声信道中MFSK通信研究

随着水下资源勘探和海上军事安全的急切要求，水下通讯技术的探索与应用实践受到极大关注。特别是近些年水下通信网络的广泛关注，使可靠水声通信成为了研究热点。　　水声信道具

学位

水声通信分集技术联合译码水下通信网络多进制频移键控

载波聚合场景下多点协作及多天线技术的研究

随着移动业务的不断发展升级,对数据速率的要求不断提高,进而要求更大的系统带宽。在IMT-A明确最大支持100MHz系统带宽之后,]LTE-A作为IMT-A候选技术之一既要满足这一指标需

学位

载波聚合多点协作改进的颜色敏感图着色秩自适应多载波联合空域扩展比例公平调度

浅谈电子信息的安全存储及有效利用

摘要：电子信息是当前时代最重要的信息类型之一，笔者在高中学习以及日常生活中也时常应用到电子信息。基于此，笔者在搜集了相关资料、查阅了大量文献的基础上，分别就电子信息的安全存储及有效利用进行分析，包括目前电子信息安全存储的问题和策略、电子信息有效利用的不足和解决策略，并给出相关具体内容，希望为后续工作提供帮助。　　关键词：电子信息；安全存储；有效利用　　信息的存储和利用是对其进行收集和分析的直接目的

期刊

电子信息安全存储有效利用

深裂竹根七根化学成分的研究

深裂竹根七(Disporopsis pernyi)，属于百合科(Liliaceae)竹根七属(Disporopsis)植物。其根具有养阴润肺、生津止渴、祛风除湿、清热解毒之功效。多用于虚汗多咳、产后虚弱、月

学位

深裂竹根七根化学成分△~2-(25R)-螺甾-3β-醇(25R)-5β-螺甾-3β-醇B-胡萝卜苷(β-daucosterol)

海底管道泄漏被动检测关键技术研究

海底石油管道和天然气管道一旦发生泄漏，将会造成巨大的经济损失和严重的环境污染。探索海底管道泄漏检测的技术手段是海上油气田安保的重要方面。本文围绕“海底管道泄漏被动

学位

海底输油管泄漏被动检测湍流噪声模型水声信号去噪算法压缩感知

防砂筛管超声检测成像研究

防砂筛管是砂砾储层原油生产的重要技术措施，因井下冲蚀、环境腐蚀或注汽不均匀等因素导致筛管破损防砂失效的事故时有发生。研究防砂筛管的超声检测成像方法，对准确定位防砂筛

学位

防砂筛管超声检测有限元分析三维成像轮廓线提取算法

基于SPN的文本分类

其他学术论文