考虑动态特征选择的增量文本分类研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:woaini009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本自动分类领域,传统的文本分类方法需要大量的已标注文本,学习器通过对已标注训练文本的学习以建立分类模型用于对未知文本进行分类。但是人工获得大量的已标注训练文本的成本代价高,制约了整个分类系统的构建,“标注瓶颈”问题日益显著。增量文本分类技术能够在小规模初始已标注样本集信息不足的情况下,充分学习利用大量易得的未标注训练样本。而高维度的中文文本信息的处理对已有的特征选择算法与分类器的有效契合提出了严峻挑战,迫切需要能对特征选择算法进行高效利用。在增量文本分类领域,特征选择策略的研究显得尤为重要。本文在动态特征选择策略与增量学习技术的结合方面开展了研究。   目前的增量学习方法在进行特征选择时,一般没有考虑不同内容、不同数量的新增训练样本所蕴含的有用信息量对于提高分类器学习性能的贡献大小的区别。面对大规模、高维度的待处理中文文本,本文提出了一种考虑动态特征选择的增量文本分类方法,并基于增量贝叶斯分类模型进行了实验验证。这种基于如何高效利用新增未标注训练集有用信息的策略,其关键点在于并非每次增量学习后都进行特征选择,而是在每次增量学习后对是否值得进行特征选择作评估,以确定特征选择的“时机”。   本文使用两种评估新增文本信息的方法以支持动态特征选择策略。一种方法首先将增量学习过程中的特征集分为三部分:每次特征选择后产生的实际用于构造分类器的有效特征空间部分和可能用于构造分类器的候选特征空间部分;相邻两次特征选择间的新增特征集部分。以特征选择的计算代价为出发点,通过计算相邻两次特征选择间不同特征集的累积信息熵值变化量决定当次增量学习是否进行特征选择。当信息改变量达到适当阈值要求时,认为“值得”进行一次特征选择,并重新构造分类器;否则,每次迭代后只修改三个特征集中统计参数。此外,另一种方法基于动态特征选择策略原理,用最优文本数作为判断依据,认为当两次特征选择间进行若干次增量学习后执行一次特征选择是可接受的。文章最后分别对基于动态特征选择策略的两种判断准则进行了仿真实验,验证了本文方法在保证原有分类精度的前提下提高了分类效率。
其他文献
2006年1月,国家商用密码管理办公室公布了SMS4算法,它是一种用于无线局域网产品分组对称密码算法,是国内官方公布的第一个商用密码算法。SMS4算法作为公众信息安全建设的基石,应
分子动力学模拟是一种依靠牛顿力学原理来模拟分子体系运动的方法。它能跟踪每个粒子的个体运动,准确记录每个时刻各个粒子的位置和动量,即相空间的运动轨迹;再通过统计力学计算
客观世界是三维的,对三维物体进行分析在很多领域都有重要应用,利用简单的二维信息获得三维模型是人们一直探索的主题。现在有很多种重建三维人脸模型的方法,可以根据单幅图像或
网络编码自提出以来得到了巨大的发展,并且在许多方面被广泛应用。网络安全是网络编码的重要的应用领域之一。而安全网络编码最主要的两方面就是防止窃听攻击和拜占庭攻击这两
随着无线通信业务的高速发展,所需要的无线频谱资源越来越多,频谱资源越来越贫乏。为了提高授权频段的利用率,这迫使我们必须寻找新的技术来提高频谱利用率,感知无线电正是在这种
设备是企业进行生产和经营最主要的物质基础,是企业进行生产的重要工具和手段,是企业生产力水平的象征,也是衡量企业市场竞争力的重要指标,因此做好企业设备管理相关工作对企
活动轮廓模型是于上世纪80年代末发展起来的一种用于图形图像处理的数学方法,具有方便建模和提取任意形状物体边界轮廓的良好特性,主要分为参数活动轮廓模型和几何活动轮廓模型
随着计算机、无线通信等技术的飞速发展,物联网应用日益普遍,物联网正慢慢融入人们的生活。2009年,国内外学术界开始提出能够利用物联网等互联互通的技术构建出一个智慧地球,改变
Ad Hoc网络不依赖于任何固定的基础设施,具有快速组网、抗毁性强、自组织等特性,被广泛应用于军事领域和民用领域。因其动态拓扑结构、开放媒介、节点能源有限等特点,Ad Hoc
随着计算机硬件和图像处理技术的快速发展,计算机视觉技术逐渐走向实用化,如在当前的航天遥测、生物医学、智能导航、虚拟现实、农业产品分级、军事侦察、零件测量和物联网等