【摘 要】
:
文本分类是数据挖掘领域的热门话题。从文本数据中快速有效地发掘文本内容信息并根据文本的内容自动对文本进行分类成为数据挖掘领域的主流方向。传统的单标签文档分类假定每
论文部分内容阅读
文本分类是数据挖掘领域的热门话题。从文本数据中快速有效地发掘文本内容信息并根据文本的内容自动对文本进行分类成为数据挖掘领域的主流方向。传统的单标签文档分类假定每个文档属于一个类别,而且不同类别之间彼此独立。但是在实际应用中,一个文档可以绑定到多个标签上,不同文档之间可以共享标签。多标签分类的任务是基于训练得到文档分类模型,对未知标签的测试样本准确的定位到多个类别,更加全面的反映文档的实际特性。文档分类问题可用的机器学习方法包括决策树模型,贝叶斯分类,神经网络模型、主题模型和支持向量机等,通过构建文本分类系统对未知的样本进行自动归类。本文重点在于对多标签文档进行分类,在已知多标签文本的层次结构或者可以发掘数据集层次结构的情况下,对传统的基于主题模型的分类模型进行改进。本文的主要工作包括以下三个部分:1)基于文档标签固有的层次结构,引入隐藏层提出NLDA模型。隐藏层是“主题-标签”对,上层主题和下层标签通过对偶形成全连接结构。对隐藏层计数统计得到下层标签分布,自上而下对文档生成过程进行监督以提高分类精度。2)在NLDA模型的基础上,引入主题层次监督提出NSLDA模型。我们的观察是:文档中主题数量远小于标签数量,因此主题层次的分类精度远大于标签层次的分类精度。研究基于LDA模型得到每个文档主题层的稳定概率分布,并将该概率分布作为输入对NLDA模型的Gibbs采样过程进行调谐得到NSLDA模型。同时,根据层次结构的多样性对NSLDA模型进行扩充,提高模型的通用性。3)构建正负例模型进行模型融合。借鉴集成学习的思想引入增强学习。将主题模型的训练分为两个(正负)训练模型,分别预测得到预测集的标签概率分布,将标签概率按照一定的权重融合得到最终的概率分布,降低模型过拟合的风险。实验结果表明,本文提出的NLDA模型与NSLDA模型在标签层次结构已知的数据集中有良好的分类效果,NSLDA模型又优于NLDA模型。合理选择正负例样本训练模型,并对预测的标签概率分布混合会进一步提升模型的分类性能。
其他文献
将PG玻璃材料制作成的椭圆纤芯引入光子晶体光纤中心,设计了一种石墨烯包层结构的高双折射光子晶体光纤.基于有限元法对该光纤的双折射特性进行了数值模拟,研究了光纤孔径比、孔间距和纤芯椭圆对双折射特性的影响,并以该光子晶体光纤的模场面积和限制性损耗为依据进行了优化.研究结果表明:在波长1 550nm处,光纤双折射率高达0.13,满足高双折射要求;两偏振方向模场面积小于0.7μm2,限制性损耗低于10-6
近年来,随着我国核技术的发展,我国对于加速器的建设及研究已经形成了不小的规模,而粒子加速器在使用过程中会产生对人体危害的电离辐射损伤。粒子加速器在运行过程中会产生
从薄板弹性理论出发,对可实现曲率变化的环形线负载驱动模型进行分析,给出了基于该模型的大镜厚比变曲率反射镜的形变方程.以较小的驱动力实现较大的中心形变为目标,利用MATL
刀具是机械加工过程中的重要执行单元。由于加工环境、加工设备的复杂与多样,刀具磨损的过程也千差万别,而刀具的磨损退化状态又直接影响着加工作业的质量与加工人员的安全。
肠道内的部分异质性微生物因降解氨基酸而产生不少对健康有害的物质,如苯酚、甲苯酚、吲哚、次级胆汁酸和雌性激素等,这些有害物质往往成为诱变剂,在体内长期积累会诱发结肠
近年来,随着我国经济建设的突飞猛进,地下工程不断向着更大的深度发起挑战。在深部地下的特殊地质环境中,除了爆破所产生的冲击荷载会对岩体产生扰动之外,开挖体的强烈卸荷导
随着生产业与贸易的周期性发展,以及国际贸易规则正处于重新构建时期,我国推进“一带一路”战略,积极参与国际规则设定,制定对外开放体制机制,进一步促进改革开放、国际间区域合作和全球经济一体化发展。我国东部地区作为对外开放先锋已取得良好的发展和先进的经验,并开始向西实施产业梯级转移。在新一轮的改革开放中,河南省紧抓郑州航空港经济综合实验区、中国(郑州)跨境电子商务综合试验区、中国(河南)自由贸易试验区建
在长期的生物进化过程中,从酵母的单倍体交配型进化到纤毛虫多样化的交配型细胞,以及高等生物两性配子细胞结合的生殖方式,细胞为彼此识别融合进化出精细的调控系统。单细胞真核生物有性生殖起始于不同交配型细胞的识别结合,不同的调控因子及细胞膜表面蛋白直接参与,起始了有性生殖进程。原生动物嗜热四膜虫(Tetrahymena thermophila)具有7种不同的配对型,不同交配型细胞通过有性生殖过程中基因重排
结合视觉注意机制,通过大量主观实验定量地对影响立体图像视觉舒适度的色度因素进行了研究.首先,结合视差图和平面显著图获得立体显著度图,再利用模糊隶属度和掩膜对其优化得出最终的显著立体图像,并采用眼动仪对所得显著立体图像的合理性进行验证;然后,采用由粗到细的逐级逼近法获得实验数据,利用视觉感知正常的被试者进行主观实验,得到不同场景显著立体图像的舒适色度匹配图和差异图.实验结果表明,左右视图舒适色度区间