【摘 要】
:
为了解决文本分类任务中未标注数据无法即时标注及成本过高的问题,提出一种面向文本分类的不确定性主动学习方法.提出MSDL(Measure sample density by LDA)算法对未标注样本
【机 构】
:
南京理工大学计算机科学与工程学院,南京 210094;中电科大数据研究院有限公司,贵阳 550022;提升政府治理能力大数据应用技术国家工程实验室,贵阳 550022;南京供电公司,南京 210000
论文部分内容阅读
为了解决文本分类任务中未标注数据无法即时标注及成本过高的问题,提出一种面向文本分类的不确定性主动学习方法.提出MSDL(Measure sample density by LDA)算法对未标注样本密集度进行计算,引入新的度量样本聚集情况的密集度计算方式,在密集度高的样本区域选取初始训练集样本,从而使初始训练集更具代表性;从未标注样本中选取更具不确定性的样本加入到训练集中,并基于信息熵对样本进行加权训练,迭代更新分类器模型,直至达到预期终止条件.实验结果表明,在文本分类任务中,该方法相较于其他传统主动学习算法性能更优.
其他文献
采用正交实验设计方法研究了复合添加稀土Ce、Sn、Al及B等合金元素对H62双相黄铜显微组织结构和力学性能的影响。结果表明:稀土等合金元素的加入明显增加了合金中的β′相数
采用等离子粉末堆焊工艺在316H不锈钢表面堆焊Tribaloy??T400?(T400)?合金涂层,研究焊接时不同焊接热输入对堆焊件表面形貌、成分、维氏硬度、摩擦因数以及磨损质量的影响.结
贝氏体组织通常具有良好的韧性,尤其是当韧性为零件的主要性能要求时,最好进行贝氏体等温淬火。有文献报道过贝氏体的这一特性与回火马氏体的比较。高碳钢可能脆性较大,但它
海底沉积物中稀土元素的分布特征受很多影响因子的影响,很难定量分析。北部湾沉积物稀土元素(ΣREE)与物源、水动力、沉积物粒度和粘土矿物百分比等关系定性分析显示,本区的
探究热轧盘条组织及织构对桥梁缆索钢丝扭转性能的影响。利用扫描电镜(SEM)观察了热轧盘条的组织,并利用电子背散射衍射技术(EBSD)分析了热轧盘条的织构,最后根据扭转时的应
废胶粉可改善沥青的高低温性能,但经传统热拌工艺改性的沥青,因其性能不稳定和气味问题而被限制广泛应用.传统乳化沥青混合料黏结性差、高温强度低、抗水损害能力差,且存在拌
在增长核算框架下,财税、金融、土地、户籍、行政、国企、对外开放等重点领域改革通过要素投入和TFP两条渠道,效率改善、技术提升和要素投入增加等三种效应促进经济增长。改
请下载后查看,本文暂不支持在线获取查看简介。
Please download to view, this article does not support online access to view profile.
面对世界经济发展重心的东移大势,应对美国诱使海域主权争端的事件频发,认定中国急需打造一个战略平台,以促成国家海洋战略推进的整体阵容,于是世界海洋城市总部便会应运而生
目前,我国国内的企业尚未掌握八效板式蒸馏沙漠苦咸水淡化装置的核心技术,多以国外公司代工生产、单一仿造成熟产品、获取产品许可证等方式维持生存,产品性能与生产规模均十