基于多示例多标签框架的网页分类信息丢失的研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:wudizeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,网络成为人们获取信息的主要来源,如何从网络中挖掘出有用信息并找出相关规律,已经成为当前研究的热点。网页分类是一种组织和分析网页信息的技术,它能够对网页实现类别标注。多示例多标签是一种新的学习框架,其在分类领域表现良好。因此,将网页分类和多示例多标签相结合十分有意义。本文阐述了网页分类算法,介绍了多示例多标签学习框架,分析了MIMLBOOST与MIMLSVM两种算法。真实世界中的事物往往是多语义的,将多个示例集合映射到多个标签集合上才能更好地反映真实世界。在解决多示例映射问题时通常采用退化机制,将多示例多标签退化为单示例单标签,但是退化过程中可能丢失重要信息从而影响分类结果。针对网页分类准确率低问题,提出了基于混合高斯模型的聚类算法。混合高斯模型可以逼近样本点的分布,通过概率模型计算样本点类别,然后采用EM算法对高斯模型进行参数优化,重新计算后再基于退化算法来提高分类准确率。针对退化过程中忽略示例之间联系造成信息丢失问题,采用基于权重排序的算法。通过聚类加强示例之间的联系,再利用TF-IDF算法对标签加权,对于权重低于阈值的标签,不与示例包结合。这样一方面增强了示例之间的联系,另一方面使正负样本趋于平衡。改进后的算法减少了重要信息的丢失,提高了分类效率。最后,将改进后的算法应用到网页分类系统中,并对该算法进行实验对比和性能分析。实验数据表明,本文算法具有更好的分类效率。
其他文献
大气压等离子体射流可以产生富含活性粒子的等离子体羽,在许多领域都有很大的应用潜力,比如污染治理,表面改性,流动控制等。等离子体羽的形貌决定了其中活性粒子的空间分布,是等离子体射流的重要参数之一。然而针对等离子体羽形貌的研究还比较缺乏。针对于此,本论文利用不同频率的正弦电压激励等离子体射流产生了几种不同形貌的等离子体羽,并对其放电特性和形成机制进行了研究。利用频率为数千赫兹的偏置正弦电压激励氩气等离
随着我国对燃煤电厂污染物排放标准的要求越来越严格,循环流化床机组利用SNCR脱硝系统对NO_X进行脱除的过程中,在实现NO_X排放浓度达标的同时也带来了一些问题,比如脱硝控制
在当前人类所面临的环境和能源问题中,氧化物半导体扮演着重要的角色,在太阳能及化学能转化、生物能源制备、有机废料处理、二氧化碳的收集与活化转化等领域应用广泛。ZnO作
在进口跨境电子商务市场竞争逐渐激烈的环境下,进口跨境电商企业为争夺市场份额以各种方式打起“价格战”,如折扣、满减、降价等。除了透明的价格竞争之外,免费配送作为一种
炭材料由于具有高比表面积、高导电性和优秀的物理化学稳定性被广泛地应用于超级电容器电极材料,然而炭材料的容量主要来能量密度有限的双电层电容。相比而言,赝电容材料可以
掠蛛亚科Drassodinae隶属于蛛形纲Arachnida、蜘蛛目Araneae、平腹蛛科Gnaphosidae。目前,掠蛛亚科全世界已知7属237种,中国仅记载掠蛛属Drassodes(19种)和神掠蛛属Sidydrassodes(1种)。全文共记述了掠蛛属Drassodes 31种(含10新种和2中国新纪录种),神掠蛛属Sidydrassodes 2种(含1中国新纪录种)。本文中详细介绍了中
金属棒材在航空航天、汽车、船舶等行业有许多应用,根据不同的使用要求,有时会对棒材的直线度有一定的要求,需要对棒材进行矫直。棒材在矫直过程中发生弹塑性变形,所以对棒材回弹的预测产生了很大麻烦。为了准确预测棒材在矫直过程中的瞬时回弹,对棒材的基本性能,弯曲规律以及应力应变分析就显得十分重要。本文的主要研究内容如下:建立理想弹塑性模型,对金属棒材在弯曲条件下应力-应变进行分析,分析了棒材曲率变化与棒材变
昆虫的嗅觉系统在适应环境方面起着不可替代的作用,对它们的行为有着重要的影响。长足大竹象(Cyrtotrachelus buqueti)危害各种丛生竹类,是一种重要的钻蛀性林业害虫,主要分
随着Internet的普及,网络已经成为人们获取信息的主要途径,为了方便人们从海量网页中获取有用的信息,一种网页自动分类技术应运而生。鉴于多示例多标签(MIML)框架在歧义性学
采用高温固相法合成了以Sr_6Ca_4(PO_4)F_2为基质的系列荧光粉Sr_6Ca_4(PO_4)6F_2:x Ce3+、Sr_6Ca_4(PO_4)6F_2:0.14Ce3+,y Tb3+、Sr_6Ca_4(PO_4)6F_2:0.14Ce3+,z Sm3、Sr_6Ca_4(PO_4)6F_2:0.14Ce3+,w Tb3+,0.13Sm3+、Sr_6Ca_4(PO_4)6F_2:0.14C