基于多示例和多标记学习的文本分类技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:liuyansua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和数字媒体技术的普及,数字文本的数量迅速增加,文本分类问题受到了研究者们的广泛关注。多示例学习由于其强大的表示能力可以更好地描述文本数据。许多情况下一个文档与不止一个概念标记相关,多标记学习可以刻画这种同时具有多个标记的对象。本文尝试利用新型的多示例学习和多标记学习技术辅助提高文本分类技术的性能。  本文取得的创新成果主要包括:  1.针对文本数据维度很高的问题,提出了一种多示例降维方法MIDR。通过设计出基于关键示例假设的多示例降维优化目标函数,以及切空间梯度下降方法,可以有效地对多示例数据进行降维。  2.针对用户对文本数据进行标注时往往只给出部分标记的问题,提出了一种多标记学习方法WELL。通过设计出基于密度划分假设和显式处理标记不均衡性的优化目标函数,以及利用相似标记共享低秩基,可以有效地对标注不完整的样本进行多标记学习。  上述工作均经过大量实验验证,并在人工智能领域的顶级国际会议AAAIConference on Artificial Intelligence2010发表。
其他文献
随着社会的发展、科技的进步,单纯的由软件服务提供商提供软件,客户自己提供IT基础设施和人力对软件进行维护已经远远不能满足客户的需要。尤其是对于中小型企业来说,自己维
随着电子商务和web 2.0应用的发展,越来越多的消费者在购买和使用产品之后,喜欢在电子商务网站、论坛、博客发表对产品的观点态度,这些评论包含了用户对产品的特征,功能,性能
随着计算机网络与技术的快速发展,应用服务器机群系统得到了越来越广泛的应用,其中负载均衡技术是应用服务器机群系统能否高效率高可靠性运行提供稳定的服务质量的关键环节。
在三网融合的环境下,业务运行协同平台需要为各种增值业务提供运行环境,包括对各种资源的访问,列如提供对业务数据和用户数据的存储访问,而且还需要为业务的快速开发及部署提
随着计算机软硬件技术的发展,普适计算不断的融入到人们的生活中,它是计算、通信和数字技术等多种技术的融合,提高了工作效率和生活便利性。上下文感知计算作为普适计算的一个重
在大数据集下进行高性能的联机分析处理(OLAP)需要高性能的分析处理引擎。同时面对数据规模的快速增长,OLAP处理引擎需要有很好的扩展性,以适应不断增长的数据规模。为了解决大
随着计算机技术的飞速发展,人们对计算机的应用、对信息的记录越来越多的转向于视频、音频等多媒体上。在互联网上,视频、音频的应用也层出不穷,这些应用使其数据量急剧递增。大
以Web服务为代表的软件服务及软件服务协同已成为一种典型的Internet应用形态。集成单一服务所提供的功能以形成新的、满足复杂需求的服务组合技术已成为提高软件重用性,构造I
网络中的集群行为具有爆发性、复杂性、扩散性、动力性等特征,为网络安全管理带来极大的困难。本研究以网络中的威胁集群行为作为新的视角,以网络安全监测样本数据为基础,结合复
随着无线设备数量的增长和无线服务对频谱需求的不断增加,频谱资源紧张的问题变得日益严重;而另一方面,调查显示大部分的频谱并未被充分利用甚至处于闲置状态。机会频谱接入被