论文部分内容阅读
随着互联网和数字媒体技术的普及,数字文本的数量迅速增加,文本分类问题受到了研究者们的广泛关注。多示例学习由于其强大的表示能力可以更好地描述文本数据。许多情况下一个文档与不止一个概念标记相关,多标记学习可以刻画这种同时具有多个标记的对象。本文尝试利用新型的多示例学习和多标记学习技术辅助提高文本分类技术的性能。 本文取得的创新成果主要包括: 1.针对文本数据维度很高的问题,提出了一种多示例降维方法MIDR。通过设计出基于关键示例假设的多示例降维优化目标函数,以及切空间梯度下降方法,可以有效地对多示例数据进行降维。 2.针对用户对文本数据进行标注时往往只给出部分标记的问题,提出了一种多标记学习方法WELL。通过设计出基于密度划分假设和显式处理标记不均衡性的优化目标函数,以及利用相似标记共享低秩基,可以有效地对标注不完整的样本进行多标记学习。 上述工作均经过大量实验验证,并在人工智能领域的顶级国际会议AAAIConference on Artificial Intelligence2010发表。