极小化标注的海洋文献复杂分类

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:tangzai521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类是数据挖掘和机器学习中非常重要的研究领域,本文将文本自动分类技术应用于海洋信息处理,主要研究通过机器学习的方法解决海洋文献分类问题。随着海洋科学和信息技术的发展,海洋科学领域的文献资料大量涌现,使得对其的检索和分类成为急需解决的问题,而人工的信息处理既低效又耗时,于是海洋文本分类当前面临的问题就是一方面人工标注样本成本高且数量有限,另一方面大量极易获得的无标注样本无法得到有效的利用,而无标注样本中的分布信息对我们的文本分类也是有很大帮助的。为此我们引入了机器学习中的半监督学习和主动学习来解决这一问题。传统的机器学习方式分为有监督和无监督两种。有监督机器学习需要较大的已标注样本集,无监督机器学习无法应用少量珍贵的已标注样本且分类效果较差。相比之下,半监督学习具有极大的优越性,可以同时利用少量的有标注样本和大量的无标注样本进行学习,因此我们利用半监督学习中的Co-training算法进行海洋文本分类,构建极小化标注的海洋文本分类系统,通过合理的参数设定,从而达到良好的分类效果。半监督学习在训练时难免会有噪音,从而产生结果偏置的情况,主动学习可以通过选择样本来降低学习模型的偏置和方差。主动学习的研究重点在于学习系统如何利用自身主动学习的能力,以尽可能少的步骤和尽可能低的标注代价实现分类性能的有效提升。本文将半监督学习与主动学习相结合,通过主动学习方法的引入来进一步提高极小化的海洋文本分类系统的性能。本文的目的在于构建一个基于极小化标注的海洋文献复杂分类系统,其完成的功能主要包括:(1)海洋文献与非海洋文献之间的是非分类,这属于文本分类的二分类。(2)海洋文献精细分类。将海洋文献自动分类到各个子类别中,属于文本分类的多分类。(3)极小化标注的海洋文献分类。通过引入半监督学习,我们构建了极小化标注的海洋文献分类系统,同时为了提高分类的准确率,我们考虑通过将半监督学习与主动学习相结合的方式实现海洋文献的精细分类。该系统的实现有利于提高海洋文献的检索效率,有助于整合海洋领域文献以利于涉海领域资源的有效利用。
其他文献
随着以太网的普及和宽带应用的发展,光纤到户(FTTH)被普遍认为是一种理想的综合接入方案。自2003年起,ITU-T陆续推出了G984.X系列标准来定义吉比特级无源光网络(GPON)系统。G
边缘是图像最基本的特征。边缘检测是图像处理领域最重要的研究课题之一,在模式识别、纹理分析、特征提取领域有着广泛的应用,受到学者的广泛关注。目前在边缘检测研究领域已
现代计算机技术的迅猛发展极大地促进了科学计算可视化的发展,二维离散矢量场可视化是科学计算可视化的重要组成部分。目前,可视化的应用领域十分广泛,几乎涉及自然科学与工
时延测试是检验电路时序正确性的有效手段,作为集成电路测试的一个关键环节,在芯片制造中被广泛使用。国际半导体蓝图预测2020年集成电路特征尺寸将达到10纳米,不断提高的工
数据库技术是信息化社会的重要基础,数据库课程是国内高校计算机专业的必修课程。数据库教学中高效能、高质量实验技能训练,对提高课程的教学质量起着至关重要的作用。因此,
麻醉机作为在现代医疗中必不可少的器械之一,不仅可以在病人手术中进行全身麻醉使用,而且还可以替代危重病人的自我呼吸。麻醉机系统是一个复杂的系统,它涉及到机械、控制、
随着互联网和移动互联网的快速发展,如何高效地组织和管理海量的网页信息越来越成为棘手的问题。网页分类研究作为Web挖掘的一个基础步骤,在搜索引擎、主题爬虫和维护目录式
随着移动智能手机设备的广泛使用和针对手机的移动应用开发技术的迅速发展,用户界面设计变成了一项复杂和耗时的工作。研究一种有效率的用户界面开发方法,对于减少界面设计的
全球信息化时代的到来,使得信息技术在各行各业的应用日益广泛和深入。在这样一个时期,信息安全保障工作,尤其是确保基础网络、重要信息系统和信息内容的安全,已成为信息化发展中
在社会高度信息化的今天,社会生产生活高度依赖软件系统,因此软件系统的安全性与可靠性也就显得愈加重要,通过形式化验证的方式保证程序的安全是一种重要的手段。形式化验证