基于机器学习的专利分类研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:einstein_2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实现专利文本的自动分类有着重要的意义。专利以每年几十万条的速度递增,完全依靠人类专家进行分类需耗费大量人力物力。此外,专利分类是专利分析的基础,通过对专利进行分析,可以挖掘出许多有价值的信息,例如某个领域的技术发展趋势,竞争对手的市场策略和研发方向等。然而专利分类是大规模、层次结构、多标号和不均衡的文本分类问题,大多数传统的学习算法都是针对小规模的、单标号且平衡的问题设计的,无法很好地解决类似专利分类这样的复杂问题。支持向量机是一种基于结构风险最小化原则的通用模式分类方法,由于其强大的学习能力和良好的泛化性能,支持向量机已经应用到许多模式分类领域。支持向量机的学习过程是一个求解二次规划问题的过程,其训练时间与训练样本个数接近平方级关系。因此,利用支持向量机解决大规模的实际问题是相当费时的。因此吕宝粮和他的合作者提出了一种并行的支持向量机,称为最小最大模块化支持向量机。它能够将复杂问题分解成一系列简单的容易解决的子问题。这些子问题彼此独立,因此可以利用计算集群实现并行计算。最后将子问题的解通过两条基本的规则进行合并,从而得到原问题的解。本文提出使用最小最大模块化支持向量机来解决专利分类问题。在其基础上,我们提出了利用专利的先验知识的问题分解策略来提高最小最大模块化支持向量机的性能。该分解策略利用了专利的时间信息和分类体系结构的信息,可以实现对问题的有效分解,使得分解结果逼近原始数据的分布情况。传统的分类器如SVM对参数的依赖性较大,为了达到该分类器的最佳性能,需要使用最优的训练参数。然而调参的过程对于大规模的学习问题需要耗费大量的时间。我们发现最小最大模块化支持向量机通过把复杂问题分解为简单子问题,从而降低了与训练参数的依赖性。此外最小最大模块化支持向量机还支持增量学习,这对于专利分类系统具有实际意义。专利分类系统可以学习新的专利知识而无需对已学习过的模块进行反复学习,从而实现快速的系统更新。我们在NTCIR专利数据库上进行的专利分类的仿真实验,比较了不同的数据划分方法的性能以及支持向量机与最小最大模块化支持向量机的各项性能。实验结果证明了基于先验知识的问题划分策略取得了最好的性能,最小最大模块化支持向量机无论是泛化能力还是训练速度都超过了传统的支持向量机。此外我们通过仿真实验,验证了最小最大模块化支持向量机的增量学习能力。
其他文献
随着XML在web应用领域的发展,造成XML文档数量增长异常迅速,有效地存储、查询和索引这些XML数据已经成为web发展的关键问题。目前大部分商业数据库采取的手段,是在现有的数据
快速精确地首次治疗对创伤的治愈有着积极的影响。通过对创伤程度的评估,医护人员将按照合理药量对病人进行输液治疗。特别是对于大量面积的烧伤患者,休克期的准确补液对维护生
复杂网络研究正渗透到数理学科、生命学科和工程学科等众多不同的领域,对复杂网络的研究已成为网络时代科学研究的一个极其重要的挑战性课题。近年来随着计算机技术的快速发
随着互联网应用的不断发展,网络购物逐渐成为一种消费潮流。在线评论作为网络购物的重要组成部分,为网购用户做出购买决策及制造商改善产品提供重要依据。由于在线评论的好坏
Web应用程序是近些年来软件业中发展最快的应用程序之一。Web应用所使用的开发语言和开发模型在不断发展。Web应用本身也越来越复杂。所有这些因素都给Web应用的分析、建模和
电力变压器是组成电力系统的关键设备,其安全运行是保证供电可靠性的基础。导致电力设备失效的主要原因是其绝缘性能的劣化。变压器内部绝缘油在高场强的作用下分解的气体产生的气隙放电约占变压器故障总数的大多数,如何快速、有效、准确地监测变压器内部局部放电的放电量和放电部位是保证变压器正常运行的关键。本文对变压器局部放电现象进行了深入的阐述和分析,提出了局部放电超声定位关键技术的解决方案——通过相关函数法检测
无线传感器网络综合了传感器技术、计算和通信技术,成为计算机科学领域一个活跃的研究分支。在网络结构上,由于分簇结构在降低节点能量消耗及提高网络的可扩展性方面比平面结
SAR(Synthetic Aperture Radar,合成孔径雷达)是一种主动式微波成像雷达,在成像雷达中起到十分重要的作用,在科学探索、国家安全和经济生产等诸多领域已被广泛应用。目前,SAR
不断发生的信息安全事故,使信息安全成为广泛关注的焦点,传统的以静态保护为主的数据库安全技术,不能提供非常有效的数据库安全保护,按照纵深防御的思想,有学者采用入侵检测来弥补
基于视频的实时监控系统是图像处理领域的一个重要分支,在当前社会的实际生活、生产中担当重要的任务。随着人们对监控图像质量的要求日益提高,传统的模拟摄像头已经无法满足实