论文部分内容阅读
实现专利文本的自动分类有着重要的意义。专利以每年几十万条的速度递增,完全依靠人类专家进行分类需耗费大量人力物力。此外,专利分类是专利分析的基础,通过对专利进行分析,可以挖掘出许多有价值的信息,例如某个领域的技术发展趋势,竞争对手的市场策略和研发方向等。然而专利分类是大规模、层次结构、多标号和不均衡的文本分类问题,大多数传统的学习算法都是针对小规模的、单标号且平衡的问题设计的,无法很好地解决类似专利分类这样的复杂问题。支持向量机是一种基于结构风险最小化原则的通用模式分类方法,由于其强大的学习能力和良好的泛化性能,支持向量机已经应用到许多模式分类领域。支持向量机的学习过程是一个求解二次规划问题的过程,其训练时间与训练样本个数接近平方级关系。因此,利用支持向量机解决大规模的实际问题是相当费时的。因此吕宝粮和他的合作者提出了一种并行的支持向量机,称为最小最大模块化支持向量机。它能够将复杂问题分解成一系列简单的容易解决的子问题。这些子问题彼此独立,因此可以利用计算集群实现并行计算。最后将子问题的解通过两条基本的规则进行合并,从而得到原问题的解。本文提出使用最小最大模块化支持向量机来解决专利分类问题。在其基础上,我们提出了利用专利的先验知识的问题分解策略来提高最小最大模块化支持向量机的性能。该分解策略利用了专利的时间信息和分类体系结构的信息,可以实现对问题的有效分解,使得分解结果逼近原始数据的分布情况。传统的分类器如SVM对参数的依赖性较大,为了达到该分类器的最佳性能,需要使用最优的训练参数。然而调参的过程对于大规模的学习问题需要耗费大量的时间。我们发现最小最大模块化支持向量机通过把复杂问题分解为简单子问题,从而降低了与训练参数的依赖性。此外最小最大模块化支持向量机还支持增量学习,这对于专利分类系统具有实际意义。专利分类系统可以学习新的专利知识而无需对已学习过的模块进行反复学习,从而实现快速的系统更新。我们在NTCIR专利数据库上进行的专利分类的仿真实验,比较了不同的数据划分方法的性能以及支持向量机与最小最大模块化支持向量机的各项性能。实验结果证明了基于先验知识的问题划分策略取得了最好的性能,最小最大模块化支持向量机无论是泛化能力还是训练速度都超过了传统的支持向量机。此外我们通过仿真实验,验证了最小最大模块化支持向量机的增量学习能力。