论文部分内容阅读
国务院2003年1月1日起在全国全面实施车险改革。从2003年1月1日起,保监会不再制定统一的车险条款费率。由各保险公司总公司自主制定,修改和调整车险条款费率,报中国保监会审批后,向社会公布实施;保险公司法人机构可以授权各地分支机构对机动车辆保险费率进行“微调”,报所在地保监办审批后向社会公布实施。机动车辆保险费率的改革标志着我国将保险条款费率制定权交给经营主体的开始。机动车险在财产保险业务中有着十分重要的地位,但现行车险条款、费率管理制度已不能适应当前市场经济发展的要求,机动车保险费率不能反映真实的风险状况和市场供求状况,不利于保险公司经营的稳定,不利于整个车险市场的健康发展,不利于充分发挥市场机制的导向作用。在严格监管下的费率执行过程中,保费水平在扣除业务费用、所得税、营业税以及分保费之后,只有业务规模大的保险公司才可以做到收支平衡。有数据显示,目前国内经营情况较好的保险公司的车险赔付率在57%左右。所以在进行费率改革时,市场竞争、科学定位、公平定价、合理分类是保险业发展的唯一出路。在车险费率的厘定中,经验估费系统占有重要位置。其思路是:首先使用某些先验分级变量对被保险人进行分组,形成若干个相对同质的风险集合,并厘定各组的先验保费;然后在此基础上根据被保险人的经验索赔记录对其每年的续保保费进行调整,形成后验保费。经验费率厘定模型建立在损失数据采集和风险分级基础之上,这就决定了保险人经营过程中,如何有效地选择风险分级变量和建立高效的风险分级模型,将直接影响模型的准确性。本文在第1章介绍了经验费率法,重点谈到了NCD制度,并从经济学的角度分析了经验费率的存在区域,这是本文的创新点之一。此后分析了NCD制度在实际运作中出现的问题及原因,提出科学高效的风险分级是NCD成功的前提,也是保险公司产品创新实现个性化服务的前提。第2章主要是分析传统的客户风险分级模型及其缺陷,其中谈到了风险分级变量的选择问题和风险分级模型两方面。在进行风险分级工作之前,我们必须首先考虑风险分类变量的选择,这是车险费率厘定的一个重要环节。在这里,我们将风险分类定义为:针对相同保险责任的被保险人,基于每一个体的风险特征进行分类并确定不同费率。保险人并不是可以采用它所愿意采用的任何变量为保险标的进行分类。分级变量的选择必须考虑到各方面的具体要求,如精算的、经营的、社会的和法律的。同时分级变量过多,使每个级别的保单数量相对减少,这将影响到大数法则的应用。文中简要分析了单步骤法和非参数法模型用于风险分级变量选择的缺陷。传统的风险分级模型有一维和多维分析、最小偏差法和广义线性模型。本文在第2章中一一分析了这些风险分级模型,并指出了它们的缺陷。第3章针对第2章中提出的风险分级变量选择和风险分级模型的缺陷,引入了基于数据挖掘的风险分级变量选择和风险分级,这部分内容是本文的重点。在国外,金融保险业是数据挖掘应用的重要领域之一。已有文献对于数据仓库和数据挖掘技术在保险领域的应用做了探讨,但专门针对车险业务的资料并不多,而系统的研究更是少之又少。本文的创新点在于专门针对数据挖掘技术在车险业务中尤其是风险分级变量选择和风险分级方面的应用进行了系统的研究,利用模拟数据进行了算法设计和分析。保险数据具有动态性、数据类型多、数据量大等特点,而数据挖掘技术对分类数据的适应性很强,具备海量数据处理能力,对于保险数据分析有着很好的效果。数据预处理在整个数据挖掘过程其实占据了大部分的工作量,数据预处理基于这样一个事实:现实世界的数据是肮脏的。即现实世界中的数据库极易受噪音数据、遗漏数据和不一致性数据的侵扰,存在不完整的、含噪音的和不一致的数据是大型的、现实世界数据库或数据仓库的共同特点。脏数据造成挖掘过程陷入困惑,导致不可靠的输出。通过进行预处理,可以提高分类和预测过程的准确性、有效性和可规模性。常用的预处理技术有:数据清理、数据集成、数据规约、数据变换、数据离散化。构建数据仓库也是重要的预处理步骤之一,由于它的重要性,所以单独放在3.1节进行讨论。用于数据分析的数据可能包含数以百计的属性,其中大部分属性与挖掘任务不相关、弱相关或者是冗余的。遗漏相关属性或留下不相关属性是有害的,会导致发现的模式质量很差。此外,不相关或冗余的属性增加了数据量,可能会减慢挖掘进程。由于传统的风险分级变量选择模型存在较大缺陷和主观性因素,所以在3.3节利用模拟数据分析了基于数据挖掘的风险分级变量选择模型――属性相关性分析。它能找出最小属性集合,使得数据类的概率分布尽可能接近使用所有属性的原分布。而且,保险公司还能够针对不同地区,不同客户的风险特点,在经验数据的基础之上选择最有效的风险分级变量,制定个性化保险产品,具有很大的灵活性、准确性,减少了主观性。在3.4节中,分析了基于数据挖掘的风险分级算法――判定归纳树分类。由于受到客户数据的限制,文中以少量虚拟数据进行研究,来发现隐含在客户行为中的规则,将抽象的数据转换成用户可以利用的信息,收到了较好的效果。第4章探讨了数据挖掘技术在金融、保险领域的应用现状和发展前景。目前,中国保险业数据管理应用的普遍现状是:汇集了大量客户信息和业务数据,但因为缺乏挖掘数据背后隐藏的知识的手段和工具,往往导致“数据爆炸但有效信息贫乏”,“信息繁杂但业务知识孤立”――这种局面若无改观,保险公司就会长期处于“低智商”的业务运行状态。目前只能提供统一及时的业务报表,提供集成的客户信息等,但在很多情况下,这些海量数据在原有的作业系统中无法提炼与升华为有用的信息,从而无法为业务分析人员与管理决策者提供决策支持。一方面,联机作业系统因为需要保留足够的详细数据以备查询而变得笨重不堪,系统资源的投资跟不上业务扩展的需求。另一方面,管理者和决策者只能根据固定的、定时的报表系统获得有限的经营与业务信息,无法适应激烈的市场竞争。而数据挖掘技术汇集了统计学、人工智能、数据库等学科的内容,是一门新兴的交叉学科。这门学科旨在帮助人们从海量数据中发现有价值的信息,利用数据挖掘技术不但可以从保险的海量数据中发现隐藏在其后的规律,而且可以很好地降低保险行业的风险,因此,数据挖掘技术构筑了中国保险业的竞争优势。数据挖掘技术在保险领域有着广泛的应用,由于研究时间的限制,本文只针对经验费率法中的风险分级探讨了判定树归纳方法。关于其它数据挖掘技术在保险业中的应用可以作为后续研究的内容。由于客户信息涉及保险公司商业机密和个人隐私,所以本文仅仅使用了少量虚拟数据进行算法分析,这也是本文主要的不足之处。