大额保险大数据智能反欺诈系统设计

来源 :计算机时代 | 被引量 : 0次 | 上传用户:naughty009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要: 为了更好地识别针对大额保险的欺诈行为,总结了大额保险的主要风险类型,明确了大额保险反欺诈系统的主要构建方向。基于Apriori算法提出了大额保险大数据智能反欺诈系统模型,重点分析了数据统计识别、保险欺诈规律挖掘、保险欺诈行为识别。构建的大额保险大数据智能反欺诈系统经实证运行,结果表明,基于Apriori算法构建的大额保险大数据智能反欺诈系统能快速完成对大额保险欺诈行为的有效识别。
  关键词: 大数据技术; Apriori算法; 反欺诈系统; 实践
  中图分类号:TP311.52          文献标识码:A     文章编号:1006-8228(2021)07-117-03
  Design of big data intelligent anti fraud system for large amount insurance
  Xu Qiumeng, Zhang Minrong
  (1. PICC Property and Casualty Company Limited Shanghai Branch, Shanghai 200010, China; 2. Shanghai Institute of Computing Technology)
  Abstract: In order to better identify the fraud against large amount insurance, this paper summarizes the main risk types of large amount insurance, and defines the main construction direction of large amount insurance anti fraud system. A big data intelligent anti fraud system model for large amount insurance is proposed based on Apriori algorithm, focusing on the analysis of data statistical identification, insurance fraud rule mining, insurance fraud behavior identification. Empirical operation of the constructed big data intelligent anti fraud system for large amount insurance shows that the system based on Apriori algorithm can quickly complete the effective identification of the fraud behaviors against large amount insurance.
  Key words: big data technology; Apriori algorithm; anti fraud system; practice
  0 引言
  大額保险是指投保的保险金额相对较大的人身保险,通常保险金额是在50万以上,投保时需要对其实施契约调查,充分掌握投保人的资产情况,明确投保人的投保动机,身体健康情况等[1]。近年来,在中国经济飞速发展的影响下,国内保险行业迅速崛起,为广大社会群体提供了健康保障。大额保险作为保险行业非常重要的一类产品,具有“避债、避税、传承”的作用,成为了高净值人士投资理财的热门选择,这使得大额保单量持续增加,保额也在不断攀升。
  本文拟根据大额保险的特点,基于关联规则挖掘算法的经典算法Apriori算法,设计一套具有较高可行性的反欺诈系统,期望以此降低保险运营成本,营造一个良好的保险行业环境。
  1 大额保险大数据智能反欺诈系统模型设计
  本文从变量筛选、数据预处理、保险欺诈规律挖掘和行为识别等方面,挖掘数据信息,基于Apriori算法建立大额保险大数据智能反欺诈系统。
  1.1 数据统计识别
  1.1.1 变量选择
  变量筛选主要是从个人行为数据中选择能够反映个人信用的变量。因为互联网上个人行为种类繁多,有些变量能很好体现个人信用度,有些变量则对个人信用的影响不明显。因此,我们需要选择合适变量,才能够准确评价用户的信用度[2]。
  大额保险用户大致可分为以下几个方面。
  用户数据:包括用户的年龄,性别,婚姻,职业,教育程度,收入情况等。
  信用数据:包括用户在银行的征信记录,用户在银行或其他征信公司的征信记录。
  交易数据:包括用户的交易金额,交易频率,交易地点,交易账户等。
  消费数据:包括用户的消费时间,消费地点,消费习惯,消费金额等。
  社交数据:包括用户的好友数量,好友的信用评级,好友的身份特征等。
  除此之外变量之间可能存在一定联系,共同反映用户的某种特性,所以我们要尽量从多个维度来刻画用户的特征。
  1.1.2 数据预处理
  原始数据集常规情况下很难直接将其作为系统数据来源,针对该情况,必须对所收集到的数据作出相应的处理,以确保建模和统计处理的相关要求。
  1.2 保险欺诈规律挖掘
  保险欺诈尽管花样百出,但保险公司有丰富的经验和积累了丰富的数据,那么就能够结合数据掌握其具体规律。目前,不少的保险公司,针对大额保险的欺诈处理,多以保险人员个人的经验为主,并从中总结出相应的规律。   大额保险所出现的欺诈行为分析指标主要包括了欺诈特征、行为特征指标两个部分,抽取其中的一部分的指标用来对Apriori算法进行演示。
  1.3 保险欺诈行为识别
  经由保险公司的信息系统数据库来进行数据的构建,在对传统分析模型进行使用的过程中,结合Apriori算法数据关联挖掘技术,对欺诈行为进行分析、识别和评价。借助欺诈行为发生风险、可能性和成本、指数的分析,总结出一套相应的欺诈风险评价结果,并基于提出反欺诈风险管理策略与监督管理体系。
  考虑到保险欺诈行为的识别业务的特殊性,如果将保险欺诈的挖掘业务模式应用与保险欺诈行为的识别业务中是不可行的。为此,本文在进行欺诈行为识别业务过程中,首先提出了先分布、然后再集中的流程处理模型。保险欺诈行为的详细识别业务模型如图1所示。各个保险公司首先将内部数据库中的业务数据进行数据预处理,所有的公司处理后的数据结构应该是一致的。
  2 大额保险大数据智能反欺诈系统实证分析
  2.1 数据预處理及描述
  本文基于Apriori算法构建大额保险大数据智能反欺诈新系统,具体的操作步骤如下。
  首先扫描整张事务数据库D,设置一个最小支持度Smin,根据最小支持度Smin产生第一个频繁项集S1;由S1执行连接和剪枝操作,产生候选项集的集合,并根据Smin产生频繁项集S2;接下来再由S2产生S3;这样的操作一直进行下去,直到Sk成为空集时结束。
  根据聚类分析中运行效率高低的类别,所有的事务也可以分为五大类。对这五类数据分别使用Apriori算法,找到各自情况下的主要影响因素。所以频繁项集的最小支持度满足:
  [Sminn<An] ⑴
  公式⑴中,[An]主要用于表示第n类运行效率的事务集;[Sminn]主要用于对该事务集的频繁项集的最小支持度进行表示。
  每个影响因素都产生五个“项”,假设最终数据产生的项为B1, B2,B3,B4, C1, C2,C3,D1,...,扫描整张数据表格,根据最小支持度Smin找到第一个频繁项集的集合;在此基础上,连接下一个项,产生含有两个项的候选项集(例如:B1BC2,B1BC3,C2D2,...);剪枝后根据最小支持度得出第二个频繁项集的集合。以此类推,直到最后产生的频繁项集是空集。最终,该算法一共得到五个频繁项集。
  该算法分别找出了可以欺诈行为风险高、较高、一般、较低、低的频繁项集。在这些项集中,所有出现的疑似欺诈行为,都是导致大额保险管理风险的主要影响因素。
  2.2 大额保险大数据智能反欺诈系统实证结果
  2.2.1 系统主体业务流程
  系统的主体业务流程分为四个阶段:
  Step1:数据抽取,系统通过把各个保险公司的大额保险业务数据集合起来并进行预处理,然后把保单数据保存至汽车保险反欺诈系统的中央数据库。
  Step2:数据加工,大额保险反欺诈系统的核必系统通过这些数据进行挖掘,发现其中的规律,并将规律与数据进行保存。
  Step3:数据查询,当各个保险公司的业务员在建立保单时,需要通过大额保险的反欺诈系统进行风险分析,以确定该保单是否接受,当投保人要求理赔时,可以根据分析结果来确定是否应该赔付与赔付的具体额度。
  Step4:数据保存,对于风险特别高的数据,业务员应该保存到大额保险反欺诈系统中。
  2.2.2 试验结果
  将已有的数据分别分为训练集和测试集两个部分,训练集用于反向传播训练系统,测试集用来检验系统输出的误差与精度。将所有数据循环处理一次,时间在0.5s左右,此时的测试误差约15%;循环处理100、1000、2000次系统的预测精度会有明显的提升。最终将2000次循环后的结果等价为:运行效率与其主要影响因素的定量关系。
  将提取主要影响因素的训练结果(CNN4)、不提取主要影响因素的结果(CNN6)以及使用Apriori算法的结果放到一张表中进行对比,结果见表1。
  从表1对比结果来看,Apriori算法考虑全部影响因素的运行效率预测值误差为0.98%;而仅考虑主要影响因素的预测误差0.71%,预测精度都很高,都可以很好地预测运行效率值。
  本系统已经在某财险的部分分公司与某保险的部分分公司试运营,通过半年内的152件减损与拒赔的案件的处理,总共为保险公司减损或拒赔的金额达9638.84万元。
  3 结束语
  近年来,我国各个地区保险欺诈事件的频频出现,且发生率日渐明显。面对这种层出不穷的欺诈行为,保险人士很难经由个人经验来进行有效识别,但随着大数据技术的发展,基于Apriori算法就能够实现对各项数据的关联处理,从而快速完成对大额保险欺诈行为的有效识别。为了能够尽可能地减少欺诈案件,推动社会资金的合理分配与保险行业的正常发展,本文基于Apriori算法构建起了大额保险大数据智能反欺诈系统,较好的实现对现阶段大额保险欺诈行为的有效识别,但该系统还存在一定的局限之处,还需要借助数据挖掘技术对各项业务数据做进一步的挖掘,提高系统运作的有效性。
  参考文献(References):
  [1] 白浩,袁智勇,孙睿等.基于Apriori算法和卷积神经网络的配电设备运行效率主要影响因素挖掘[J].电力建设,2020.41(3):31-38
  [2] 翟继强,马文亭,肖亚军.Apriori-KNN算法的警报过滤机制的入侵检测系统[J].小型微型计算机系统,2018.39(12):2632-2635
其他文献
摘 要: 数据科学与大数据技术专业是一门典型的新工科专业,课程体系是该专业建设的核心。文章分析了该专业建设存在的主要问题,针对目前该专业的课程体系缺少统一标准的现状,依据新工科建设的要求,制定了该专业的课程体系。以长沙理工大学为例,着重介绍其在培养目标、课程设置、培养方向、实践教学等方面的教学改革和实践,为数据科学与大数据专业的建设提供参考。  关键词: 新工科; 大数据; 课程体系; 实践  中
摘 要: 针对新工科背景下信息安全专业创新型人才需求,对本校网络与信息安全专业建设和人才培养模式进行探索,从能力培养体系、课程体系、实践教学体系、教学模式、考核体系等方面进行改革,制定符合本校特色的专业培养方案,并阐述人才培养模式实践过程中教学、实践、科研方面取得的初步成效。  关键词: 新工科; 信息安全; 实践教学; 人才培养  中图分类号:G642 文献标识码:A 文章编号:100
摘 要: 健康大数据与数字医疗的出现使得对复合型的新工科专业人才需求更加迫切。要发展新工科的专业建设,必须结合我国发展现代医学的要求,培养服务于现代医学的专业技术人才。利用先进的人工智能和大数据技术改造传统的生命科学,有助于探索疾病发病机制,药物快速研发,疾病防疫等。文章讨论了发展生物医学信息化技术的新内涵,研究了建设生命科学与计算机交叉的实践教学体系,探讨了新型医学信息技术人才的培养路径。  关
摘 要: 在分析目前高校程序设计类课程教学中存在的相关课程教学内容部分重合、实践教学环节薄弱等问题的基础上,研究从程序设计基础到Java高级应用开发框架的课程教学体系构建。通过合理安排两门课程的教学内容,设计基础知识和应用开发兼顾的教学方案、项目驱动的高级应用框架开发实践,以及理论结合实践的考核模式等改革措施,促进学生动手能力及项目开发实践能力的培养,为程序设计类课程的教学体系构建改革提供可行的方
2021年一季度以来国民经济呈持续稳定的恢复态势,为稳定就业奠定了坚实基础,但疫情对就业的深层次影响仍在持续,2021届高校毕业生就业形势依然复杂严峻。据教育部数据,2021届全国普通高校毕业生总规模909万,同比增加35万。而在电子商务领域,电商企业人才缺口依然巨大,企业招聘需求强烈。  在此背景下,5月26日网经社电子商务研究中心与国内专业电商人才服务商——赢动教育共同发布了《2020年度中国
摘 要: 人才是驱动创新的根本动力,独立学院如何区别于其他高校,结合自身优势,培养出适应时代需要的高素质人才是值得探究的问题。文章提出了独立学院工科人才关键能力的具体内容,从专业能力、社会意识、可持续发展力等方面进行了论述,并结合广陵学院现状提出思考和建议,以期在新工科人才培养中发挥作用。  关键词: 新工科; 工程教育; 关键能力; 人才培养  中图分类号:G648.7 文献标识码:A
摘 要: 为了提高计算机网络技术课程的教学质量,解决传统面对面课堂教学和在线教学存在的问题和不足,提出一种基于超星泛雅平台与雨课堂相结合的混合式教学模式。信息技术教育手段覆盖课前、课中和课后三个阶段,课前和课后使用泛雅平台,课中使用雨课堂,教学过程全程数字化记录。教师通过对教学大数据的分析,实现教学从“经验驱动”向“数据驱动”的转变,能够精准掌握学生的学习过程情况和知识点的掌握情况,从而有针对性地
近日,网经社电子商务研究中心)发布了《2020-2021年中国电子商务法律报告》,这已是连续第九年发布该系列报告。  2020-2021年,互联网领域内的事件频出,例如App违法违规收集使用个人信息遭点名甚至下架、国家出手阿里美团等巨头反垄断行为、直播带货大火背后行业亟待规范、社交电商深陷“涉嫌传销”旋涡、人脸收集安全问题遭质疑、瑞幸财报造假等,一系列乱象足以说明该年度内互联领域内风起云涌。  据
一年一度的年中大促618又到了。作为各大电商平台的年度首个“战点”,2021年5月20日,京东、天猫和苏宁易购等电商都铆足了劲儿,选择在同一日发布促销计划,此外抖音、快手两大电商“新锐势力”也几乎同时发布年中大促计划。  线上线下联动形成品牌“双线销售”势头  网经社电子商务研究中心网络零售部主任、高级分析师莫岱青表示,今年的“618”年中大促将是过去一年数字零售加速落地的验证,所以各家都在摩拳擦
2020年受疫情影响,给宏观经济带来了冲击,汽车消费市场低迷,增速呈下滑趋势。在此背景下,近日网经社电子商务研究中心发布了《2020年度中国汽车电商市场数据报告》。该报告根据网经社电数宝电商大数据库编写而成。报告显示,2020年中国汽车电商市场规模约11275亿元,较2019年的10517.5亿元,同比增长7.2%。  2020年汽车电商市场规模达11275亿元增速下滑  报告显示,2011-20