论文部分内容阅读
信贷业务是商业银行的主要利润来源,贷后风险管理主要由省级和各地市级分行承担,现有贷后风险检测主要依据总行下发的风险指数、信贷客户的财务信息、客户交易等信息,缺少分析信贷客户所在的行业信息等外部数据对风险的影响,而这些因素会影响用户的资金偿还能力。其次,贷后风险指标和评估具有一定滞后性。现有风险指标数据多是选择同比波动检测,指标出现异常时,风险已经发生,带来的损失往往很难挽回,同时对于贷后管理周期的不同阶段处理方式单一,没有体现不同阶段的贷后风险差异。因此,融合更多贷后风险关联数据,对风险指标进行过程化更新和实时学习、优化贷后风险管理流程具有重要意义。针对贷后风险现行指标不能反映信贷客户的行业风险问题,提出了融合多源数据的贷后风险评估框架。结合银行现有指标数据,信贷客户原始数据,以及外部的行业和地区数据,利用多源数据对风险指标进行学习;提出了概率包裹式特征选择方法,对多源数据进行集成特征分析。通过计算外部行业和地区数据的相似度,划分相似行业和地区。选用两个信贷数据集分析验证特征提取的有效性,增加外部数据和补充内部数据,并根据外部行业和地区数据的相似度筛选可疑数据,提高了预测准确率。针对贷后风险预测的滞后性,使用基于时间窗口的动态模型,对贷款的生命周期进行建模,动态选取处于不同信贷阶段的相关数据,依据分类误差学习不同时间窗口在信贷风险分析过程中的权重。针对实际数据集,通过与其他风险预测方法对比,验证时间窗口动态模型的有效性。针对信贷数据样本的不平衡性问题,即不良贷款的样本数量远远小于正常贷款的样本数量使得负样本被覆盖而误分类,进行两方面改进,一是提高不良样本在学习数据集中的占比,通过对确定的异常样本,结合外部数据分析结果筛选相关数据集合;二是建立异常样本动态反馈机制,通过优化货后风险评估流程对不良贷款样本进行迭代分析,利用粒子群优化算法对筛选后的不良样本进行特征学习。针对两个数据集,实验验证数据筛选和反馈机制的效果,通过优化算法学习参数,分析贷后风险预测准确率。