期刊专题 | 加入收藏 | 设为首页 12年实力经营,12年信誉保证!论文发表行业第一!就在400期刊网!

全国免费客服电话:
当前位置:首页 > 免费论文 > 经济论文 > 国内经济 >

个人信用风险评估关键技术研究

[摘要]将随机森林与Logistic回归模型相结合,研究了大数据环境下的个人信用风险评估问题,对用户画像构建、大数据预处理方法、风险计量模型以及评分系统开发步骤等关键技术进行了讨论,并对应用前景进行了展望。

[关键词]大数据;个人信用风险评估;随机森林

一、引言

央行征信系统是目前世界规模最大、收录人数最多、收集信息全面、覆盖范围和使用广泛的信用信息基础数据库,其存在一些结构性的缺陷,直接影响了互联网金融和其他小型金融机构对客户综合信用评估的准确率。例如,虽然央行征信系统已经收集了8.68亿个自然人的信息,但是有信贷记录的人数仅有3亿多人,大量个人在征信系统中没有任何信贷信息;还有近6亿自然人信息没有被央行征信系统收集;央行征信系统信贷记录主要来源于商业银行等金融机构,其数据在时效性、全面性和层次性上存在短板,无法全面反映客户的真实信息;此外,民间借贷信息也不会接入央行征信系统。大数据是目前互联网领域的研究热点之一,为解决央行征信数据缺失情况下准确评估用户信用风险提供了一个方法。利用先进的机器学习理论建立基于大数据的信用评估模型,对用户在网购、交易、社交等平台积累的商誉和行为数据进行整合和分析,从而将商誉信息转化为信贷评级依据,解决交易过程中的信息不对称的问题,既可以对互联网金融、小额贷款公司等金融机构提供一个有力的风险抓手,也可以对在央行征信系统信贷数据缺失或者信用记录不好、资质比较差的客户提供一个获取信用类服务的机会。因此,深度挖掘互联网大数据信息,开发基于大数据的信用风险评估模型,具有十分重要的现理论和意义。

二、国内外典型个人信用评分系统

(一)FICO系统

FICO是FairIsaac公司推出的一套评分系统,在美国得到广泛使用,其实质是应用数学模型对客户信用信息进行量化分析,基本思想是把数据库中全体借款人的信用习惯与具体某个借款人过去的信用历史资料进行对比,分析该借款人未来发展趋势是否与数据库中那些已经陷入财务困境的借款人有共同的趋势,从而决定是否放款给借款人。其判断的指标主要是客户在金融信贷方面的信息,主要包括信贷组合(10%)、争取新信贷(10%)、信贷时长(15%),未偿债务(30%)、付款历史(35%)。FICO采用的数学模型是传统的logistic回归模型,其信息维度过于单一。

(二)ZestFinance

ZestFinance是一家基于大数据的信用风险评估公司,其信用理念是认为一切数据都与信用有关,从多种渠道获取用户数据,充分挖掘用户信用信息[1]。与传统征信体系不同,其数据来源主要包括第三方数据、网络数据、用户社交数据等多个维度,能够在大数据基础上,从多种角度对借款人进行量化信用评估。ZestFinance的信用评估模型基于先进机器学习和集成学习模型,但具体的预测模型细节是其核心机密,其信用评估模型中用到几千个数据项。(三)芝麻评分芝麻评分是蚂蚁金服旗下个人征信机构在国内率先推出的个人信用评分。芝麻信用通过网络数据的收集和评估对不同的个体给出相应的评分,主要考虑个人信用历史、行为偏好、履约能力、身份特征和人脉关系等维度,数据来源于阿里巴巴生态系统数据、政府公共部门数据以及合作机构数据等。评分模型以线性回归和逻辑回归为主,部分模型也涉及决策树、神经网络等现金机器学习技术。

三、构建用户画像

如何有效地收集、组织用户信息,挖掘与业务应用相关属性,是基于大数据的业务分析和建模之前需要重点解决的问题。“用户画像”是指企业通过收集与分析消费者相关的各种大数据信息,完美地抽象出一个用户的商业信息全貌,并针对特定业务场景进行用户特征不同维度的重新组合,精准刻画用户的商业特征[2]。用户画像可以用标签的集合来表述,一个标签可以看作是高度精炼的特征标识,如年龄段标签:25~35岁;地域标签:上海等。对互联网上用户相对稳定的静态信息数据,如性别、年龄、地域、职业、婚姻状况等,直接建立标签;对用户不断变化的行为等动态信息数据,采用事件模型构建标签及对应权重,一个典型事件模型包括时间、地点、人物三个要素,即什么用户、在什么时间、什么地点做了什么事。此外,标签的权重还应当考虑时效因素。

四、大数据预处理

在利用大数据进行个人信用风险评估建模之前,必须对大数据进行预处理,使其满足建模要求,主要包括以下一些处理环节。1.数据收集按照原始数据库和建模数据库分别收集数据,必要时采取补录数据的方式完善建模数据库。2.数据核对需要从表1所示的几个方面进行数据核对。3.数据清洗经过数据核对发现的数据问题,将通过数据清洗处理步骤进行处理。对于有问题的数据,尽量通过调整后使用,经过调整后仍然无法使用的数据,对其进行删除处理。4.单变量分析目的是确保变量满足符合实际业务意义,对分析对象具有高区分能力。(1)变量区分能力分析。往往使用多个统计指标进行计算,例如AR,K-S,等,然后综合各个统计指标的计算结果对于变量进行选择;(2)经济学含义分析。变量应当反映实际业务需要,具有明确的经济学含义;(3)变量转换。变量可能有很多类型,各个变量取值范围也可能有所不同,常用转换方法是将变量转换为概率值。5.多变量分析目的是降低变量间相关性,使模型具有稳定的高区分能力,包含尽可能多的不同信息类型。(1)变量相关性。常用方法有相关性矩阵,聚类分析或者使用容忍度、VIF指标等;(2)区分能力。对于多个变量的组合,除了分析其区分能力的高低之外,区分能力的稳定性也是一个重要的因素。(3)信息类型。模型所选变量对于可能信息类型要尽量涵盖全面,保证模型能够对于分析对象信用状况进行全面的评估。6.变量衍生互联网数据稀疏性强、原始变量业务解释性较弱,因此在模型分析前需生成更加稠密、业务解释性更强的衍生变量。衍生变量主要侧重于商品消费信息。

五、风险计量模型

传统信用风险评估模型在业务逻辑架构下分析变量的基本属性及风险区分能力,用逻辑回归等统计分析模型进行量化分析,得到精确的风险计量结果,然而用户行为数据独有的稀疏性会使得统计模型极不稳定。决策树对局部数据分析有着极强的稳定性和鲁棒性,同时可以揭示变量风险区分能力的非线性结构关系。因此可以将决策树模型和逻辑回归模型进行结合,即在进行统计建模前添加一层决策树模型进行单变量分析,同时利用CHAID决策树生成二元决策树变量,然后将决策树模型的输出结果(单变量、交叉变量及二元决策树变量)一同导入逻辑回归模型中进行统计建模,确定所有风险因子的风险权重。

(一)决策树模型

在决策树各种算法中,CHAID(Chi-SquaredAutomaticInteractionDetection)[3]既适用于二值型变量,也适用于连续型变量。针对每一次分叉,CHAID产生一系列二维,然后分别计算所生成二维表的卡方统计量或F检验。如果几个备选变量分类均显著,则比较P值大小,然后根据P值大小选择最显著的分类变量以及划分作为子节点。

(二)随机森林模型

随机森林(RandomForest)[4]是由美国科学家LeoBreiman2001年发表的一种机器学习算法,包含多个由Bagging集成学习技术训练得到的决策树,最终的分类结果由单个决策树的输出结果投票决定。随机森林克服了决策树过拟合问题,对噪声和异常值有较好的容忍性,对高维数据分类问题具有良好的可扩展性和并行性。

(三)逻辑回归模型

逻辑回归模型是因变量服从二项分布,且自变量的线性预测与因变量的logit变换相连接的一种广义线性模型。如果样本分布服从多元正态分布,那么该样本正好符合对数回归的假设,对数模型的误差项服从二项分布,在拟合时采用最大似然估计法进行参数估计。

六、系统开发关键步骤

根据前述风险计量模型,大数据环境下建立个人信用风险评估系统的关键步骤如下:不难看出,通过上述方法建立的系统具有以下优点:(1)以传统模型为基础搭建,保留传统模型的业务解释性和稳定性;(2)以随机森林模型为基本架构搭建了随机模型,克服了传统模型对数据噪声亦比较敏感的缺陷,使该系统的泛化性与稳定性有了进一步的提高;(3)克服了传统模型一般只能容纳10-15个变量的缺陷,该系统可以涵盖100+个变量。可以从源头杜绝用户刷分现象,提升公信力;(4)在应用层面的高度稳定性与业务解释性,使其有着比纯粹机器学习模型更广泛的应用空间。

七、应用展望

通过上述方法在大数据环境下建立的个人信用风险评估系统,可以在以下一些方面进行广泛应用。

(一)征信多元化

传统金融机构的征信信息来源主要是央行征信,但央行征信仅有3亿多人有信贷记录,信贷记录又主要来源于商业银行和农村信用社等金融机构。随着互联网不断渗入人们生活,互联网行为数据是央行征信的有效补充,可以不断强化征信数据的时效性、全面性和层次性,从无形中记录用户的行为,去伪存真,还原真实的客户。从而大大提升信息的利用率和有效性。同时,大数据风险模型的应用,可以不断提高金融机构风险识别、计量能力,从而不断完善征信信息体系架构,为精细化风险定价提供必要的基础和土壤。

(二)授信审批自动化

随着大数据模型开发技术与内部评级体系建设的深度融合,金融机构可更加广泛和全面地将评分/评级结果应用于授信审批,为贷款决策提供参考和支持。大数据风险模型优秀的风险排序及区分能力能够大力推进自动化审批的进程及线上产品的改革与创新。对模型评分高于一定级别且满足其它授信决策条件的,授信申请可以自动通过,不需要再经人工审核,对于评分低于一定级别的,模型自动拒绝其申请;只有评分介于以上两者之间的客户,才由人工介入进行申请审核。

(三)风险监控与预警精确化

风险监控与预警是指借助各类信息来源或渠道,通过对数据与信息进行整合与分析,运用定量和定性分析相结合的方法来发现授信客户及业务的早期风险征兆,准确识别风险的原因,分析其可能的发展趋势,并及时采取有针对性的处理措施,控制和化解授信风险的一系列管理过程。大数据风险模型较传统内部评级体系更为精细和灵敏,可以快速识别贷后风险,为不同的用户设定不同的监控频率、自动筛选高风险客户,制定有针对性的贷后管理措施、贷后管理工作等。

[参考文献]

[1]刘新海,丁伟.大数据征信应用与启示——以美国互联网金融公司ZestFinance为例[J].清华金融评论,2014(10).

[2]余孟杰.产品研发中用户画像的数据模建——从具象到抽象[J].设计艺术研究,2014(12).

[3]黄奇.基于CHAID决策树的个人收入分析[J].数学理论与应用.2009(12).

[4]董师师,黄哲学.随机森林理论浅析[J].集成技术,2013(1).

作者:林汉川 张万军 杨柳 单位:对外经济贸易大学 北京大学新闻与传播学院


    更多国内经济论文详细信息: 个人信用风险评估关键技术研究
    http://www.400qikan.com/mflunwen/jjlw/gnjj/118480.html

    相关专题:中国南海填海造地 战胜自我作文


    上一篇:医师对临床医学信息的认知
    下一篇:小议高校大众艺术体操普及现状

    认准400期刊网 可信 保障 安全 快速 客户见证 退款保证


    品牌介绍