2018金融风控升级大数据分析报告.pptx
2018金融风控升级大数据分析报告,2,CONTENTS目录,理解金融科技价值开发金融风控模型创新金融风控体系,010203,3,PART,1,理解金融科技价值,4,资料来源:XX,4.3,4.3,4.9,5.9,8.4,12.7,15.1,29.6,1.1,1.0,1.0,1.0,1.3,1.7,1.7,2.0,-,0.5,2.0,0,5,10,252015,30,2010,2011,2012,2013,2014,2015,2016,2020E,不良贷款余额(千亿人民币),不良贷款率(%),近几年,银行业的不良贷款规模和不良贷款率大幅攀升近年来,中国宏观经济正面临严峻挑战,银行业不良资产规模迅速攀升。截至2016年第四季度,商业银行不良贷款余额达15122亿元,预计到2020年,这一数字将上升至3万亿元。2010-2016年,商业银行不良贷款规模和不良贷款率,年增速1.5 18%1.0,5,资料来源:XX,2.4,3.0,4.6,6.9,7.8,8.2,9.4,18.3,0.0,10.05.0,20.015.0,2010,2011,2012,2013,2014,2015,2016,2020E,年增速18%,非银金融机构的潜在不良资产也浮出水面非银金融近年来也迎来了蓬勃发展,但由于其业务“高风险、高收益”的特性突出,加之风控方面相对薄弱,因而面临的不良资产风险更甚于商业银行。预计2020年非银不良贷款规模将达到约1.8万亿元。2010-2016年,非银金融机构不良贷款规模(千亿人民币),现在金融科技来了,它将改变传统金融模式 互联网金融仅是匆匆过客,金融科技才是终极风口。,互联网科技 互联网科技仅仅只是一把尖刀,只会对金融行业进行漫无目的分解,最终不仅让人大汗淋漓,而且无法真正解决金融行业本身的痛点和难题。 以风控为例,互联网金融时代之所以会有诸多乱象主要是因为行业和用户发生了变化而风控方式没有发生改变所导致的。资料来源:XX,金融科技 真正与金融行业深度融合的金融科技则具备破解金融行业痛点和难题的潜质,并有望将金融行业的发展带入到一个全新的发展阶段。 通过将大数据、智能科技的手段应用到金融行业的风控环节当中就能够达到这样的效果,海量的数据样本为我们提供了丰富的用户和项目标本,通过这些数据,我们不仅能够实现用户与项目的完美对接,而且能够让预判到项目的风险等级,提前对项目运行做出预判,提升金融行业的安全性。而智能科技的应用则能够减少人力成本,提升金融行业的运行效率,通过建立智能风控的模型,我们用智能机器人或智能模型来代替大部分的人工,从而进一步提升金融行业的效率。6,7,金融科技正在推动金融服务领域创新与重塑,改变玩法,1, 将移动装置、社交媒介、分布式分类帐系统等技术和新方法应用于金融服务领域 如:加密货币、智能合约、机器学习/人工智能工具,运用社交网络来预测市场动向,挑战中介,2, 运用新技术和新工具,旨在通过金融脱媒,提高客户独立性 如:买方对买方网络、P2P外汇和贷款平台、帮助投资者自主进行交易决策的认知智能工具,改良赋能,3, 帮助金融机构克服传统的结构性障碍和工作流程挑战 如:更好触达,更好运营,更好体验客户关系管理工具供应商、债券匹配代理商、KYC/AML(了解你的客户/反洗钱)工具、分析、监控和网络安全工具,改变玩法型企业将成为颠覆式创新的重要组成力量资料来源:XX,颠覆式创新的业务模式将逐渐成为金融机构核心业务模式的重要推动因素,8,金融科技应用主要覆盖八大领域,支付支付处理,转帐,移动支付,外汇,信用卡,预付费卡,奖励计划区块链区块链协议开发,数字货币,智能合同,区块链支付&结算,资产&身份管理,数据&分析大数据解决方案,数据可视化,预测分析,数据提供商投资&交易投资管理,机器人咨询,交易定价&算法,交易IT,交易平台,经纪,清算,保险经纪,承保,理赔,风险管理工具规划业务流程自动化,客户关系管理,合规&了解客户,库存&供应链管理,借贷/众筹众筹平台,社交借贷,抵押&企业贷款安全数字身份,身份验证,欺诈管理,网络安全,数据加密,9,资料来源:XX,金融科技涵盖大数据、人工智能等更高层次技术人工智能大数据互联技术,分布式技术安全,移动互联云计算生物识别,物联网区块链加密,10,金融大数据在信贷领域有广泛的应用,重点是风控,大数据覆盖信贷领域各个流程,重点是获客、身份验证和授信环节获客环节建立用户画像跟踪用户完整生命周期身份验证环节,通过活体识别等技术解决申请人是否本人的问题,关联分析则是利用图关联技术,找出欺诈团伙授信环节汇聚多方数据源,通过建模进行风险定价,金融科技服务商输出信用评分给机构使用,获客用户画像智能营销,智能客服生命周期管理资料来源:XX,身份验证反欺诈活体识别,关联分析,授信风险定价信用评分,贷中监控交易反欺诈,贷后管理智能催收,大数据与其它技术的融合将显著提升风控效果,算法大数据风控,算力云计算增强计算能力,AI技术提升算法能力数据物联网和区块链解决数据问题资料来源:XX, 大数据、AI技术的融合和优化,提升大数据风控 活体识别、OCR、声纹识别、虹膜识别等多种技术融合,提供更加全面的身份识别,降低欺诈风险的发生 通过算法调优和计算能力提升,半监督学习等技术正在应用到反欺诈等风控场景,降低对专家经验和数据的依赖 区块链技术使数据共享成为可能,彻底解决数据孤岛问题 区块链技术解决了数据共享的信任问题,规定了数据使用的边界,保证了数据的一致性。通过区块链建立多方数据共享平台,解决数据孤岛问题,将降低金融机构获取数据的门槛与成本 物联网提供线下数据,丰富数据纬度 通过传感器等设备采集线下数据,如车联网数据,将丰富车险驾驶行为数据维度,从而实现风险定价 建立金融云平台,毫秒级响应 通过金融云平台,金融机构可以处理PB级数据,同时应对百万流量,极大提高风控系统的响应速度11,12,PART,2,开发金融风控模型,13,资料来源:XX,3.1特征衍生,3.2特征抽象,3.3特征缩放,3.4特征选择,4.1处理样本不平衡,4.2构建分类器进行训练,5.1交叉验证+搜索调优参数,5.2性能评估,1. 场景解析,2. 数据预处理,3. 特征工程,4. 模型训练,5. 模型评估与优化,1.1项目背景,1.2场景分析,2.1数据获取,2.2缺失值处理,2.3数据过滤,贷款违约预测模型-总体架构 以贷款违约预测为例,开发金融大数据风控模型。贷款违约预测模型,14,资料来源:XX,贷款违约预测模型-1.场景解析1.1项目背景 作为一家个人对个人的借贷公司-ABC公司成立于2006年。与传统借贷机构最大的不同是,ABC利用网络技术打造的这个交易平台,直接连接了个人投资者和个人借贷者,通过此种方式,缩短了资金流通的环节,尤其是绕过了传统的大银行等金融机构,使得投资者和借贷者都能得到更多实惠、更快捷。对于投资者来说可以获得更好的回报,而对于借贷者来说,则可以获得相对较低的贷款利率。 本项目通过利用P2P平台Lending Club的贷款数据,进行机器学习,构建贷款违约预测模型,对新增贷款申请人进行预测是否会违约,从而决定是否放款。1.2场景分析 贷款申请人向ABC平台申请贷款时,业务平台通过线上或线下让客户填写贷款申请表,收集客户的基本信息,这里包括申请人的年龄、性别、婚姻状况、学历、贷款金额、申请人财产情况等信息,通常来说还会借助第三方平台如征信机构的信息。通过这些信息属性来做线性回归 ,生成预测模型,业务平台可以通过预测判断贷款申请是否会违约,从而决定是否向申请人发放贷款。 通过用户的历史行为(如历史数据的多维特征和贷款状态是否违约)来训练模型,通过这个模型对新增的贷款人“是否具有偿还能力,是否具有偿债意愿”进行分析,预测贷款申请人是否会发生违约贷款。这是一个监督学习的场景,采用逻辑斯谛算法开发两分类模型。,贷款违约预测模型-2.数据预处理,2.1数据获取 首先,通过内置包读取数据-data =pd.read_csv('LoanStats_2017Q2.csv' , encoding='latin-1',skiprows = 1)资料来源:XX,2.2缺失值处理 其次,我们查看变量缺失值的情况-objectColumns =loans.select_dtypes(include="object").columnsloansobjectColumns.isnull().sum().sort_values(ascending=False)用pandas.fillna()处理文本变量缺失值,为分类变量缺失值创建一个分类“Unknown”对数值型变量的缺失值,我们采用均值插补的方法来填充缺失值,2.3数据过滤 第三步,对数据进行过滤,将重复性属性或对构建预测模型没有意义的属性进行删除-objectColumns =loans.select_dtypes(include="object").columnsvar =loansobjectColumns.columnsfor v in var:print('nFrequency countfor variable 0'.format(v)print(loansv.value_counts()loansobjectColumns.shape15,贷款违约预测模型-3.特征工程,3.1特征衍生 特征衍生是指利用现有的特征进行某种组合生成新的特征。在风险控制方面,传统银行获得企业的基本财务报表(资产负债表、利润表以及现金流量表),借助于现代成熟的财务管理体系,在不同业务场景的需求下,利用企业财务报表各种项目之间的组合,就可以衍生不同新特征反映企业不同的财务状况资料来源:XX,3.2特征抽象 特征抽象是指将数据转换成算法可以理解的数据-def coding(col,codeDict):colCoded =pd.Series(col,copy=True)for key, value incodeDict.items():,3.3特征缩放 特征缩放是指将变量数据经过处理之后限定到一定的范围之内。特征缩放本质是一个去量纲的过程,同时可以加快算法收敛的速度。目前,将不同变量缩放到相同的区间有两个常用的方法:归一化和标准化,3.4特征选择 特征选择是从给定的集合中选择出相关特征子集的过程。通常来说,对特征集合做选择主要有2个原因:首先,优先选择与目标相关性较高的特征,不相关特征可能会降低分类的准确率。其次,去除不相关特征可以降低学习的难度16,17,贷款违约预测模型-4.模型训练,4.1处理样本不平衡 非平衡样本常用的解决方式有2种:1、过采样,增加正样本使得正、负样本数目接近,然后再进行学习。2、欠采样,去除一些负样本使得正、负样本数目接近,然后再进行学习。本次处理样本不平衡采用的方法是过采样,具体操作使用SMOTE-sm = SMOTE(random_state=42)X, y = sm.fit_sample(X, y)print('通过SMOTE方法平衡正负样本后')n_sample = y.shape0n_pos_sample = yy = 0.shape0n_neg_sample = yy = 1.shape0print('样本个数:; 正样本占:.2%;负样本占:.2%'.format(n_sample,n_pos_sample / n_sample,n_neg_sample / n_sample)资料来源:XX,4.2构建分类器进行训练 先初始化分类器,然后查看预则结果的准确率,接着借助混淆矩阵进一步比较。混淆矩阵会对分类器产生不同类型的正误数量的统计,为了更加直观,我们对混淆矩阵进行可视化。热图颜色越浅代表数量越多。根据混淆矩阵,我们可以分别计算precision、recall、f1-score的值,这里我们采用sklearn.metrics子模块classification_report快速查看混淆矩阵precision、recall、f1-score的计算值。-from sklearn.metrics importroc_auc_scoreroc_auc1 = roc_auc_score(y,predicted1)print("Area under the ROC curve :%f" % roc_auc1),18,贷款违约预测模型-5.模型评估与优化,5.1交叉验证+搜索调优参数 采用交叉验证法划分数据集,将数据划分为3部分:训练集、验证集和测试集。让模型在训练集进行学习,在验证集上进行参数调优,最后使用测试集数据评估模型的性能 模型调优我们采用网格搜索调优参数,通过构建参数候选集合,然后网格搜索会穷举各种参数组合,根据设定评定的评分机制找到最好的那一组设置资料来源:XX,5.2性能评估 根据模型在不同参数组合下跑出的分数热力图,来寻找参数调优的方向,进一步选择更优的参数。而实际操作中,模型调参是一个反复迭代的过程。接下来,使用经过训练和调优的模型在测试集上测试 经过对模型进行训练和参数调优后,模型的精确率表现更稳定,同时模型的准确率和AUC分数都有很大的提升,19,PART,3,创新金融风控体系,20,创新金融风控体系分三步走,完善标准资料来源:XX,优化制度,创新流程,完善金融大数据标准,基础类标准 基础类标准对金融业大数据标准体系的适用范围、目标进行界定。基础类标准包括术语、标准化工作指南、从业人员基本要求和大数据能力成熟度评价指标等4个子类。 术语子类标准用于规范和统一各类专业名词。标准化工作指南子类标准明确金融业大数据标准化工作的任务、标准体系、以及标准编制、实施和改进的主要内容和基本要求。从业人员基本要求和大数据能力成熟度评价指标用于对开展数据管理工作的人员、金融机构提出基础性和框架性要求。资料来源:XX,业务类标准 业务类标准从金融监管、金融服务视角,按照不同的大数据分析应用场景,对传统金融机构、互联网金融企业、以及其他外部单位需要报送或共享的数据范围和格式进行规范,使数据采集、数据传输、数据处理等各环节的使用者对数据的含义、标识、用途等有统一的理解。 根据不同的大数据分析应用场景,业务类标准包括综合统计业务子类、反洗钱业务子类、征信业务子类、资管业务子类和其他子类等。,治理类标准 治理类标准用于指导金融机构开展将数据治理工作,以确保数据资产能长期有序地、可持续地得到管理。治理类标准应该是一套经过行业实践检验的最佳方法论,它包括两个维度的内容:组织架构和治理领域。 组织架构子类用于规范金融机构大数据战略、组织架构、制度和流程等。数据治理领域包括数据标准、数据模型、元数据、数据生命周期、数据安全、数据架构、数据质量等。,技术类标准 技术类标准用于指导金融行业开展大数据基础平台建设。技术标准主要包括通用架构、关键技术、接口规范和安全规范。 通用架构子类标准用于指导大数据平台架构设计。关键技术子类包括数据采集、存储、清洗、分析挖掘、可视化、安全与隐私保护等环节的技术实现。接口规范定义大数据基础平台的接口技术要求。安全规范为大数据基础平台及上层大数据应用子系统的安全建设、系统测评和安全运维提供支撑。21,22,资料来源:XX,优化风控管理分类制度产业基金的五级分类风险管理制度(示范),23,创新金融风控管理流程,资料来源:XX,以消费金融风控管理流程为例:,用户,APP/HS业务前端,业务系统,配置平台,特征工厂,数据加工及处理,风控专家规则配置,标准特征,第三方数据,用户申请信息APP授权信息埋点采集信息,第三方数据整合,执行结果,风控策略规则执行执行平台,谢谢观看,THANK YOU,