20231119_度小满_金融行业研究报告:人工智能在金融行业中的创新应用_37页.pdf
人工智能在金融行业中的创新应用杨青度小满 技术委员会执行主席,数据智能部总经理2023.11.19CONTENTS1.人工智能与金融行业:正当其时,大有可为2.开始的结束:厚积薄发,传统式人工智能驱动金融业务3.开始的开始:另辟蹊径,生成式人工智能重塑金融业务4.未来展望:传统与新兴融合,人工与AI协作CONTENTS1.人工智能与金融行业:正当其时,大有可为2.开始的结束:厚积薄发,传统式人工智能驱动金融业务3.开始的开始:另辟蹊径,生成式人工智能重塑金融业务4.未来展望:传统与新兴融合,人工与AI协作4从业务支撑到创新驱动,技术助推金融进入数智化时代IT+金融 互联网金融 AI+金融信息化 数字化 数智化技术作为基础设施形成业务支撑 信贷系统 线上保单管理 理财信息化管理科技转向前台进入金融业务核心环节 网上银行 在线投保、查询、理赔 在线理财咨询、投资规划技术与业务融合技术创新驱动业务变革 智能承保、智能理赔 智能投顾、智能投研 智能获客、智能风控、智能运营驱动后台 驱动前台 驱动创新与变革201620045金融数智化时代,机遇与挑战并存国家政策鼓励金融数字化和智能化的发展把握机遇传统式人工智能厚积薄发,加速价值释放生成式人工智能另辟蹊径,打开创新空间隐私保护和数据安全等合规挑战直面挑战技术变革对人才和组织形成挑战6 国务院新一代人工智能发展规划 创新智能金融产品和服务,发展金融新业态;鼓励金融行业应用智能客服、智能监控等技术和装备;建立金融风险智能预警与防控系统2017/7 国务院“十四五”数字经济发展规划 加快金融领域数字化转型,合理推动人工智能、区块链、大数据在银行等领域的应用2022/12022/1 金融科技发展规划2022-2025年 八个重点任务中。强调深化数字技术金融应用2023/2 数字中国建设整体布局规划 做强做大数字经济,特别是推动产业数字化在金融等重点领域,加快数字技术创新应用2022/9 中国人民银行、市场监管总局、银保监会、证监会印发金融标准化“十四五”发展规划 强调发展数字金融产业、推动个人金融服务数字化转型构建安全高效的金融服务生态、提高数字化风控能力机遇一:鼓励发展科技金融,以数智化增加金融的科技含量2023/10 2023年中央金融工作会议 把更多金融资源用于促进科技创新,做好科技金融、绿色金融、普惠金融、养老金融、数字金融五篇大文章,推动金融高质量发展。7机遇二:数据、算力、算法共同推动AI技术进步推动AI技术进步三驾马车算力算法数据8数据规模更丰富、利用更深入,为AI技术进步提供充足燃料 随着数字化转型的加速推进,中国的数据规模呈现出爆炸性增长的趋势。截至2022年,中国的大数据市场规模已达5631亿元数据来源:赛迪2022-2023年中国大数据市场研究年度报告 截止2022年底,我国已成立48 家数据交易机构,年全国一体化政务数据共享枢纽发布各类数据资源1.5 万类,累计支撑共享调用超过5000 亿次 2023年10/25,国家数据局正式揭牌,标志着全国“一盘棋”宏观统筹数据发展和安全,对构建数据流通体系,激活数据生产力有重大意义微观层面,随着数字化转型不断深入加速金融场景下的数据生产和使用,数据飞轮加速转动宏观层面,市场数据规模不断增长,数据不断丰富,流通制度更加清晰理解,修正,匹配需求,精准offer,行为数据,自证数据,满意度,风险,使用,推荐,更多数据更多用户更好产品更准确模型更多用户反馈9算力稳定增长,为AI技术进步提供坚实支撑2023/10工信部等六部门联合印发算力基础设施高质量发展行动计划政策支持下,中国算力将进入新一轮发展期 算力基础设施高质量发展,规划明确目标到2025年,计算力方面,算力规模超过300 EFLOPS,智能算力占比达到35%,东西部算力平衡协调发展。运载力方面,国家枢纽节点数据中心集群间基本实现不高于理论时延1.5倍的直连网络传输,重点应用场所光传送网(OTN)覆盖率达到80%,骨干网、城域网全面支持IPv6,SRv6等创新技术使用占比达到40%。存储力方面,存储总量超过1800EB,先进存储容量占比达到30%以上,重点行业核心数据、重要数据灾备覆盖率达100%。应用赋能方面,打造一批算力新业务、新模式、新业态,工业、金融等领域算力渗透率显著提升,医疗、交通等领域应用实现规模化复制推广,能源、教育等领域应用范围进一步扩大。每个重点领域打造30个以上应用标杆。4个方面保障措施:加强统筹联动,加大金融支持,深化交流协作,强化平台支撑。我国算力总规模近五年年均增速近30%。处理复杂任务的速度、大规模并行计算的能力、解决复杂问题的能力均有提升数据来源:工信部、中国信通院我国算力持续稳定增长,加速AI能力提升与应用进程10算法持续创新,为AI技术进步提供强劲动能提升经营效率提升用户留存因果推断时序网络+1+2+30序列模型需求流失需求流失需求流失+1+2+3+1+2+3算法持续创新,为业务带来新可能 应用场景和业务需求加速算法创新KS人工规则线性回归机器学习深度学习通过分析历史数据和风险案例,专家总结出一些规则和模式,用于识别和预测风险.通过建立线性回归模型,对风险进行量化评估和预测通过机器学习提高模型的性能和泛化能力,更加准确地识别和评估风险。通过多层非线性变换,深度学习可以从数据中学习到更加抽象和高级的特征表示,进一步提高风控的精度和性能以大数据风控为例处理时间长、无法自动更新,决策误判高决策精度相对提升,判断未知风险能力弱模型区分度大幅提升模型区分度显著提升(数据处理、特征处理能力更强)算法&业务互相驱动持续创新因果因子 混淆因子结果变量变量全集剥离因果效应112023年3月openAI发布GPT42017 2018 2021 2022 20232018年10月谷歌发布BERT2021年5月谷歌发LaMDA2022年2月DeepMind推出编码引擎 AlphaCode2022年3月Midjourney内测2022年4月OpenAI 发布文生图模型DALL-E22022年5月Google发LAMDA22022年11月openAI发布ChatGPT2023年2月Meta开源Llama2023年3月Google发布具多模态大模型PaLM-E2023年3月百度发布文心一言2023年5月Stability AI发布视频生成大模型2023年9月腾讯发布混元大模型2018年6月OpenAI发布GPT2023年2月清华智谱发布ChatGLM模型2017年6月Transformer架构发布至今2023年10月百度发布Comate编程助手2023年4月百川智能发布百川大模型代码生成模型 大模型架构 具身大模型 视觉大模型 对话大模型 图例趋势1:模型技术升级与产品发布更迭速度加快趋势2:模型模态逐步丰富价值提高生产效率提升决策精度推动产品创新赋能领域to 用户 to 企业内部研发 办公生成式AI技术爆发金融+AI,赋能金融业务机遇三:生成式人工智能迅速演进,打开金融创新空间运营 服务 营销 风控 12挑战:金融数智化时代,需坚持以合规为基础、以人为中心合规发展数据合规与隐私保护组织变革 技术变革下的文化建设:人和机器如何协同共进,创造更大价值,员工要能适应技术发展趋势 技术变革下的组织优化:Copilot,Agent智能体将不断涌现,也会将重溯整个组织形式人才重塑 技术变革下的技能匹配:如何做好业务+AI人才培养与留存 技术变革下的人机协作:如何更好的利用AI提升生产力,提升工作效率以人为本 数据合规:如何适配快速变化的数据收集、处理和存储相关合规要求 隐私保护:如何应对好金融行业严格监管要求下的数据泄露、数据滥用等数据隐私问题CONTENTS1.人工智能与金融行业:正当其时,大有可为2.开始的结束:厚积薄发,传统式人工智能驱动金融业务3.开始的开始:另辟蹊径,生成式人工智能重塑金融业务4.未来展望:传统与新兴融合,人工与AI协作14业务发展AI技术进步目前金融已深度集成AI,AI创新可对业务形成巨大驱动金融已深度集成AIAI技术 金融业务+AI+金融计算机视觉 智能语音 自然语言处理 机器学习 知识图谱 身份核验 客户服务 营销获客 投研投顾 合规风控驱动15模式:推广人员广撒网覆盖主流流量渠道,投放策略多基于经验,效果强依赖平台流量供给问题:不确定性强,效率低成本高模式:大量信审人员,依靠有限的结构化数据,基于规则与经验做出风险判断问题:风险隐患大、效率低成本高模式:运营人员只关注群体用户的关键指标,依靠经验和少量实验判断用户偏好,做出经营决策问题:运营决策偏主观,重视群体忽视个体传统信贷获客 风控 经营自然语言处理 机器学习 计算机视觉 智能语音 因果推断 传统人工智能模型辅助运营,提升经营效果差异化定额个性化定价多样化还款方式.提升风控决策精度,降低信贷风险征信数据解读大数据风控智能信审.提升获客决策精度,实现有效率的增长精准客户定位个性化推荐智能营销策略智能信贷全流程的决策优化 全方位的降本增效以信贷为例,传统人工智能驱动信贷全价值链升级16信贷风控:NLP技术演进,提升文本解析和风控决策精度业务问题人工经验根据专家经验,利用简单规则或者关键词库,从文本中提取信息,难以充分提取用户相关文本数据中蕴含的信息,风控效果差强人意人工文本关键词表借助自然语言处理技术迭代发展,实现风险区分能力大幅提升分片式序列模型26%Bert微调18%注意力机制15%词袋模型12%预训练29%KS应用于智能风控业务业务场景文本信息解读风险信贷风控用户大量的风险信息以文本形式存在,如客户征信、合同、社交媒体信息等,依赖精准高效的文本解读能力传统解决方案风险区分能力提升Case:谁是坏人?花呗套现欠信用卡15万3年没还砍头息人在撸口子圈急用羊毛怎么回血 大狮缅甸腾龙四件套带鱼 买马面单 用户B更有效的新词发现 精准的语义表示传统、可人工统计黑话、文本 用户A17信贷风控:图机器学习,提升征信解读和风险区分能力业务问题结合图机器学习,实现征信报告智能解读,显著提升风险区分能力人工经验 人工特征衍生2 7%2 6%2 4%B a s e l i n e 2 2%同 数 据 集 下 效 果 K S机器自动衍生 深度学习 图机器学习征信解读的五个发展阶段阶段2:多个报告之间关系图利用工作单位、居住地址信息,结合股权关系等外部数据,将不同征信报告关联成一张图阶段3+动态图、时序图动态预测节点之间的关系,图网络结构不断演进,节点与边的属性实时更新阶段1:单报告内部关系图以查询/借还款行为和机构为节点构图,捕捉同样行为在不同关系场景下的不同含义图模型效果超大规模特征,特征效果超银行评分卡图算法进展和效果人工解读依赖解读征信的人员专业知识和经验风险挖掘能力不佳 难以捕获其他人对用户的风险影响 难以处理用户风险随时间动态漂移的问题业务场景深度解读征信征信报告信息丰富,是信贷风控主要数据来源之一传统解决方案度小满智能化征信解读中台获吴文俊人工智能科学技术奖 40万+25%信贷风险降低 风险变量贷款记录(准)贷记卡记录 组织、额度等 过去60个月还款记录身份信息 地址信息 工作信息 组织、额度等 过去60个月还款记录记录1记录2记录1记录2个人信息个人信贷记录提示信息 账户信息 逾期信息 摘要信息记录1 记录2 记录3 查询信息18业务问题 计算机视觉支持信贷风控审批流程提效降本非结构化 结构化 分析与处理 解析与识别 还原与转换 提取与理解 校验与标准内容解析 版面还原 内容审核 信息提取 图像/视频识别技术创新 文档智能PDFOFFICE图片视频字段内容图像质量图像风险内容恢复图像分类篡改检测质量评估风险类型EXCEL抽取PDF内容解析图片识别视频OCR元素提取 布局分析表格检测表格重建实体识别关系提取文档分类图像标签识别与理解 分析与决策 内容阅读融合图像、位置、布局等多源信息,建立不同level的提取模型,提升复杂场景下关键信息识别理解能力,平均准确率达到95%+多模态特征表示基于多模态文档预训练+场景微调,只需数10张样本,即可完成模型训练,提升小样本的建模能力文档预训练模型基于ELA误差等级分析,借助视觉Transformer,挖掘像素级篡改特征,构建文档、证件篡改检测模型,准确率达96%风险识别标准化结果映射字段规范化校验内容加工与比对内容纠错与审核应用于信审秒批,相对审核效率 70+%相对审核人力成本 千万信贷审批提效信贷风险管理需要大量用户信息收集工作,流程长,需要大量的人工投入企业财报 交易流水店面门头 报销票据用户数据种类繁多易出错 效率低 成本高业务场景信贷风控:CV技术升级,支持信贷审批提效降本19信贷经营:应用因果推断技术,实现个体额度最优业务问题 什么是关联关系?什么是因果关系?以往解决方案机器学习-关联建模传统机器学习关联建模,虽可以找到关联关系,但无法用于决策业务场景经营决策优化信贷经营场景存在大量复杂决策场景和复杂数据,决策归因、优化难 什么是导致决策最优的决策因子?做什么经营动作可以支持策略最优?运动越少 胆固醇越低?(反事实)表象:观察整体 洞察:观察局部不同年龄组下,运动越少胆固醇越高观察局部(额度近似用户),调整额度越高,其逾期率有上升趋势辛普森悖论:总体数据的统计相关性,可能与部分数据的统计相关性相反需求找到控制胆固醇变高方法找到降低风险策略我们观测到的变量本身之间未必有直接的因果关系,背后是由一些因果因素产生出来。那真正可以影响结果的因果关系是什么?什么是影响决策的真正有效变量?额度越高 风险越低?(反事实)生活中的一个例子业务中的一个例子20额度策略解决方案:基于因果推断技术,实现额度策略优化之前的给额框架额度复购模型 额度借款模型 额度风险模型最优额度 分别学习因果关系:通过因果学习算法,构建原因与结果间的稳定关系 目标最优化:结合目标需求,搜索客户个体维度决策最优的额度,直接给出最优额度因果推断技术演进工业代表算法 Xlearner对照组 实验组对照组 实验组=0+1012.Debiased Learning框架工业代表算法 DoubleMLTreatment OutcomeConfounders Features3.表示学习框架DXM自研算法 Mono-CFR1.Meta-Learners框架创新解决方案15%金额逾期率业务收益信贷经营:应用因果推断技术,实现个体额度最优额度变化后,用户的风险会变化无法衡量额度变化后的风险迁移情况风险评级偿债能力资产评级宏观调整根据用户画像计算额度CONTENTS1.人工智能与金融行业:正当其时,大有可为2.开始的结束:厚积薄发,传统式人工智能驱动金融业务3.开始的开始:另辟蹊径,生成式人工智能重塑金融业务4.未来展望:传统与新兴融合,人工与AI协作22生成式AI以Copilot方式,从点到面重塑金融价值链理解|生成|逻辑|记忆个性生成 交互增强 预测模拟 强自动化大模型核心能力重塑服务从降本增效到价值创造重塑运营端到端的运营新范式重塑风控智能化全面风控重塑营销一体化营销工作坊重塑办公员工的生产力工具重塑研发助力研发提质提效 客情摘要 客服助手 传播洞察 智能投放 NL2SQL 投研投顾 智能信审 风险模拟 智能搜索 知识助手 代码生成 单测生成23借8万吧,借个 四、五个月,这个价格能 便宜点 儿不?这样吧,如果您借满6个月呢,利息可以给您打个9折;如果提前还,您还按原来的价格,您看可以吗?获客:根据用户特征生成个性化素材 转化:结合用户需求提供差异化产品用户画像&行为特征差异化产品方案 个性化营销素材用户征信报告&行为数据&需求表达征信报告行为数据需求表达素材平台需求平台流量平台 金融APP定制方案1 定制方案2 地理位置预期职业预期职业营销:个性化素材结合差异化产品,重塑开放获客新模式24服务:提质降本,营销服务一体化营销服务一体化智能客服服务成本降低人力密集 技术密集创新技术应用将释放大量人力,降低服务成本服务质量和服务能力提升大模型辅助坐席提供服务,提升坐席整体的水平,持续提升服务承载能力和平均服务质量人工坐席模型辅助人工模型直接对客服务过程中洞察潜在需求,匹配和推荐对应金融产品,生成式AI串联起了原本分散的业务环节,实现营销服务一体化成为可能生成式AI 服务 营销 成本中心 利润中心可以将人力投入到更有价值的业务上,提升服务的同时,实现利润目标。内部提效25%隐形增员空间巨大 服务能力有效25运营:数据驱动的业务运营新范式这个新客户非常重要,项目可以承受一定程度的亏损,但是要保证公司整体利润底线不受影响,那么报价最低是多少?本季度目标利润率是10%。根据最近三个月的财务数据统计,总营收为2.1亿元,毛利3360万,实际利润率为16%;我们的投标价格底线最低下降至3849万时,不会影响公司整体毛利率目标。实际营收(万元)实际毛利(万元)实际利润率21000 3360 16%Q3实际实际营收(万元)实际毛利(万元)实际利润率28000 2800 10%基于项目中标的Q3预测一切业务产生数据,一切决策依赖数据数据分析 数据架构大模型原生架构AI方法+AI能力集成大模型能力BI方法+AI能力架构增强数据获取全模态数据自动获取发生即获取主动收集数据主动按需收集业务数据数据增强自然语言即可分析降低分析门槛自动决策基于数据自动优化运营分析增强基于大模型的BI新范式传统BI26研发:基础代码自动生成,业务代码人人可写代码采纳率超40%,体感研发效率提升近20%覆盖Python、java、sql、javascript、go、html、c+、css等多种编程语言更好的开发体验 更精益的组织结构 更快的迭代速度规划 编写 测试 维护理解需求做开发计划代码生成和补齐,识别错误并自动修复生成测试用例和测试数据,提升测试质量结合系统日志、用户反馈来帮助诊断问题单点提效 全流程重塑帮助思考 帮助编码 帮助修改27办公:无处不在、无缝衔接的办公助手多层次、全方位的能力辅助通用能力业务能力决策能力私人顾问:个人决策助手,基于个人可获取信息,帮助决策,提升价值全面辅助:实时、全面和准确地辅助解决业务、政策、资讯等等复杂问题操作提效:大模型驱动的知识抽取与信息处理等工作,提升基础操作性工作的效率助力机构间业务合作助力提升内外部协同效率优化部门内资源配置提升公司内协作效率金融监管治理有几个要素,以及每个的含义和重要性?金融监管治理涉及的四个核心要素是:独立性、问责制、透明度、操守。首先,独立性指的是监管机构具有一定的自主权,使其能够免受政治层面和被监管实体的干扰,以确保公平、有效地进行金融监管。监管机构的独立性不仅要求专业性技能,以便在复杂情况下迅速做出反应,还要求其能够使自身免受政治干预,增加监管行为的透明度和稳定性,由此提高政策制定的可信度。其次,问责制是监管治理的重要环节,然后,透明度也是极为重要的,最后,操守是指监管机构和监管人员需要坚守的行为与规范。金融监管治理的四个要素相互影响、相互促进,共同构建了金融监管的基础环境。要统一提升,需要多元化的改革与整合,构建高效、公正的金融监管环境。真实问答场景度小满-ChatMan办公助手用 户 满 足 率 从 20%提 升 至 86%28风控:提升感知和决策能力,智能风控更主动更实时实时风险控制 主动风险控制智能风控传统风险决策引擎金融大模型 风控大数据+集成大模型的风控决策引擎机器学习|图计算|知识图谱|因果推断|.生物识别|NLP|图像识别|语音识别|.风险信息理解洞察理解客户多层次需求决策增强生意资质|业务凭证|借款信息|.提额|降息|灵活还款|.深度自然语言交互引导客户补充资质材料感知增强风控大模型客户实时数据 风险策略CONTENTS1.人工智能与金融行业:正当其时,大有可为2.开始的结束:厚积薄发,传统式人工智能驱动金融业务3.开始的开始:另辟蹊径,生成式人工智能重塑金融业务4.未来展望:传统与新兴融合,人工与AI协作30金融Agent传统AI和生成式AI优势互补、融合发展,出现金融Agent任务规划分析任务,并生成解决方案任务执行调用各类插件能力执行任务检查反馈检查完成情况,并收集反馈修正迭代分析总结,进行微调迭代生成式AIEmbedded 传统AICopilot31人工与AI Agent社会化协作,重构金融行业生产关系人工与AI Agent社会化协作人工设定目标和监督过程,人工+AI共同执行、评估和迭代金融任务拆解金融任务子任务1子任务2子任务3.匹配对应角色子任务1子任务4子任务7子任务2子任务5子任务8.子任务3子任务6协作与互动.人工智能迎来了新的发展机遇,金融智能化正当其时传统人工智能仍存在巨大红利,能够持续驱动金融业务增长生成式人工智能将从点到面赋能和重塑金融行业,创造巨大价值增量人与机器的协作关系正经历深刻变革,AI将重构金融业乃至全社会的生产关系总结与展望度小满轩辕大模型34轩辕大模型:定位于最好的中文金融域大模型模型微调:分阶段微调使能力定向增强混合微调 指令微调数据配比:解决通用到金融的遗忘问题通用数据-领域数据平衡 训练数据动态配比知识图谱:增强大模型的事理逻辑能力知识增强金融事理图谱节点400万+推理增强思维链100万+数据质量:金融大模型能力强弱的关键动态数据处理Pipeline 百T级 T级训练数据建设最好的金融行业大模型,金融域任务超越领先通用模型5月 9月 11月度小满开源了国内首个千亿级金融大模型轩辕度小满开源轩辕70B大模型开源了轩辕70B-chat模型及8-bit和4-bit量化模型35轩辕大模型:定位于最好的中文金融域大模型 使用百万级经人工构建和校验的高质量指令数据进行指令微调和对齐 外挂实时更新的业务知识库,实现低成本干预,同时降低幻觉影响 面向金融应用场景,定向增强摘要、逻辑、计算等金融场景核心能力 增量预训练和指令微调阶段,加入大量金融数据,提升金融理解能力金融增强通用能力C-Eval和CMMLU两大权威榜单,轩辕70B均名列所有开源模型第一金融能力轩辕70B已经通过注会考试、银行/证券/保险/基金/期货从业资格、理财规划师、经济师等金融领域权威考试场景能力轩辕70B在度小满自有金融业务场景测试中表现领先,特别金融知识问答、NL2SQL等场景表现优异知识增强 应用增强 对话增强轩辕70B大模型金融能力领先,通用能力强大36轩辕金融大模型将持续开源,与行业伙伴共同成长轩辕-千亿 轩辕-70B 轩辕-70B-chat轩辕-13B即将开源5月 9月 11月12月轩辕系列大模型,技术认知和实践经验总结大语言模型原理与工程实践即将出版扫码访问GitHub页面