隐私计算应用白皮书_54页_6mb.pdf
隐 私 计 算 应 用 白 皮 书数 智 移 动 联 合 为 民 中 国 移 动 通 信 集 团 有 限 公 司信 息 技 术 中 心2021年 12月 前 言数字经济发展中,数据价值融合的需求催生了隐私计算技术的蓬勃发展。2021 年以来,隐私计算在金融、政务、医疗、交通、能源等真实商业场景中落地实施,为各行业发展数字经济带来新的契机、注入新的动能。国家层面,一方面,国务院发布关于构建更加完善的要素市场化配置的体制机制的意见出台,首次将数据增列为生产要素,数字经济正在成为驱动我国经济实现又好又快的增长的新引擎。另一方面,数据安全法与个人信息保护法的相继发布,为各行业加强数据的合法使用与合规经营提供了指引,也促进了整个数据产业的健康发展。 中国移动提前在隐私计算方向布局,在推动数据安全共享、深化数据场景应用、促进数据生态合作方面不断前行,深入开展联邦学习的研究及试点实践,强化多方安全计算、可信执行环境等新技术体系,确立出一套较为完善的隐私计算安全审核机制,通过打造“中国移动隐私计算平台”与生态建立稳固的链接,深化各行业真实场景中落地实践,致力于运营商数据要素生产力释放,推动数字经济高质量发展。本白皮书以探讨隐私计算的关键技术路径为出发点,聚焦国内外的隐私计算应用场景以及移动运营商在相关领域的实践,进一步从技术、应用、法律等视角对隐私计算的发展进行了展望。期望与业界分享,共同促进隐私计算生态的创新、发展、繁荣。 版 权 声 明本白皮书版权隶属于中国移动,并受法律保护。任何单位和个人在未经中国移动书面授权,不得以任何目的(包括但不限于学习、研究等非商业用途)通过修改、使用、复制、截取、编纂、上传、下载等方式转载和传播本书中的任何部分,若授权后转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:中国移动”。违反上述声明者,将被追究其相关法律责任。 编 写 委 员编写单位(排名不分先后):联合编写单位(排名不分先后): 编写组成员(排名不分先后): 目 录FOREWORD隐 私 计 算 发 展 的 时 代 背 景1.1 数据要素的市场环境变化推动隐私计算技术的发展1.1.1 数据流通的市场需求显著增强1.1.2 数据流通中的数据安全风险加剧1.1.3 隐私计算已成为数据保护的关键技术1.2 数据要素市场的政策法规完善促进隐私计算的应用1.3 数据要素市场化进程中中国移动的隐私计算实践隐 私 计 算 技 术 体 系 2.1 隐私计算的概念2.2 隐私计算的技术路线与发展脉络2.3 隐私计算的技术体系2.3.1 多方安全计算2.3.2 联邦学习2.3.3 可信执行环境2.3.4 其它隐私计算技术国 外 隐 私 计 算 行 业 实 践3.1 欧洲隐私计算行业实践 3.1.1 政策法规3.1.2 应用实践3.2 美国隐私计算行业实践3.2.1 政策法规3.2.2 应用实践3.3 其他国家地区隐私计算行业实践3.3.1 政策法规3.3.2 应用实践 国 内 隐 私 计 算 应 用 实 践4.1 金融领域应用实践4.1.1 联合风控4.1.2 联合营销4.1.3 反洗钱与反欺诈4.1.4 保险精算4.2 政务领域应用实践4.2.1 智慧城市建设 4.2.2 中小微企业融资需求对接4.3 医疗领域应用实践4.3.1 疫情/传染病防控4.3.2 全基因组关联研究 GWAS 分析4.4 其它领域应用实践4.4.1 能源互联网4.4.2 汽车互联网4.4.3 数据跨境流动通 信 运 营 商 行 业 隐 私 计 算 实 践5.1 隐私计算平台建设 5.2 金融行业隐私计算实践5.2.1 银行信贷智能风控5.2.2 银行精准营销实践5.2.3 保险智能风控实践5.2.4 证券沉默用户激活5.3 智慧政务治理实践5.3.1 电信反欺诈实践5.3.2 智慧人口流动分析 5.3.3 公共安全态势感知 445.4 医疗精准推荐实践5.5 其他行业隐私计算实践 5.5.1 汽车精准营销实践隐 私 计 算 发 展 趋 势 展 望6.1 政策展望6.2 技术展望6.3 应用展望参 考 文 献 隐 私 计 算 应 用 白 皮 书( 2021 ) 01/ 中 国 移 动 信 息 技 术 中 心1.隐 私 计 算 发 展 的 时 代 背 景1.1 数据要素的市场环境变化推动隐私计算技术的发展随着数字化和信息化浪潮渗透到各行各业,我国数据服务市场已经到了前所未有的大爆发阶段,数据要素市场环境也呈现出新形态:1.1.1 数据流通的市场需求显著增强伴随着 5G、物联网、云计算、工业互联网等技术迅速发展,数据量已然进入爆发增长的阶段。海量数据的合理流通释放出巨大的社会经济价值。数据如水,能形成大江大河,滋润万物生长。当前国内各行业对于数据流通的需求日趋旺盛,IDC于 2021 年 8 月在2021 年全球大数据支出指南中预测,到 2024 年国内大数据 市场规模将超过 200 亿美元;毕马威于 2021 年 4 月在2021 隐私计算行业研究报告中指出,国内隐私计算技术营收服务将在 2024 年达到 200 亿人民币。1.1.2 数据流通中的数据安全风险加剧随着数据科学、人工智能、云计算等技术的快速发展和应用,数据蕴含的信息和价值日益彰显。数据的核心价值在于连接和共享,数据通过跨业务、跨场景、跨行业的流通,进一步丰富数据的样本量及维度,进而催生更多的应用场景。由于数据的易删、易改、易复制等特性,不可避免形成数据泄漏、数据滥用等安全隐患。一方面,流通过程中机密数据和个人隐私存在泄漏风险和安全隐患,加剧了监管机构、数据要素市场参与主体对数据流通的担忧;另一方面,现有监管条件下,业界仍没有形成明确统一的数据权属规则,在数据流通的链条中,如何确定数据的归属方、保证数据归属方的权益,尚待进一步形成共识。 1.1.3 隐私计算已成为数据保护的关键技术Gartner 在 2021 和 2022 连 续两 年将 隐私 增强 计 算(Privacy EnhancingComputation)评为重要战略技术趋势之一。目前业界普遍共识隐私计算将成为平衡数据价值挖掘和数据隐私保护的有效工具。在数据要素市场化进程中,隐私计算作为一种核心基础技术,能够帮助数据流通建立有序可控的共享机制,促进数据要素市场的蓬勃发展。隐私计算通过融合密码学、人工智能、安全硬件等跨学科技术体系形成一套可以保障数据流通安全合规的基础设施。从应用目的上来说,隐私计算实现了在数据流通过程中对国家安全、商业机密、个人隐私等敏感信息的保护,并且助力数据安全流通、释放数据价值。 隐 私 计 算 应 用 白 皮 书( 2021 ) /2 中 国 移 动 信 息 技 术 中 心1.2 数据要素市场的政策法规完善促进隐私计算的应用2020 年 4 月,中共中央、国务院发布关于构建更加完善的要素市场化配置体制机制的意见,将数据同土地、劳动力、资本、技术等传统生产要素并列作为一种新型生产要素参与分配。“十四五”规划纲要提出:建立健全数据要素市场规则,统筹数据开发利用、隐私保护和公共安全,加快建立数据资源产权、交易流通、跨境传输和安全保护等基础制度和标准规范等。数据安全和隐私保护的法律法规也在加强。数据安全法和个人信息保护法的相继实施,数据要素市场的治理机制日臻完善,都将促进隐私计算技术更加深入和广泛的应用于数据流通领域,解决数据流通中存在的隐私保护问题。2021 年 5 月,国家发展改革委、中央网信办、工业和信息化部、国家能源局联 合印发了全国一体化大数据中心协同创新体系算力枢纽实施方案(发改高技2021709 号),明确提出布局全国算力网络国家枢纽节点,推动建设数据共享开放、政企数据融合应用等数据流通共性设施平台,试验多方安全计算、区块链、隐私计算、数据沙箱等技术模式,构建数据可信流通环境。1.3 数据要素市场化进程中中国移动的隐私计算实践在数据要素市场化进程中,隐私计算作为一种核心基础技术,能够帮助数据流通建立有序可控的共享机制,促进数据要素市场的蓬勃发展。中国移动作为信息通信领域的骨干国企,在助力经济社会转型的同时,也积淀了非常有价值的数据资产,呈现出超全覆盖、超多维度、连续不间断、超大数据资产等特征。针对数据要素市场的发展,中国移动可以利用自身数据的规模优势和价值优势,构建产业生态,在公共管理、交通旅游、安全监控、欺诈防控、商圈分析、 金融征信等各个领域提供数据共享服务,释放运营商数据要素生产力,从而增强为经济社会发展的数据赋能本领。中国移动于 2018 年启动隐私计算技术的研究与布局,开展联邦学习开源框架跟踪研究及试点实践,规划和建设梧桐大数据隐私计算系统,并在 2021 年正式发布“中国移动隐私计算平台”,以此为依托,将移动大数据形成社会性的资源、资产和资本。中国移动始终践行 CHBN(C,移动市场;H,家庭市场;B,政企市场;N,新兴市场)大市场战略,推动隐私计算能力建设,为数据要素市场安全合规发展提供核心基础设施。中国移动将进一步发挥自身独特的能力和资源优势,与产业各界携手合作,积 隐 私 计 算 应 用 白 皮 书( 2021 ) 03/ 中 国 移 动 信 息 技 术 中 心极推动隐私计算相关标准的编制和实施,推广隐私计算应用实践,向千行百业赋能,促进数据要素市场高质量发展,助力各行各业数字化转型。 隐 私 计 算 应 用 白 皮 书( 2021 ) /4 中 国 移 动 信 息 技 术 中 心2.隐 私 计 算 技 术 体 系2.1 隐私计算的概念隐私计算是面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统1。隐私计算技术是指在保护数据本身不对外泄露的前提下实现数据分析计算的技术体系,它涉及密码学、分布式计算、人工智能、数据科学等众多领域。与传统数据的使用方式相比,隐私计算更专注于数据使用过程和计算结果的保护,其目标是在保证数据安全的前提下实现数据价值最大化。2.2 隐私计算的技术路线与发展脉络 图 1 隐私计算技术路线与发展脉络隐私计算是一个系统工程技术,来源于当代密码学、数学、硬件等多个领域。主要包括多方安全计算、同态加密、可信执行环境、联邦学习等技术,此外也包括差分隐私、零知识证明、图联邦等技术。结合图 1 所示,分别简要说明隐私计算中同态加密、多方安全计算、联邦学习和可信执行环境的发展历史和标志性事件。1) 同态加密技术1978 年 Ron Rivest、Leonard Adleman 和 Michael L. Dertouzos 提出同态加密问题,并在同年提出满足乘法同态的 RSA 算法。在此之前,密码学更多的研究数据在存储和传输过程中的静态安全,而同态加密问题的提出将加密技术的研究从静态引向动态,是理论上的巨大革新,也开创了隐私计算的先河。2009 年,Gentry提出了首个实用的全同态加密算法,标志着全同态计算时代的开始。2017 年,国际 同态加密标准委员会成立,标志着同态加密在全球进入高速发展阶段。2) 多方安全计算技术 隐 私 计 算 应 用 白 皮 书( 2021 ) 05/ 中 国 移 动 信 息 技 术 中 心1981 年,Rabin 首次提出通过 Oblivious Transfer(OT) 协议实现机密信息交互,奠定多方安全计算理论基础。1982 年,姚期智教授在 1981 年 OT 协议信息交互基础上,在他的论文Protocols for Secure Computations中提出“百万富翁问题“,即两个百万富翁在没有可信第三方、不透露自己财产状况的情况下,如何比较谁更富有,这标志着多方安全计算技术的产生。1986 年,姚期智教授提出混淆电路技术,实现了第一个多方(两方)安全计算方案。1987 年,Goldreich 等人提出了基于电路的秘密共享方案 GMW,并将其应用于多方安全计算。 3) 联邦学习技术1996 年 Cheung 首次提出在分布式数据库中,实现关联规则(AssociationRules)挖掘,奠定联邦学习的一些基础概念。2013 年,王爽教授团队在 SCI 学术期 刊 Journal of Biomedical Informatics 发 表 的 Expectation PropagationLogistic Regression (EXPLORER): Distributed privacy-preserving onlinemodel learning论文中提出了数据“可用不可见”问题。2017 年谷歌在官方博客中发文,提出了联邦学习在移动端的应用。2018 年,杨强教授团队提出安全联邦迁移,并于 2020 发表了安全联邦迁移学习论文,结合联邦学习和迁移学习并发布 FATE开源系统。 4) 可信执行环境2006 年,OMTP 工作组率先提出一种双系统解决方案:即在同一个智能终端下,除多媒体操作系统外再提供一个隔离的安全操作系统,这一运行在隔离硬件之上的隔离安全操作系统用来专门处理敏感信息以保证信息安全,该方案是可信执行环境的前身。可信执行环境(Trusted Execution Environment,TEE),也被称为机密计算(Confidential Computing)。2011 年,GlobalPlatform(全球最主要的智能卡多应用管理规范组织,简称为 GP)开始起草制定相关的 TEE 规范标准,并联合一些公司共同开发基于GP TEE 标准的可信操作系统。2015 年 Intel 发布支持 TEE 的CPU,2016 年 Intel TEE 技术和联邦学习结合极大推进了 TEE 技术在隐私安全方面的应用,近年来国内厂家先后发布基于 TEE 的隐私计算解决方案,已经在商业应用中被广泛使用。 目前,隐私计算概念已经被业界广泛接受,开始被应用到多个实际商业系统中。同时,硬件、软件、算法领域都在不断进行研究改进,以满足日益增长的业务需求。2.3 隐私计算的技术体系 隐 私 计 算 应 用 白 皮 书( 2021 ) /6 中 国 移 动 信 息 技 术 中 心目前业内采用的主流隐私计算技术包括三类:多方安全计算、联邦学习和可信执行环境。2.3.1 多方安全计算多方安全计算(Secure Multi-Party Computation,MPC)由姚期智教授于1982 年提出,主要探讨在不泄露隐私的条件下,各参与方利用隐私数据参与保密计算,共同完成某项计算任务。多方安全计算是密码学的重要分支之一,目前主要用于解决各个互不信任的参与方之间的数据隐私和安全保护的协同计算问题,以实现在不泄露原始数据的条件下为数据需求方提供安全的多方计算 2。多方安全计算包括多个技术分支,主要包括秘密分享、不经意传输、混淆电路、同态加密、零知识证明等。1) 秘密分享秘密分享(Secret Sharing)由著名密码学家 Shamir 和 Blakley 于 1979 年分别提出34,是现代密码学的重要分支。直观的讲,秘密分享是指将秘密以适当的方式拆分,拆分后的每一个份额由不同的参与方管理,每个参与方持有其中的一份,协作完成计算任务(如加法和乘法计算)。单个参与方只拥有部分的秘密值,有且仅当足够数量的秘密值组合在一起时,才能够重新构造被共享的秘密。在秘密共享系统中,攻击者必须同时获得一定数量的秘密碎片才能获得密钥,系统的安全性得以保障;另一方面,当某些秘密碎片丢失或被毁时,利用其它的秘密份额仍能够获得 秘密信息,系统的可靠性得以保障。2) 同态加密同态加密(Homomorphic Encryption,HE)是一种通过对相关密文进行有效操作(不需获知解密秘钥),从而允许在加密内容上进行特定代数运算的加密方法5。其特点是允许在加密之后的密文上直接进行计算,且计算结果解密后和明文的计算结果一致。在多方安全计算场景下,参与者将数据加密后发送给统一的计算服务器,服务器直接使用密文进行计算,并将计算结果的密文发送给指定的结果方。结果方再将对应的密文进行解密后,得出最终的结果。 3) 不经意传输不经意传输(Oblivious Transfer,OT)是由 Rabin 在 1981 年提出的一种保护隐私的两方计算协议6。后被拓展为多方计算协议。根据协议,每次发送方发送多条信息,接收方只能获得自己想要的一条信息。协议使得接收方除选取的内容外,无法获取剩余数据,并且发送方也无从知道被选取的内容。不经意传输对双方信息 隐 私 计 算 应 用 白 皮 书( 2021 ) 07/ 中 国 移 动 信 息 技 术 中 心的保护可用于数据隐私求交等场景。通过不经意传输,参与双方不能获取到对方的任何数据信息,结果方仅仅只可以获取到交集数据。不经意传输技术常常应用于隐私信息检索(Private Information Retrieval ,PIR),也称为匿踪查询等业务中。4) 混淆电路混淆电路(Garbled Circuit,GC)是姚期智教授提出的多方安全计算概念,其思想是通过布尔电路的观点构造安全函数计算,使得参与方可以针对某个数值来计算答案,而不需要知道它们在计算式中输入的具体数字。GC 的多方共同计算是通过电路的方式进行的,加法电路、比较电路、乘法电路等,所以相关技术称为混淆电路 7。混淆电路可以看成一种基于不经意传输的两方安全计算协议,它能够在不依赖第三方的前提下,允许两个互不信任方在各自私有输入上对任何函数进行求值。其中心思想是将计算电路分解为产生阶段和求和阶段,两个参与方各自负责一个阶段,而在每一阶段中电路都被加密处理,所以任何一方都不能从其他方获取信息,但仍然可以根据电路获取结果10。 5) 零知识证明零知识证明(Zero-Knowledge Proof,ZKP)指的是证明者能够在不向监控者提供任何有用信息的情况下,使验证者相信某个论断是正确的。零知识证明实际上是一种涉及双方或更多方的协议,即双方或更多方完成一项任务需要采取的一系列步骤。证明者需要向验证者证明并使其相信自己知道或拥有某一消息,但证明过程不向验证者泄露任何关于被证明消息的信息。2.3.2 联邦学习联邦学习(Federated Learning,FL)是一种具有隐私保护属性的分布式机器学习技术,其应用场景中包括 个参与方及其数据 ,该技术通过不可逆的数据变换后,在各个参与方之间交换不包含隐私信息的中间运算结果,用于优化各个参与方相关的模型参数,最终产生联邦模型 ,并将 应用于推理2。联邦学习的核心思想就是在多个数据源共同参与模型训练时,不需要进行原始数据流转的前提下,仅通过交互模型中间参数进行模型联合训练,原始数据可以不出本地。这种方式实现数据隐私保护和数据共享分析的平衡,即“数据可用不可见”的数据应用模式。按照数据集合维度相似性构成的特点,业界普遍将联邦学习分为横向联邦学习、纵向联邦学习与联邦迁移学习。 隐 私 计 算 应 用 白 皮 书( 2021 ) /8 中 国 移 动 信 息 技 术 中 心特征 特征 特征样本 样本 样本纵向联邦学习横向联邦学习A B A AB B联邦迁移学习图 2 联邦学习技术的分类1) 纵向联邦学习纵向联邦学习对应各个联邦成员提供的数据集样本有较大的交集,特征具有互补性的情形。纵向联邦学习中,模型参数分别存放于对应的联邦成员内,并通过联邦梯度下降等技术进行优化 2。纵向联邦学习适用于各个参与方有大量的重叠样本,但其特征空间不同的情形。典型的案例是跨行业/跨机构的数据联合建模,如银行和电信运营商,其用户重叠度高,数据维度差异大,通过纵向联邦学习可以在保护数据隐私的条件下构建满足各种需求的模型。2) 横向联邦学习当有着相同特征的样本分布于不同的参与方时,在能够实现综合运用各方数据的同时,保证各方数据隐私的算法称为横向联邦学习2。横向联邦学习的目的是要利用分布于各方的同构数据进行机器学习建模,其典型应用场景包括医疗数据建模、业务相似的同行业、不同用户的数据联合建模等。 3) 联邦迁移学习横向联邦学习和纵向联邦学习要求所有的参与方具有相同的特征空间或样本空间,从而建立起一个有效的共享机器学习模型3。当参与方数据不满足上述需具有相同的特征空间或样本空间条件时,联邦学习可以结合迁移学习技术,使其可以应用于更广泛的业务。这种组合称为联邦迁移学习。2.3.3 可信执行环境 1) 可信执行环境技术介绍可信执行环境是计算平台上由软硬件方法构建的一个安全区域,可保证在安全区域内部加载的代码和数据在机密性和完整性方面得到保护。其目标是确保一个任务按照预期执行,保证初始状态和运行时状态的机密性、完整性。 隐 私 计 算 应 用 白 皮 书( 2021 ) 09/ 中 国 移 动 信 息 技 术 中 心图 3 可信执行环境发展历程 2) 可信执行环境主流技术方案及产品(1)国外可信执行环境相关产品ARM、Intel 和 AMD 公司分别于 2006、2015 和 2016 年各自提出了硬件虚拟化技术 TrustZone、Intel SGX 和 AMD SEV 及其相关实现方案,也是目前社区和生态较为成熟的几类方案。(2)国内可信执行环境相关产品中关村可信计算产业联盟 2016 年发布了 TPCM 可信平台控制模块,为国产化可信执行环境 TEE 技术的发展起到了指导作用。国内的 CPU 芯片厂商海光、飞腾、兆芯、鲲鹏分别推出了支持可信执行环境的技术 Hygon-CSV、飞腾 TrustZone、ZX-TCT 和鲲鹏 TrustZone。 3) 目前主流TEE技术对比目前,以 Intel SGX 和 ARM TrustZone 为基础的 TEE 技术起步较早,社区和生态都已比较成熟。但国产化的芯片厂商在 TEE 方向上已经开始发力,形成我国自主可控的完整社区和生态指日可待。表1 目前主流TEE技术对比技术方案 Intel SGX TrustZone AMD SEV 海光 CSV 飞腾TrustZone 兆芯 TCT发布时间 2015 2005 2016 2020 2019 2017指令集架构 X86_64 ARM X86_64 X86_64 ARM X86_64是否支持 任意代码运行 是 是 是 是 是 是硬件安全 有 无 有 有 无 有 隐 私 计 算 应 用 白 皮 书( 2021 ) /10 中 国 移 动 信 息 技 术 中 心密钥完整性认证与封存 支持 不支持 支持 支持 不支持 支持内存加密 是 否 是 是 否 否内存完整性保证 支持 不支持 不支持 支持 不支持 支持TEE 安全I/O 不支持 支持 支持 支持 支持 支持可用内存 空间 1T 系统内存 系统内存 系统内存 系统内存 系统内存TCB 硬件:CPUPackage软件:Enclave 内的代码实现 硬件:安全虚拟核软件:安全世界 OS 和TA 硬件:AMDsecureprocessor软件:虚拟机镜像 硬件:海光 SME软件:虚拟机镜像 硬件:安全虚拟核软件:安全世界 OS 和TA 硬件:CPU&TPCM2.3.4 其它隐私计算技术1) 差分隐私差分隐私(Differential Privacy,DP)是 Dwork 在 2006 年针对统计数据库的隐私泄露问题提出的一种新的隐私保护方法定义 9,主要原理是通过在统计结果中加入随机噪声来避免由于数据变化导致的结果差异而泄露数据中的个人隐私信息。差分隐私通过引入扰动或噪声实现对于数据隐私的保护,可以用在对联邦建模的过程中或者建模结果加入噪声,保证攻击者难以从建模过程中交换的统计信息或者建模的结果反推出敏感的样本信息。2) 图联邦图联邦(Graph Federated Learning)是一类将新型的联邦学习技术与图计算技术相结合的安全建模方法,用于多方机构联合在不暴露各自图数据隐私的情况构建诸如图神经网络(Graph Neural Network,GNN)、谱聚类(Spectral Clustering,SC)等图模型。根据应用场景的不同,现有图联邦算法主要分为非关联图联邦、横向关联图联邦、纵向关联图联邦以及节点关联图联邦。 隐 私 计 算 应 用 白 皮 书( 2021 ) 011/ 中 国 移 动 信 息 技 术 中 心图 4 图联邦示意图 隐 私 计 算 应 用 白 皮 书( 2021 ) /12 中 国 移 动 信 息 技 术 中 心3.国 外 隐 私 计 算 行 业 实 践近年来,欧美各国及其他地区在隐私计算的政策、技术和业务领域也进行了积极广泛的探索实践。2019 年,信息技术研究分析机构 Gartner 首次将隐私计算列为处于启动期的关键技术;2020 年,Gartner 又将隐私计算列为 2021 年企业机构九大重要战略科技之一,并预测隐私计算将迅速得到落地应用,预计到 2025 年应用范围将覆盖全球一半的大型企业机构。国外企业对隐私计算应用的研究起步较早。第一家专攻多方安全计算解决方案的技术厂商 Partisia 于 2008 年在丹麦成立,主要为客户商务合同、加密拍卖等场景提供安全方案。谷歌、微软、Facebook、Intel、IBM 等科技巨头也纷纷加入隐私计算赛道,并在不同技术路线上发力:微软主要研究多方安全计算,谷歌提出联邦学 习概念,Intel 致力于可信执行环境实现方案 Intel SGX 的打造等。此外,不少初创公司也入局隐私计算领域,如专注于搭建自研多方安全计算平台的 Sharemind 和 Privitar,基于密码学开发 SecurePlus 平台的 Duality,基于同态加密技术实现深度神经网络端到端加密的 Zama,构建保护企业信息的密码学基础架构设施的 Unbound,率先推出加密 XOR Secret Computing 的 Inpher,通过密钥管理和保护新标准防止关键盗窃和滥用的 Sepior,基于多方安全计算独特安全模型的 Secata,在隐私管辖范围内安全私密查询数据的 Enveil,通过隐私增强加密技术驱动数据协作的 Ntharty 等。在隐私计算标准制定方面,电气和电子工程师协会 IEEE 标准组 IEEE联邦学习系 统 架 构 和 应 用 指 南 ( IEEE 3652.1-2020 - IEEE Guide for ArchitecturalFramework and Application of Federated Machine Learning)于 2021 年 3 月 19 日发布。该标准系统性阐述了联邦学习的定义、概念、分类、算法框架规范、使用模式和使用规范等方面,建立了联邦学习的需求分析模板,厘定了联邦学习性能及安全测评准则,并将联邦学习的激励机制设计理论应用于各种实际场景中。除 IEEE外,国际标准化组织 ISO、国际电信联盟 ITU 等均在开展隐私计算相关领域的技术标准研制工作。3.1 欧洲隐私计算行业实践3.1.1 政策法规欧盟于 2016 年发布的通用数据保护条例(GDPR),于 2018 年 5 月 25 日正式生效,是世界范围内目前较为全面广泛的数据隐私保护条例。2020 年 7 月,欧 隐 私 计 算 应 用 白 皮 书( 2021 ) 013/ 中 国 移 动 信 息 技 术 中 心盟法院(CJEU)判定欧盟-美国隐私盾无效,美国无法再根据 GDPR 接收来自欧盟各机构、机关、办事处、和专门行政部门(代理机构)的个人数据而无需额外的授权。为寻求合规与发展的平衡,欧盟数据保护委员会(EDPB)于 2020 年 11 月通过“关于补充传输工具以确保符合欧盟个人数据保护水平的措施的建议 01/2020”。在 2021 年 1 月 28 日,欧盟网络安全局(ENISA)发布数据保护和隐私中网络安全措施的技术分析,该技术指南将多方安全计算确定为适用于复杂数据共享方案的高级技术解决方案。3.1.2 应用实践在医疗领域,欧盟牵头组织开展了“机器学习分类帐编排的药物发现”(MachineLearning Ledger Orchestration for Drug Discovery,简称 MELLODDY)项目: 由 10 家顶级药企在内的共 17 家合作伙伴构建了一个建模平台,在该平台上可以利用多家制药企业的数据,创建更准确的模型,以确定药物开发最有效的化合物。MELLODDY 项目的参与者 Owkin,作为医疗大数据协作平台,通过联邦学习和 AI 技术,在保护患者隐私和专有数据的前提下推进药物研究,以优化临床试验,改善患者的治疗效果。Owkin 构建了专有的联邦学习平台 Owkin Connect,为医院、研究中心、技术合作伙伴和生命科学公司之间的合作提供支持。Owkin Connect 的分布式架构和联合学习功能使数据科学家能够安全地连接到分散的多方数据集并训练 AI 模型,而无需汇集数据。 图 5 Owkin Connect 架构概览14英国的 OpenSAFELY 是一个安全、透明、开源的软件平台,用于分析电子健康记录数据,部署在英国国家医疗服务体系(NHS)两家最大电子健康记录提供商的安全数据中心内,以支持对 COVID-19 紧急情况的紧急研究。在 COVID-19 大流行期间, OpenSAFELY 安全分析平台通过隐私增强技术对 2400 万患者的记录进行分 隐 私 计 算 应 用 白 皮 书( 2021 ) /14 中 国 移 动 信 息 技 术 中 心析,识别与新冠疫情相关的危险因素,为公共卫生做出重大贡献。西班牙的 Sherpa.ai 公司在 2020 年推出的联邦学习和差分隐私框架,允许参与者在不共享自身数据的情况下进行协作学习,应用场景涉及多个领域:在医疗业,使用安全和私密的患者数据改进诊断和护理;在银行业,在不共享客户数据的情况下保持资金安全;在学术界,助力大学和研究机构整合研究成果同时确保数据私密性;在服务业,构建隐私保护的提供预测服务的智能服务助理。爱沙尼亚的 Cybernetica 公司开发了用于安全处理机密数据信息的数据分析平台 Sharemind,以及分别基于可信执行环境与多方安全计算技术的两款隐私计算产品 Sharemind HI 和 Sharemind MPC。通过 Sharemind 平台,Cybernetica 公司可助力国家更轻松地发现税务和增值税欺诈,帮助企业创建私有行业市场报告,让 CEO 可以在不披露商业机密的情况下了解到自家公司与其他公司的对比情况。3.2 美国隐私计算行业实践3.2.1 政策法规美国各州有独立的数据隐私法,如加利福尼亚州于 2018 年通过的加州消费者隐私法(CCPA),弗吉尼亚州于 2021 年通过的消费者数据隐私保护法(CDPA),科罗拉多州于 2021 年通过的科罗拉多州隐私法(CPA)。美国共和党提交的2019美国国家安全与个人数据保护法案,以保护本土企业和国民数据为切入口,限制跨境数据流向,严格管控数据的传输和存储,具有鲜明的、针对性的数据保护意识。美国白宫行政管理和预算办公室(OMB)2019 年发布的联邦数据战略和 2020 年行动计划描述了美国未来十年的数据愿景,将“数据作为战略资源开发”的核心 目标。3.2.2 应用实践Google 在 2017 年提出“联邦学习”概念,并应用于自家的输入法中,通过Gboard 联邦学习改善输入下一词的预测效果。2019 年 Google 通过发布论文对可扩展大规模移动端联邦系统进行描述,用于改进谷歌输入法的自动关联与推荐,同年 8 月开源一个新型多方安全计算开源库 Private Join and Compute,结合了隐私求交和同态加密两种基本的隐私计算技术,助力各组织和隐私数据集协同工作,并可针对特定项目使用随机密钥进行高度加密,进一步提高隐私性。Google 的联邦学习从自给自足的 To C 模式逐步发展到企业之间互联互通的 To B 模式。 隐 私 计 算 应 用 白 皮 书( 2021 ) 015/ 中 国 移 动 信 息 技 术 中 心图 6 Gboard 联邦学习过程 15NVIDIA 在 2019 年 RSNA 大会上推出 NVIDIA Clara FL,它利用分布式协作型学习技术,将患者数据保存在医疗服务机构内部。通过 NVIDIA Clara FL 框架,NVIDIA 与 20 家医院合作构建了 AI 模型,可以预测患者的氧气需求,以更好地对COVID-19 患者进行分类。NVIDIA 除了推出自己的联邦学习产品还扶持了多家涉及联邦学习业务的公司,如 Rhino Health、Doc.ai 等。Facebook 在 2019 年推出了基于 Pytorch 的多方安全计算框架 CrypTen,深度学习模型可以使用 Crypten 直接转换为使用多方安全计算的深度学习模型,从而保护数据持有者和模型开发者的隐私信息。微软研究院自 2011 年开始大规模推进多方安全计算研究,从两方逐渐拓展至三方和不存在交互行为的多方计算。2018 年,微软印度研究院推出 EzPC 项目,作为 一个高效、可扩展的 MPC 协议,EzPC 是一个加密成本感知编译器,使用算术和布尔电路组合,通过高级语言执行计算,支持神经网络训练和预测等复杂算法。微软研究院于 2020 年在 41 届 IEEE S&P 上发表开源项目 CrypTFlow,该项目可以将Google 公司的 TensorFlow 深度学习模型转换为多方安全计算的形式。Consilient 公司结合联邦学习技术与反洗钱和反恐融资 (AML/CFT) 专业知识,致力于为金融机构提供安全、动态和有效的解决方案,协助打击打击欺诈、洗钱和资助恐怖主义等日益增多的金融犯罪。始 于 2014 年 4 月 , 在 以 患 者 为 中 心 的 成 果 研 究 所 (Patient-CenteredOutcomes Research Institute (PCORI) 资助下,以患者为中心的可扩展的国家级有 效 性 研 究 网 络 (patient-centered SCAlable National Network forEffectiveness Research (pSCANNER) 利用联邦学习等隐私计算技术,通过“数据 可用不可见”的方式,连接了 17 家现有医疗卫生系统的数据源,覆盖了超过 3700万患者。该项目通过创建一个大型、具有高度代表性的医疗网络来辅助临床结果研 隐 私 计 算 应 用 白 皮 书( 2021 ) /16 中 国 移 动 信 息 技 术 中 心究,提高国家进行比较有效性研究(Comparative Effectiveness Research)的能力。由于传统的数据共享方法经常会影响研究人员和临床医生在护理点访问、汇总和分析患者记录的能力,pSCANNER 通过使用可扩展的联邦式网络基础设施以及新颖的隐私计算方法克服了这些障碍,从而能够对从多中心临床数据库收集的数据进行近乎实时的比较有效性研究和前瞻性分析。 图 7 pSCANNER 是一个联合临床数据研究网络163.3 其他国家地区隐私计算行业实践3.3.1 政策法规除以上国家地区外,还有不少国家地区越来越重视个人隐私保护,并出台了一系列关于个人隐私保护的法律法规,如:巴西的通用数据保护法(LGPD)、印度的个人数据保护法案(PDPB)、加拿大的2020 年数字宪章实施法案、泰国的个人数据保护法(PDPA)、南非的个人信息保护法(POPIA)、新西兰的2020年隐私法、日本的个人信息保护法、韩国的个人信息保护法(PIPA)等。3.3.2 应用实践澳大利亚的 Presagen 公司致力于连接全球的医疗数据,目前该公司已推出第一 款产品 Life Whisperer,该产品通过联邦 AI 算法来帮助筛选试管婴儿的胚胎,在评估胚胎活力方面的准确度比专家胚胎学家进行的传统形态学评估高 25%以上。 隐 私 计 算 应 用 白 皮 书( 2021 ) 017/ 中 国 移 动 信 息 技 术 中 心图 8 Life Whispere 预测试管婴儿胚胎评分值17以色列的初创公司 Lynx.MD