2021年联邦学习技术发展与应用白皮书.pdf
中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 联邦学习技术发展与应用 白皮书 ( 2021 年) 中国移动研究院 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 前 言 本白皮书 对联邦学习的发展背景 、应用场景、关键技术等 进行了 详细研究分析,提出了中国移动对发展联邦学习框架的愿景,希望能 够 与合作伙伴一起在联邦学习领域持续探索和创新,拓展更多行业场 景,提供更丰富的行业应用解决方案,构建和完善联邦生态 。 本白皮书的版权归 中国移动研究院 所有,未经授权,任何单位或 个人不得复制或拷贝本建议之部分或全部内容。 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 1 目 录 目 录 . 1 1. 数据共享的现状、价值和挑战 . 2 1.1 国家大力推动数据要素的发展 . 2 1.2 数据共享需求强烈但矛盾突出 . 2 1.3 联邦学习是解决数据共享和安全管控之间突出矛盾的有力工具 . 3 2. 联邦学习典型应用场景 . 5 2.1 金融领域 . 5 2.2 电商领域 . 6 2.3 医疗领域 . 7 2.4 物联网领域 . 8 2.5 通信领域 . 8 3. 联邦学习技术分析 . 8 3.1 联邦学习的分类 . 8 3.2 联邦学习技术特点 . 10 3.3 联邦学习的技术框架 . 11 3.4 联邦学习的组网模式 . 12 3.5 联邦学习的技术 难点 . 13 4. 联邦学习发展建议 . 14 4.1 深入研究联邦学习关键技术,促进技术成熟 . 14 4.2 丰富联邦学习应用案例 . 15 4.3 建立互联互通行业标准 . 15 4.4 建立公平和可持续的激励机制,探索商业模式 . 15 4.5 加快制定和完善国家产业发展政策和法律法规 . 15 5. 展望 . 16 参考文献 . 17 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 2 1. 数据共享的现状 、 价值 和挑战 当今世界,数据在全球经济运转中的价值日益凸显,国际间抢夺数字经济制 高点的竞争日趋激烈。随着经济活动数字化 、信息化、智能化 转型 升级的 快速发 展 , 数据 的基础保障作用和 提高生产效率的乘数作用 不断加强 ,成为最具时代特 征 和蕴含巨大潜力 的 新生产要素。 1.1 国家 大力 推动 数据要素 的 发展 国家持续推动数字经济的发展。 党的十九届四中全会决议通过的中共中央 关于坚持和完善中国特色社会主义制度推进国家治理体系和治理能力现代化若 干重大问题的决定(以下简称决定)中,首次将数据增列为生产要素,要求 建立健全由市场评价贡献、按贡献决定报酬的机制。习近平总书记强调“要构建 以数据为关键要素的数字经济。”我国已明确加快推进全社会的数字化转型和数 智化发展,亟待建立健全 数据流通、协同和价值评价交换的体制和机制。 2020 年 9 月,国资委发文,要求加快推进国有企业数字化转型工作,推动新一代信息 技术与制造业深度融合,打造数字经济新优势等决策部署,进一步强化数据驱动、 集成创新、合作共赢等数字化转型理念。 2020 年 11 月,中共中央关于制定国 民经济和社会发展第十四个五年规划和二三五年远景目标的建议全文发布, 提出发展数字经济,推进数字产业化和产业数字化,推动数字经济和实体经济深 度融合,打造具有国际竞争力的数字产业集群。 1.2 数据共享需求强烈但矛盾突出 目前, 数据共享、融合的需求 越来越强烈,但是在数据共享的过程中,却面 临着如下的困难和挑战: 1 数据孤岛问题严重 。 由于安全问题、竞争关系和审批流程等因素,数据 在行业、甚至是在公司内部以“孤岛”的形式存在。 由于行业竞争、隐私安 全、行政手续复杂等问题,即使是在同一个公司的不同部门之间实现数据整合 也面临着重重阻力,在现实中想要将分散在各地、或者各个机构的数据进行整 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 3 合,所需要的成本是非常巨大的。 各行业、各公司、各部门的 数据的 共享应用 非 常困难 。 2. 数据隐私安全问题突出 。 数据的隐私安全受到世界各国重视,如:欧盟 于 2018 年 5 月发布通用数据 保护条例并正式开始生效 ,该条例对于数据保护 做出了严格规定;美国美国加州消费者隐私法、新加坡修订个人数据保护 法案都对用户隐私进行立法保护。我国对于数据保护的力度也越 发 严格,国家 先后发布网络安全法、信息安全技术个人信息安全规范、信息安全技 术网络安全等级保护基本要求和互联网个人信息安全保护指南等法律法规, 同时公安部也在严厉打击数据安全犯罪行为。在社会层面,频频曝光的企业大 规模泄露用户数据事件,也使得人们对隐私保护越发重视,企业对数据价值的 应用也日趋谨慎。 AI、大数据等创新领域的应用也因此 受阻 。 作为极其依赖庞大 数据的行业, 如果 无法解决数据安全隐私保护问题,将面临着舆论、监管的巨 大挑战 。 在这样的背景之下,即便行业有意共享数据,也面临政策、法律合规的 严峻问题。 3. 存在数据垄断和数据霸权的风险 。 传统的机器学习方法,需要把训练数 据集中到某一台机器或是单个数据中心,为了满足逐渐增加的数据量级,还要 不断加机器、建设基础设施 , 而在数据集中的过程中存在数据泄露的风险。目前 人工智能市场模式基本上 由 科技 巨头主导,它们通过提供基于云的 AI 解决方案 以及 API,获取大量高质量的业务 及 个人数据,并逐步形成数据的垄断 , 构建商 业壁垒, 从而 形成垄断市场的风险。这种数据集中的发展模式将在未来限制行 业的发展和创新。 由上可知 ,目前亟需一种技术在数据安全的前提下,进行共享 协同 的 数据 应 用 。 1.3 联邦学习 是 解决数据共享和安全管控之间突出矛盾 的有力工具 联邦学习是一种多个参与方在不交互数据的情况下,通过 安全机制交互模 型参数,从而达到协同训练效果的分布式机器学习方法 。 联邦 学习能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 4 要求下,进行数据使用和机器学习建模 , 可使用的机器学习算法包括逻辑回归、 神经网络、随机森林等,有望成为 下一代人工智能协同算法和协作网络的基础。 联邦学习 由 Google 在 2016 年首次提出, 最初是用于解决安卓手机终端用户 在本地更新输入法中的频繁词模型的问题,其设计目标是保障大数据交换时的信 息安全 , 保护终端数据和个人数据隐私 , 保证合法合规的前提下,在多参与方或 多计算结点之间开展高效率的机器学习。 在该模型中,参与者在本地存储所有的 训练数据,在本地训练模型,然后将训练得到的模型更新传到云端,其他参与者 下载更新到自己的 移动 设备,提高训练模型的准确性。 目前 联邦学习技术 收到业界 广泛关注和深度参与,在框架、产品 /应用以及 标准化方面都已经有大量公司和机构在积极布局。 图 1 联邦学习技术的产业生态 在技术框架方面 ,目前主要是互联网 企业 积极开展相关研究工作, 主要包括 Google、 Facebook、微众、阿里、蚂蚁金服、百度、京东数科、字节跳动等 大型 企业 以及 同盾、富数、蓝象科技等 新兴 创业公司 。 主流 联邦学习 开源 框架包括 FATE(微众)、 PaddleFL(百度)、 Fedlearner(字节跳动)、 TensorFlow FL( Google) 及 PySyft( Facebook)等。 在标准化方面, 整体 还处于起步阶段。目前 3GPP、 ITU-T、 CCSA 等业界多个 应用 泛 金融 医疗 物联网 智慧 城市 运营商 平台 框架 标准化 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 5 组织正在积极推进相关的标准化工作。 2021 年 3 月,微众银行在 IEEE 正式发布 了联邦学习架构和应用规范国际标准( IEEE P3652.1) 。 国内 CCSA TC1, TC8, TC601 等技术工作组近两年针对联邦学习、隐私计算、多方安全计算等 技术 开展 了相关的研究课题和标准立项。 在应用方面,联邦学习技术的应用场景丰富,业内主要互联网企业、金融企 业、科研机构在金融、电商、医疗 、物联网、通信 等多领域进行探索及应用 。 在商业模式方面, 由于参 与各方数据分布的不均衡,数据价值与贡献度也不 尽 相同,需要研究数据拥有方对联合模型的参与度和贡献度 的 评估方法,建立公 平合作、共享共赢的激励机制,以吸引更多数据拥有方参与联邦学习,从而建立 起健康可持续发展的跨行业 跨领域 数据流通生态。 联邦学习拥有激励机制,可评 估参与者对模型的贡献,需要持续参与到联邦学习进程,实现联邦长期的可持续 经营。 2. 联邦学习典型应用场景 联邦学习具有非常广阔的应用场景, 主要包括金融、 电商、 医疗、物联网 等 对数据依赖较强的 领域。 2.1 金融领域 在金融行业,联邦学习 技术 主要用于风控和获客 ,即多家机构在不交换和泄 露客户个人信息的前提下,对客户进行联合画像、风险评估和产品匹配,从而有 效降低违约风险 、 精准营销有效客户。 商业银行 积极参与 联邦学习 技术试验 , 例 如 江苏银行联合腾讯利用联邦学习技术进行信用卡智能化经营。金融科技类公司 在联邦学习 的应用案例较多 ,例如京东数科金条、白条业务利用联邦建模提升模 型的风险识别能力和流量转化率;平安科技开发了面向金融行业的商用联邦学习 平台,应用在了平安集团下属不同子公司中的各项金融业务场景中,将证券和保 险业务相结合,提升保险的风控。 某银行与通信运营商合作的 企业融资 应用 案例,基于银行客户个体信息与 运 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 6 营商 的通信关系数据 ,精准识别高危客户群体,主动分析和探查,有效规避欺诈 风险 ,应用在线金融工具实现信贷业务申请、审批、签约等线上业务 。 图 2 基于联邦学习的企业融资应用体系 如图 2 所示,该体系在保障银行和运营商 原始数据不出域的基础上, 应用 密 态计算、不经意传输 、差分隐私 等隐私计算技术,虚拟融合银行及运营商数据关 系网络,通过对齐、扩充、传播、聚合等方法刻画关系网络,进行用户自然特征、 局部网络特征、全局网络特征和高阶复杂特征分析, 实现 对 银行和 运营商通信关 系 数据的融合 使用, 在多数据视 角基础上构建反洗钱反欺诈识别预警模型库, 从 而提升 金融反欺诈的识别效率和精确度 。 2.2 电商 领域 联邦学习 技术 主要用于 企业运营和发展用户 。美莱网联合微众银行,将联邦 学习引入到生鲜零售中,建立联邦学习预测模型,优化整体品类规划,从而降低 运营成本,提升用户履约率,还推出了“商机洞察系统”,助力更高效更精准的 数字化经营决策。另外,字节跳动将联邦学习应用到广告投放业务中,可以保护 合作伙伴广告主拥有的用户购买历史等敏感信息,同时提高用户的转化率。 某车企与通信运营商合作的用户精准分类应用案例。车企拥有用户数据, 基 于用 户授权,录入 用户 到店 /接触信息,并以此为依据建立 用户 层级分类模型, 并安排销售人员跟进。在现有的 用户模型 主要依靠 自身有限的历史数据,导致客 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 7 户分层模型精度不高,优先级判断效率低。车企 通过结合自身用户历史数据和运 营商相关用户的数据, 通过联邦学习技术 建立联合 用户 分层模型 ,以提高模型的 预测精度 。 图 3 基于联邦学习的 精准营销 应用体系 如图 3 所示,该体系在不交换用户原始数据和标签的前提下, 建立高质量的 机器学习模型 ,数据维度的丰富 提高 了 分层模型的预 测精度,为车企提供基于运 营商用户数据的精准用户分层及获客能力,并实现 对 用户 核心数据和运营商数据 的双向隐私保护 。业务上线 4 个月 已为 车企多个 区域经销商体系基于隐私数据挖 掘和成功触达购车用户 3000 余 组,平均线索有效率 较传统方案提升 17.7%, 通 过筛选高价值用户线索,提高企业运营效率 。 2.3 医疗领域 联邦学习 技术 主要用于医疗成像和疾病预测模型。例如英伟达联合伦敦国王 学院推出联邦学习系统,建立医疗成像 AI 神经网络,开发了对脑瘤进行分割的 技术,在保护病人隐私的前提下使数据在医院和研究者间共享;英特尔联手宾夕 法尼亚大学采用 基于 联邦学习技术的 AI 识别脑肿瘤;此外,腾讯天衍实验室联 合微众银行联合研发了医疗联邦学习框架,成功实现了 在 保护不同医院数据隐私 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 8 下的疾病预测模型。 2.4 物联网领域 物联网是基于互联网、传统电信网等信息传输渠道,让所有具备通信功能的 独立物体实现互联互通的网络。 基于 联邦学习 的 物联网应用,可以在保护物联网 节点数据隐私安全的前提下提升数据模型服务的敏捷性、实时性、准确性和智能 化水平。 例如 智慧城市中的智慧路灯,通过 联邦学习 技术可以实现每个路灯的单 独监控和单独控制,实现实时获取路灯状态、远程配置及控制路灯等场景。除此 之外 , 海油 共享设备、智能物流、智能农业、可穿戴设备等 场景均可利用联邦学 习技术 。 2.5 通信 领域 目前通信 网络 系统中,尤其是第五代移动通信系统,移动网络产生的数据量 巨大, 希望能够通过 海 量数据 与 联邦学习技术 结合 来优化网络系统 ,例如对网络 站点的规划,识别高流量高价值的热点区域,指导网络部署与网络覆盖; 网络智 能化设计, 5G 核心网络优化 , 网络资源的动态分配等 ; 识别网络中存在的问题, 快速精准的预测或解决网络故障 。 此外, 可 将联邦学习与边缘计算相结合,将数 据留在终端边缘侧实体,搭载终端实时、动态、智能的边缘计算平台 , 实现多节 点协同计算 ,比如 在无人驾驶、增强现实、 AI 智能监控等 场景中 。 3. 联邦学习 技术 分析 3.1 联邦学习的分类 按照数据集合维度相似性构成的特点,业界普遍将联邦学习分为横向联邦学 习、纵向联邦学习与联邦迁移学习。 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 9 图 4 联邦学习技术的分类 如 图 4 所示, 坐标代表数据集在样本方面的维度 , 纵坐标代表数据集在特征 方面的维度。 1. 横向联邦学习 当数据集 A和数据集 B在特征维度上重叠比较多,而样本重叠较少的情况下, 我们把数据集按照横向(即用户维度)切分,并取出双方用户特 征相同而用户不 完全相同的那部分数据进行模型训练,这种方法叫做横向联邦学习。比如有两家 不同地区的银行,它们的用户群体分别来自各自所在的地区,相互的交集很小。 但是,它们的业务很相似,因此,记录的用户特征是相同的。此时,我们就可以 使用横向联邦学习来构建联合模型。 横向联邦学习流程相比于集中式建模 的 差异集中在模型的训练过程,特征工 程和模型预测过程 与 集中式差别 不大 。 横向联邦学习最典型的案例是谷歌提出的 针对安卓手机输入法频繁词排序模型更新的数据联合建模方案 , 在单个用户使用 安卓手机时,不断在本地更新模型参数并将参数上传到 安卓云上,从而使特征维 度相同的各数据拥有方建立联合模型。 2. 纵向联邦学习 当数据集 A 和数据集 B 在样本维度上重叠比较多,而特征维度上重叠较少的 情况下,我们把数据集按照纵向(即特征维度)切分,并取出双方用户相同而用 户特征不完全相同的那部分数据进行训练,这种方法叫做纵向联邦学习。 纵向联邦学习相比于集中式建模存在巨大的差异 。 纵向联邦学习最典型的案 例是跨行业 /跨机构的数据联合建模。比如有两个不同的机构,一家是某地的银 行,另一家是同一个地方的电商 企业 。它们的用户群体很有可能包含该地的大部 特 征 特 征 特 征 样本 样本 样本 纵向联邦学习 横向联邦学习 A B A A B B 联邦迁移学习 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 10 分居民因此用户的交集较大。 但是,由于银行记录的都是用户的收支行为与信用 评级,而电商则保有用户的浏览与购买历史,因此它们的用户特征交集较小。纵 向联邦学习就是将这些不同特征在加密的状态下加以聚合,以增强模型能力。 3. 联邦迁移学习 联邦迁移学习在两个数据集的用户与用户特征 重叠较少 的情况下, 解决数据 不足的问题 。 比如有两个不同机构,一家是位于中国的银行,另一家是位于美国的电商 企 业 。由于受地域限制,这两家机构的用户群体交集很小。同时,由于机构类型的 不同,二者的数据特征也只有小部分重合。在这种情况下,要想进行有效的联邦 学习,就必须引入迁移学 习,来解决单边数据规模小和标签样本少的问题,从而 提升模型的效果。 3.2 联邦学习技术 特点 联邦机器学习是一种能有效帮助多个机构在满足用户隐私保护、数据安全和 政府法规的前提下,进行数据使用和机器学习建模的方法,其基本的技术特 点 如 下: 1. 联邦学习是分布式机器学习 。 主要 解决数据孤岛问题,各参与方的数据 是隔离不公开状态,丰富数据集的样本量和特征空间,将存储在多个设备中的数 据进行训练,以提升模型效果。 2. 联邦学习支持不同场景下的建模需求。 目前应用场景明确,实验探索较 多的为横向和纵向联邦学习。横向联邦学习适用 各方数据特征维度上高度相似, 但样本重叠度低,需要通过扩充样本提升模型精度,较适合同行业相似业务场景 下的联合建模。纵向联邦学习适用于样本空间重叠度大,但特征空间重叠度小, 重点解决单方建模特征空间不足,无法建立模型的问题,较适合于不同行业场景 下的跨界联合模型。 3. 联邦学习是安全模型。 通过网络连接参与各方,在数据不泄露的前提下, 实现分布式环境下多节点协同建模。联邦学习各方的数据是彼此隔离的,各数据 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 11 节点之间可通过专用安全交互协议实现网络连接,并在加密情况下实现样本对 齐、特征工程、模型训练、预测推理等操作,最终建 立模型 ,并同时获得成长。 联邦学习在样本对齐、特征工程、模型训练、推理预测当中,会利用同态加密、 秘密共享等密码学方法保护参与方 的 数据隐私。 4. 联邦学习拥有激励机制 。 可评估参与者对联邦模型的贡献,需要参与方 持续参与到联邦的学习进程,实现联邦长期可持续经营。 3.3 联邦学习 的技术框架 联邦学习 技术 目前发展迅速,正处于从理论研究迈向应用落地的阶段 。 中国 移动及合作伙伴前期进行了联邦学习相关技术试验及合作的探索, 从未来 商业化 落地的角度提出以下技术框架: 图 5 联邦学习框架 在联邦学习框架中,包括运营管理体系 、联邦学习核心框架、跨框架互联互 通模块。 运营管理体系包括应用管理、角色管理、作业管理、模型管理、组件管理、 数据管理等功能,可对联邦学习全生命周期主要环节进行管理。 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 12 联邦学习核心框架从下至上包括数据资源、分布式计算引擎、核心组件、能 力模块、应用场景。其中,数据资源应支持主流数据接口格式,包括但不限于文 件和数据库;分布式计算引擎负责具体计算任务的执行;核心组件包括联邦学习 算法、联邦跨站点网络通信、多方安全计算协议等符合安全认证和热插拔协议的 可信组件;能力模块可向运营商、金融、电商、医疗、交通、物联网等行业提供 横向联邦学习、纵向联邦学习以及迁移联邦学习的离线模型训练和在线联合预 测。 跨框架互联互通模块从框架互通、任务协同、算法模型、安全协议角度考虑, 制 定 跨框架 互联互通协议 ,支持 跨框架的模型训练 和预测。 3.4 联邦学习的组网模式 联邦学习 搭建好框架后 , 通过多节点的互联,实现分布式环境下的联合建模 和推理 。 在落地应用中,存在两种组网模式: 中心化模式 和 去中心化模式 。 中心化模式是指,在联邦学习系统中,不仅有提供 数据的参与方,还有协调 各个参与方模型或参数的服务器,各个参与方独立进行模型的训练,分别向服务 器发送模型更新的参 数,服务器聚合接收到的参数后发送结果给参与方 。 如图 6 所示。 图 6 联邦学习 中心化 组网 模式 去中心化模式是指 ,联邦学习系统中,每个节点都是数据参与方,没有协调 服务器, 各参与方 之间均可以进行信息的交互 ,如图 7 所示 。 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 13 图 7 联邦学习 去中心化组网模式 中心化模式和去中心化模式各有优缺点,中心化模式中的服务器聚合了各个 参与方的信息,容易成为被攻击目标,信息泄露的可能性相对较高;去中心化模 式由于没有协调服务器,很难将计算并行化,计算效率比较低。因此,需要根据 具体问题具体分析来选择采用何种组网模式。 3.5 联邦 学习的技术难点 目前联邦学习技术还处于发展的初期阶段,通过一些 技术试验及 POC 验证 , 发现联邦学习在未来大规模商用中还存在一些待解决的技术难点 。 1.联邦学习的效率 还需要进一步提升 在联邦学习中,建模 及预测 数据保存在各个数据拥有方 的 节点 上 ,各节点之 间基于网络连接和安全交互协议完成模型的构建 , 通信和计算开销的增加影响了 模型训练效率。 同时,联邦学习系统严格要求用户本地数据不泄露,只传输模型 本身数据,即使是对模型更新,也要经过严格的加密后再进行传输,加密系统越 复杂,信息回传时越需要更多的资源和时间去解密。因此,在保 护数据安全的前 提下,提升联邦学习的效率是很有挑战性的事情。 2.联邦学习 安全的协议一致性问题 安全和隐私保护是联邦学习技术可用的基础,通过引入同态加密、秘密分享 等技术,制定节点之间的模型参数交互协议,在节点间建立相对完善的安全建模 流程。但目前业界缺乏可验证、可测量的评测体系和方法, 以保证 协议的一致性, 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 14 确保加密的模型参数不包含敏感信息,也不会带来原始数据任何形式的泄露。 建 立联邦学习技术的业界公认安全认证机制,是联邦学习生态建设的很重要且很有 难度的 环节。 3.联邦学习框架 多样化带来 互联互通 障碍 在联邦学习的应用 实践中,由于联邦学习参与方在行业背景、地域分布、数 据隐私等级、使用经验等方面的差异,各方认同并愿意使用的联邦学习框架有可 能不同。当前关于联邦学习框架,业界并无统一的标准。因此,不同厂商的框架 在算法组件互联协议、数据资源互联协议、节点互联协议等方面各不相同,不能 互联互通,导致使用不同厂商联邦学习框架的参与方无法完成联邦学习任务, 不 同企业、不同平台之间实现数据交流, 使得联邦学习技术在应用推广和规模化应 用方面存在很大的挑战和障碍 , 影响联邦学习技术的推广应用。另一方面,从行 业发展角度,研究和制订不同技术框架之间互联 互通和互操作性的标准和协议, 能够为联邦学习技术的发展提供规范,促进行业快速发展。 4. 联邦学习 发展建议 联邦学习技术处于蓬勃发展阶段,具 有 良好的应用前景,也存在着技术及商 业化发展等方面的难题,需要产业共同协作解决。中国移动倡导成立联邦数据联 盟,希望凝聚业界应用、服务、技术、标准、认证相关企业或实体的力量,共同 打造联邦学习应用生态,促进联邦学习技术及产业的快速发展。联盟鼓励各方积 极参与,共同解决技术发展难题 、 建立互联互通标准 、 探索数据合作的新模式以 及公平可信的激励机制。 4.1 深入研究联邦学习关键技术,促 进技术成熟 联邦学习技术已经在数据安全交互和协同中发挥了积极的作用,得到了快速 发展和越来越多的应用。面向未来更加广泛深入的规模应用和构建良好产业生 态,联邦学习技术还需要在提升效率、降低开销、安全保障的评估和评测、 扩展 适配更多算法和协议、不同实现框架的兼容和互联互通等方面进行深入研究,促 进联邦学习技术的进一步成熟。 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 15 4.2 丰富 联邦学习应用案例 联邦学习应该在行业内与行业间丰富应用案例。 联邦学习在行业内,可以 打 破跨企业跨部门的数据协同壁垒,融合更多的样本数据或特征数据建立模型 ,提 升模型效果 。 联邦学习在 不同行业 数据协同的 产业场景中的实际落地,将给技术 研究 和演进发展 提供 了 切实有效的 需求驱动和方向指引 , 产业界的不同行业和 企 业 需要 积极 挖掘业务场景、研发 基于联邦学习 的 跨行业跨领域的 数据 应用 不断丰 富联邦学习应用案例 。 4.3 建立互联互通行业标准 联邦学习、安全多方计算等都需要对应的技术规范。一个机构无需部署多个 系统,而是通过一套服务,与外部各种机构进行大数据协同的连接合作。对于 企 业或实体 ,研究跨 行业 跨平台的转换和对接技术,实现最大程度的互联互通,让 各方基于数据实现更好的合作。 4.4 建立公平和可持续的激励机制 ,探索商业 模式 由于参与各方数据分布的不均衡,数据价值与数据贡献也不相同,如何保障 各方的利益,实现参与方数据变现,是构建以联邦学习为基础的数据流通生态 以 及 实现商业化运作的关键。需要积极研究数据拥有方对联合模型的参与度和贡献 度评估方法,建立公平合作、共享共赢的激励机制,将有利于吸引更多数据拥有 方参与联邦学习,从而建立起健康可持续发展的跨行业数据流通生态 ;同时积极 探索和验证“参与贡献数据价值,平等分享数据获益”的良性可持续发展商业模 式,从而 催生跨界业务创新,构建基于 大 数据的产业合作生态,共同促进 技术成 熟和产业发展 。 4.5 加快制定和完善国家产业发展政策和法律法规 联邦学习是一种能够兼顾数据协同和安全隐私的新兴技术,是保障数据有序 合规流通协作的基础技术,需要通过制定和完善国家产业发展政策,引导和促进 行业间形成合作共识,有效激发行业活力并推动技术成熟和广泛应用;同时需要 中国移动通信研究院 联邦学习技术发展与应用白皮书 ( 2021) 16 积极制定相关的法律法规,明确数据权属,界定责权范围,规范数据合作行为, 为数据跨行业合作和流通以及联邦学习技术发展提供制度和政策保障。 5. 展望 中国移动愿与合作伙伴一起在联邦学习领域持续探索和创新,拓展更多的 业 务 场景,提供更丰富的应用解决方案 ,解决应用落地中 的技术、合作及商业等层 面的问题,共同 推进 数据要素 价值 的 充分发挥 , 构建和完善产业生态,为 国家数 字化转型 升级和数智化创新发展保驾护航 。 17 参考文献 1 杨强 . 联邦学习 :人工智能的最后一公里 J. 智能系统学报 , 2020(1). 2 杨强 . AI 与数据隐私保护 :联邦学习 的破解之道 J. 信息安全研究 . 3 彭南博 . 联邦学习技术及实战 . 电子工业出版社 . 4 杨强 . 联邦学习 . 电子工业出版社 . 5 Advances and Open Problems in Federated LearningJ. 2019. 18 编写单位及作者 (排名不分先后) 中国移动 通信集团公司 研究院、中移信息技术有限公司、中国移动 ( 成都 ) 产业 研究院、中国移动 通信集团 江苏 有限 公司、北京融数联智科技有限公司、北京数 牍科技有限公司、蓝象智联(杭州)科技有限公司、上海富数科技有限公司、深 圳前海微众银行股份有限公司 。