人工智能数据安全风险与治理.pdf
版权声明01 02本报告版权属于出品方所有,并受法律保护。转载、摘编或利用其它方式使用报告文字或者观点的,应注明来源。违反上述声明者,本单位将追究其相关法律责任。引言当前,随着大数据和云计算等新一代信息技术的发展成熟,人工智能技术和应用获得重大突破性进展,并快速向各个行业和领域渗透。其中,数据是人工智能技术开发和应用的基础,人工智能算法模型在开发训练时需要海量经过良好标注的数据作为支撑,并依赖于训练数据的丰富程度。数据的质量、多样性将对算法模型的成败产生重大影响。然而,随着越来越多的数据在人们的生产和生活场景中被收集和利用,数据安全和隐私保护成为人工智能系统在开发和应用过程中面临的严峻安全挑战。如何兼顾数据安全和人工智能技术发展成为各国棘手的难题。本报告对当前人工智能发展带来的数据安全风险进行了全面梳理,并分别在政策法规和技术层面对目前国内外的相关应对举措进行了分析。在此基础上,报告提出了人工智能数据安全治理的目标、框架及治理措施,致力于为有效解决人工智能中的数据安全问题提供建议和思路。出品方:上海观安信息技术股份有限公司上海赛博网络安全产业创新研究院咨询专家:黄道丽 公安部第三研究所网络安全法律研究中心主任吴承荣 复旦大学国家保密学院副院长乐嘉锦 东华大学计算机科学与技术学院教授孟海华 上海市科学学研究所副研究员朱易翔 翼盾(上海)智能科技有限公司CEO 观安信息观安信息观安信息赛博研究院观安信息赛博研究院版权声明01 02本报告版权属于出品方所有,并受法律保护。转载、摘编或利用其它方式使用报告文字或者观点的,应注明来源。违反上述声明者,本单位将追究其相关法律责任。引言当前,随着大数据和云计算等新一代信息技术的发展成熟,人工智能技术和应用获得重大突破性进展,并快速向各个行业和领域渗透。其中,数据是人工智能技术开发和应用的基础,人工智能算法模型在开发训练时需要海量经过良好标注的数据作为支撑,并依赖于训练数据的丰富程度。数据的质量、多样性将对算法模型的成败产生重大影响。然而,随着越来越多的数据在人们的生产和生活场景中被收集和利用,数据安全和隐私保护成为人工智能系统在开发和应用过程中面临的严峻安全挑战。如何兼顾数据安全和人工智能技术发展成为各国棘手的难题。本报告对当前人工智能发展带来的数据安全风险进行了全面梳理,并分别在政策法规和技术层面对目前国内外的相关应对举措进行了分析。在此基础上,报告提出了人工智能数据安全治理的目标、框架及治理措施,致力于为有效解决人工智能中的数据安全问题提供建议和思路。出品方:上海观安信息技术股份有限公司上海赛博网络安全产业创新研究院咨询专家:黄道丽 公安部第三研究所网络安全法律研究中心主任吴承荣 复旦大学国家保密学院副院长乐嘉锦 东华大学计算机科学与技术学院教授孟海华 上海市科学学研究所副研究员朱易翔 翼盾(上海)智能科技有限公司CEO 观安信息观安信息观安信息赛博研究院观安信息赛博研究院1 、人工智能技术发展与数据需求2006年,随着深度学习模型的提出,人工智能引入了层次化学习的概念,通过构建较简单的知识来学习更深、更复杂的知识,真正意义上实现了自我训练的机器学习。深度学习可从大数据中发现复杂模式,具有强大的推理能力和极高的灵活性,由此揭开了崭新人工智能时代的序幕。在人工智能第三波发展热潮中,深度学习逐渐实现了在机器视觉、语音识别、自然语言理解等多个领域的普遍应用,也催生了强化学习、迁移学习、生成式对抗网络等新型算法和技术方向 。然而,当前阶段以机器学习为代表的人工智能技术需要海量数据作为支撑,数据越多,训练得到的算法模型效果越好,模型的泛化能力越强。因此,现阶段的人工智能技术对数据的依赖性极强。同时,数据与人工智能是相互依存的关系,人工智能为数据提供智能分析的手段,数据为人工智能提供输入和学习资料。由此,将导致在人工智能的发展进程中,数据安全将是一个极其关键的议题,对人工智能的安全、健康、快速发展非常重要。103 04CONTENTS目录1、 人工智能技术发展与数据需求 2 、人工智能数据安全风险 2.1 人工智能与数据隐私 2.2 人工智能与数据质量 2.3 人工智能与数据保护3 、国内外应对与举措3.1 政策法规 3.2 技术发展 3.3 当前存在的差距4 、人工智能数据安全治理4.1 治理目标 4.2 治理框架 4.3 治理措施 5 、国内外优秀实践案例5.1 英特尔推出HE-Transformer用于处理加密隐私数据 5.2 谷歌推出TensorFlow Privacy用于提升AI中的隐私保护5.3 谷歌推出TensorFlow Federated learning在用户设备上进行模型训练 5.4 Apple利用差分隐私技术保护用户设备数据安全 5.5 IBM开发AI Fairness 360开源工具包检测数据偏见 5.6 英伟达利用合成数据训练深度神经网络 5.7 阿里巴巴运用机器流量防控体系对抗数据投毒攻击 5.8 微众银行开发商用级开源项目Federated AI Technology Enabler 5.9 IFAA通过安全隔离技术实现生物特征信息安全 5.10 观安信息数据安全解决方案助力智能客服系统敏感数据防护 6 、结语附录1 国内外人工智能数据保护相关倡议 附录2 国内外人工智能数据安全相关的标准及指南 040506111418182025272728293737383940414142434344454648人工智能赋能网络空间安全:模式与实践1观安信息观安信息观安信息赛博研究院观安信息赛博研究院1 、人工智能技术发展与数据需求2006年,随着深度学习模型的提出,人工智能引入了层次化学习的概念,通过构建较简单的知识来学习更深、更复杂的知识,真正意义上实现了自我训练的机器学习。深度学习可从大数据中发现复杂模式,具有强大的推理能力和极高的灵活性,由此揭开了崭新人工智能时代的序幕。在人工智能第三波发展热潮中,深度学习逐渐实现了在机器视觉、语音识别、自然语言理解等多个领域的普遍应用,也催生了强化学习、迁移学习、生成式对抗网络等新型算法和技术方向 。然而,当前阶段以机器学习为代表的人工智能技术需要海量数据作为支撑,数据越多,训练得到的算法模型效果越好,模型的泛化能力越强。因此,现阶段的人工智能技术对数据的依赖性极强。同时,数据与人工智能是相互依存的关系,人工智能为数据提供智能分析的手段,数据为人工智能提供输入和学习资料。由此,将导致在人工智能的发展进程中,数据安全将是一个极其关键的议题,对人工智能的安全、健康、快速发展非常重要。103 04CONTENTS目录1、 人工智能技术发展与数据需求 2 、人工智能数据安全风险 2.1 人工智能与数据隐私 2.2 人工智能与数据质量 2.3 人工智能与数据保护3 、国内外应对与举措3.1 政策法规 3.2 技术发展 3.3 当前存在的差距4 、人工智能数据安全治理4.1 治理目标 4.2 治理框架 4.3 治理措施 5 、国内外优秀实践案例5.1 英特尔推出HE-Transformer用于处理加密隐私数据 5.2 谷歌推出TensorFlow Privacy用于提升AI中的隐私保护5.3 谷歌推出TensorFlow Federated learning在用户设备上进行模型训练 5.4 Apple利用差分隐私技术保护用户设备数据安全 5.5 IBM开发AI Fairness 360开源工具包检测数据偏见 5.6 英伟达利用合成数据训练深度神经网络 5.7 阿里巴巴运用机器流量防控体系对抗数据投毒攻击 5.8 微众银行开发商用级开源项目Federated AI Technology Enabler 5.9 IFAA通过安全隔离技术实现生物特征信息安全 5.10 观安信息数据安全解决方案助力智能客服系统敏感数据防护 6 、结语附录1 国内外人工智能数据保护相关倡议 附录2 国内外人工智能数据安全相关的标准及指南 040506111418182025272728293737383940414142434344454648人工智能赋能网络空间安全:模式与实践1观安信息观安信息观安信息赛博研究院观安信息赛博研究院2、人工智能数据安全风险人工智能导致的数据安全风险由两方面因素促成。一方面,人工智能技术和各种智能化硬件带来的生产和生活场景的智能化变革导致数据呈现井喷式增长,数据的采集终端越来越多,传输速度越来越快,整个人类社会每时每刻都在产生着海量数据,这使数据安全风险陡然增加。同时,数据作为机器学习等人工智能技术的根基,在持续推动智能化技术的快速成熟与迭代,将带来更广泛的人工智能应用,而更广泛的应用又将采集和形成更大的数据资源库。另一方面,随着人工智能技术的发展,对数据的分析和挖掘能力也在迅速增强,这将导致给个人隐私、社会安全以及国家安全带来风险。图1 人工智能与数据的关系05 06人工智能中的数据安全挑战包括三个方面,分别为数据隐私问题、数据质量问题和数据保护问题。数据隐私问题指在人工智能的开发、测试、运行过程中存在的隐私侵犯问题,这一类问题当前是人工智能应用需要解决的关键问题之一;数据质量问题主要指用于人工智能的训练数据集以及采集的现场数据潜在存在的质量问题,以及可能导致的后果,这是人工智能特有的一类数据安全问题;数据保护问题主要指人工智能开发及应用企业对持有数据的安全保护问题,涉及数据采集、传输、存储、使用、流转等全生命周期,以及人工智能开发和应用等各个环节。图2 人工智能中的数据安全风险构成2.1 人工智能与数据隐私人工智能开发和应用的不同环节有不同的数据种类,其中存在隐私问题的数据包括:训练和测试数据、(训练成)的模型参数、应用系统实际输入数据(现场数据)、应用系统实际分析结果数据等。每类数据存在的隐私风险各不相同。2.1.1 训练、测试数据采集与隐私深度学习需要大量训练数据作为学习资料,同时需要构建测试数据集用于AI系统的性能测试。当前,数据获取成为企业发展人工智能技术的重要瓶颈之一,也是企业竞相争夺的重要资源。目前,在数据获取的方法和途径方面出现了众多可能侵犯用户隐私的事件,引发了公众对个人数据被非法滥用的普遍担忧。观安信息观安信息观安信息赛博研究院观安信息赛博研究院2、人工智能数据安全风险人工智能导致的数据安全风险由两方面因素促成。一方面,人工智能技术和各种智能化硬件带来的生产和生活场景的智能化变革导致数据呈现井喷式增长,数据的采集终端越来越多,传输速度越来越快,整个人类社会每时每刻都在产生着海量数据,这使数据安全风险陡然增加。同时,数据作为机器学习等人工智能技术的根基,在持续推动智能化技术的快速成熟与迭代,将带来更广泛的人工智能应用,而更广泛的应用又将采集和形成更大的数据资源库。另一方面,随着人工智能技术的发展,对数据的分析和挖掘能力也在迅速增强,这将导致给个人隐私、社会安全以及国家安全带来风险。图1 人工智能与数据的关系05 06人工智能中的数据安全挑战包括三个方面,分别为数据隐私问题、数据质量问题和数据保护问题。数据隐私问题指在人工智能的开发、测试、运行过程中存在的隐私侵犯问题,这一类问题当前是人工智能应用需要解决的关键问题之一;数据质量问题主要指用于人工智能的训练数据集以及采集的现场数据潜在存在的质量问题,以及可能导致的后果,这是人工智能特有的一类数据安全问题;数据保护问题主要指人工智能开发及应用企业对持有数据的安全保护问题,涉及数据采集、传输、存储、使用、流转等全生命周期,以及人工智能开发和应用等各个环节。图2 人工智能中的数据安全风险构成2.1 人工智能与数据隐私人工智能开发和应用的不同环节有不同的数据种类,其中存在隐私问题的数据包括:训练和测试数据、(训练成)的模型参数、应用系统实际输入数据(现场数据)、应用系统实际分析结果数据等。每类数据存在的隐私风险各不相同。2.1.1 训练、测试数据采集与隐私深度学习需要大量训练数据作为学习资料,同时需要构建测试数据集用于AI系统的性能测试。当前,数据获取成为企业发展人工智能技术的重要瓶颈之一,也是企业竞相争夺的重要资源。目前,在数据获取的方法和途径方面出现了众多可能侵犯用户隐私的事件,引发了公众对个人数据被非法滥用的普遍担忧。观安信息观安信息观安信息赛博研究院观安信息赛博研究院典型案例1:以人脸识别为例,美国学术研究人员通常通过谷歌图片搜索、图片分享网站Flickr的授权(Creative Commons license)、公共Instagram帐户或者其他一些途径获取大量的图片,以供训练或测试人脸识别算法 。授权的协议显示这些图片数据仅用于学术研究。然而,随着微软、IBM、Facebook和谷歌等公司将自己的未来押在人工智能上,人脸识别正越来越多地走出实验室,进入大型企业的领域。大量个人照片被用于商业领域,将引发隐私冲突。例如,2019年3月,IBM被爆出使用互联网上的照片作为人脸识别的“养料”,其中包含了图片分享网站Flickr上近100万张照片,但未获得用户许可,因此引发了国外媒体的高度关注和用户对隐私的广泛担忧 。典型案例2:另一个典型案例是英国皇家自由信托基金会因在2016年将160万患者数据共享给谷歌的AI子公司DeepMind而遭到英国信息专员办公室(ICO)的调查,共享的数据主要用于一个智能医疗移动应用程序Streams的开发和测试,因未事先征得患者同意,这一数据共享行为被ICO裁定为违反了英国的数据保护法 。2.1.2 现场数据采集与隐私在无人驾驶、智能家居、智慧城市等人工智能应用场景中,采集终端可能会过度采集用户敏感信息,违背个人信息安全规范中数据采集的最少必须原则,侵犯用户的合法权益。If your image is online, it might be training facial-recognition AIcnn/2019/04/19/tech/ai-facial-recognition/index.htmlIBM didnt inform people when it used their Flickr photos for facial recognition trainingtheverge/2019/3/12/18262646/ibm-didnt-inform-people-when-it-used-their-ickr-photos-for-facial-recognition-trainingRoyal Free breached UK data law in 1.6m patient deal with Googles DeepMindtheguardian/technology/2017/jul/03/google-deepmind-16m-patient-royal-free-deal-data-protection-act23423407 08典型案例1:亚马逊公司近期被曝出雇佣了数千名员工,聆听使用其智能音箱Echo的用户家中和办公室捕捉到的录音,以帮助改进Alexa语音助手。智能音箱、智能电视、手机语音助手等智能硬件的“偷听”能力也因此引发公众的普遍担忧。典型案例2:当前在安防、身份核验以及各类零售商店广泛应用的人脸识别系统,也在随时随地抓取公众人脸信息,带来了关于隐私问题的诸多争议。更复杂的是,尽管对特定个人进行身份识别可能不是人工智能做出决策所必需的,但在很多场景下人工智能可能仍然会采集个人数据。典型案例3:在自动驾驶场景中,为了避免撞到行人,自动驾驶车辆上的传感器会收集足够的行人数据来识别他们,但识别特定的个人并不是系统做出决策所必需的,人工智能只需要确定目标是否是行人即可,但在这种情况下,行人的身份数据仍然被抓取了 。5Center For Information Policy Leadership,Articial Intelligence and Data Protection in Tensioninformationpolicycentre/uploads/5/7/1/0/57104281/cipl_ai_rst_report_-_articial_intelligence_and_data_protection_in_te.pdf5观安信息观安信息观安信息赛博研究院观安信息赛博研究院典型案例1:以人脸识别为例,美国学术研究人员通常通过谷歌图片搜索、图片分享网站Flickr的授权(Creative Commons license)、公共Instagram帐户或者其他一些途径获取大量的图片,以供训练或测试人脸识别算法 。授权的协议显示这些图片数据仅用于学术研究。然而,随着微软、IBM、Facebook和谷歌等公司将自己的未来押在人工智能上,人脸识别正越来越多地走出实验室,进入大型企业的领域。大量个人照片被用于商业领域,将引发隐私冲突。例如,2019年3月,IBM被爆出使用互联网上的照片作为人脸识别的“养料”,其中包含了图片分享网站Flickr上近100万张照片,但未获得用户许可,因此引发了国外媒体的高度关注和用户对隐私的广泛担忧 。典型案例2:另一个典型案例是英国皇家自由信托基金会因在2016年将160万患者数据共享给谷歌的AI子公司DeepMind而遭到英国信息专员办公室(ICO)的调查,共享的数据主要用于一个智能医疗移动应用程序Streams的开发和测试,因未事先征得患者同意,这一数据共享行为被ICO裁定为违反了英国的数据保护法 。2.1.2 现场数据采集与隐私在无人驾驶、智能家居、智慧城市等人工智能应用场景中,采集终端可能会过度采集用户敏感信息,违背个人信息安全规范中数据采集的最少必须原则,侵犯用户的合法权益。If your image is online, it might be training facial-recognition AIcnn/2019/04/19/tech/ai-facial-recognition/index.htmlIBM didnt inform people when it used their Flickr photos for facial recognition trainingtheverge/2019/3/12/18262646/ibm-didnt-inform-people-when-it-used-their-ickr-photos-for-facial-recognition-trainingRoyal Free breached UK data law in 1.6m patient deal with Googles DeepMindtheguardian/technology/2017/jul/03/google-deepmind-16m-patient-royal-free-deal-data-protection-act23423407 08典型案例1:亚马逊公司近期被曝出雇佣了数千名员工,聆听使用其智能音箱Echo的用户家中和办公室捕捉到的录音,以帮助改进Alexa语音助手。智能音箱、智能电视、手机语音助手等智能硬件的“偷听”能力也因此引发公众的普遍担忧。典型案例2:当前在安防、身份核验以及各类零售商店广泛应用的人脸识别系统,也在随时随地抓取公众人脸信息,带来了关于隐私问题的诸多争议。更复杂的是,尽管对特定个人进行身份识别可能不是人工智能做出决策所必需的,但在很多场景下人工智能可能仍然会采集个人数据。典型案例3:在自动驾驶场景中,为了避免撞到行人,自动驾驶车辆上的传感器会收集足够的行人数据来识别他们,但识别特定的个人并不是系统做出决策所必需的,人工智能只需要确定目标是否是行人即可,但在这种情况下,行人的身份数据仍然被抓取了 。5Center For Information Policy Leadership,Articial Intelligence and Data Protection in Tensioninformationpolicycentre/uploads/5/7/1/0/57104281/cipl_ai_rst_report_-_articial_intelligence_and_data_protection_in_te.pdf5观安信息观安信息观安信息赛博研究院观安信息赛博研究院The AI That Predicts Your Sexual Orientation Simply By Looking At Your Faceforbes/sites/bernardmarr/2017/09/28/the-ai-that-predicts-your-sexual-orientation-simply-by-looking-at-your-face/#32068c943456Gartner Says Articial Intelligence Is a Game Changer for Personal Devicesgartner/en/newsroom/press-releases/2018-01-08-gartner-says-articial-intelligence-is-a-game-changer-for-personal-devices672.1.3 现场数据用于产品改进对于许多智能产品和服务商而言,收集用户数据的其中一个重要目的是优化产品性能和用户体验,使其更加智能。例如上述亚马逊智能音箱的例子就是一个典型案例,再如智能手机、Windows操作系统、办公软件也在普遍收集用户数据,用于改进产品的智能水平。此类行为虽然是为了为用户提供更加成熟的产品和服务,但若在用户不知情的情况下收集数据,则会对用户的隐私构成威胁。2.1.4 数据分析挖掘与隐私随着企业普遍意识到数据的可利用价值,对用户的数据分析和挖掘变得无处不在,数据成为企业竞相争夺的重要资源。同时,人工智能和大数据技术的快速发展使得对数据的分析和挖掘能力也越来越强。典型案例1:在众所周知的“Facebook数据泄露”丑闻中,剑桥分析公司将来自Facebook上数千万用户的数据,用于在2016年美国总统大选中针对目标受众进行政治广告投放。剑桥分析公司使用的机器学习模型可以基于种族、年龄、性别等人口特征来建立影响选民的方法。典型案例2: 当前的人工智能技术已经可以做到分析人的情绪、性格,甚至性取向等特征 。著名咨询机构Gartner曾预测,到2022年,用户的个人设备将比他的家人更加了解其情绪状态 。6709 10同时,随着数据分析和用户画像技术的快速发展,个性化服务变得越来越普遍。然而,个性化服务建立在对用户数据的分析之上,出于对隐私的担忧,消费者对个性化服务的态度正快速发生转化,由之前的接受变为越来越排斥 。同时,认为“拥有更多用户数据的公司能够提供更好、更个性化的产品和服务”的用户也越来越少。这一趋势表明,隐私问题已成为技术发展的严重阻碍。此外,人工智能技术可以通过数据关联分析和模式识别从非个人数据或匿名化的数据中识别出特定的个人 。一方面,人工智能扩大了收集数据的类型和需求,例如,从手机、汽车和其他设备的传感器可以收集大量和类型多样的数据。另一方面,人工智能提供了越来越先进的计算能力来处理这些收集的数据。通过将分散的、无意义的数据点组合在一起组成扩展数据集,可以实现对特定个体的识别。2.1.5 逆向攻击与隐私神经网络等人工智能算法可以记住训练数据集的细节信息 ,攻击者可以利用逆向攻击方法,通过分析系统的输入输出和其他外部信息,推测系统模型的参数及训练数据中的隐私信息 。其中对模型参数的窃取将对企业知识产权构成安全威胁,对训练数据隐私信息的窃取将对个人隐私构成安全威胁。891011RSA Data Privacy & Security Survey 2019:The Growing Data Disconnect Between Consumers and BusinessesRethinking Data Privacy: The Impact of Machine Learningmedium/luminovo/data-privacy-in-machine-learning-a-technical-deep-dive-f7f0365b1d60Privacy-Preserving Machine Learning 2018: A Year in Reviewmedium/dropoutlabs/privacy-preserving-machine-learning-2018-a-year-in-review-b6345a95ae0fAI安全白皮书,华为891011观安信息观安信息观安信息赛博研究院观安信息赛博研究院