BAAI-2021年人工智能的认知神经基础白皮书_110页_3mb.pdf
人工智能的认知神经基础( Brain and Machine Intelligence 智源 人工智能的认知神经基础重大研究方向 编著 白皮书 | 北京智源人工智能研究院 2022 年 1 月 版权声明 该 白皮书: 人工智能的认知神经基础( 2021 年)由北京智源人工智能研究院 人工智能的认知神经基础 重大研究 方向所著 , 旨在通过促进交叉领域的学术交流,为学科创新发展提供前沿动态和趋势洞察。 本白皮书著作权受法律保护,转载、摘编、翻译或利用其他方式使用本白皮书观点的, 应注明来源。 指导专家 刘 嘉 智源首席科学家,清华大学 脑与智能实验室研究员 宋 森 智源研究员,清华大学生物医学工程系研究员 吴 思 智源研究员,北京大学心理与认知科学学院教授 方 方 智源研究员,北京大学心理与认知科学学院教授 余 山 智源研究员,中国科学院自动化研究所研究员 陈良怡 智源研究员,北京大学 未来技术学院 教授 编写组成员 张 博 智源 博士后, 人工智能的认知神经基础重大研究方向 苏 杰 智源 博士后, 人工智能的认知神经基础重大研究方向 蒋 龙生 智源 博士后, 人工智能的认知神经基础重大研究方向 陈智强 智源 博士后,人工智能的认知神经基础重大研究方向 陈路瑶 智源博士后,人工智能的认知神经基础重大研究方向 邹晓龙 智源博士后,人工智能的认知神经基础重大研究方向 刘 祥 智源博士后,人工智能的认知神经基础重大研究方向 徐琳璐 智源博士后,人工智能的认知神经基础重大研究方向 秦方博 中国科学院自动化研究所助理研究员 韩 程 中国科学院自动化研究所博士研究生 搭建脑科学与人工智能的桥梁 智源研究院院长 黄铁军 智源研究院 2021 年度人工智能的认知神经基础白皮书如期和大家见面了!延续去年的传统,今年的白皮书盘点了神经科学、认知科学、智能技术等相关领域的重要进展;同时,与去年不同的是,除了从认知科学和神经科学两大领域系统梳理重要进展及对人工智能的启示外,今年还集中介绍了类脑视觉、脑机接口和交叉学科技术这三个方向的热点和趋势,以飨读者! 脑科学对人工智能的重要性不言而喻。把人工智能这个概念送上历史舞台的1956 年达特茅斯夏季研讨会共讨论了七大问题,问题 3 就是“神经网络:一群神经元是如何形成概念的?”,我认为这是人工智能需要回答的最重 要的问题,也是脑科学需要回答的最重要的问题。 “一群神经元”,这是神经科学的研究对象,“形成概念”,这是认知科学的研究对象,这个最重要的问题,正是认知科学和神经科学的连接点。认知科学研究智能现象,主要采用自顶向下的方法,神经科学研究脑的结构,主要采用自底向上方法。 认知科学和神经科学都属于脑科学,它的研究对象是脑及其智能现象,被称为“自然科学的最后疆域”,进展速度不如人工智能那么让人眼花缭乱。这是因为,人工智能是一门技术,目的是构造越来越智能,因而越来越复杂的系统,它的进步比较容易看得到。相比之下,生物神经 系统是个盘根错节的黑暗丛林,生物智能是复杂的动力学现象,还缺乏有效的数学工具,因此任何一点儿进步都十分艰难。 人工智能并不能因为进步快而沾沾自喜。当前人工智能系统和生物神经系统相比,还是小巫见大巫。例如智源研究院去年发布的人工智能大模型“悟道 2.0” ,参数规模达到 1.75 万亿,但还不到人类大脑连接数量的 2%,而且其基本单元和连接方式都比生物系统简单得多。视觉是研究人员最多、应用最广的方向,但是已有视觉模型都难望生物视觉之项背,今年热点是视觉大模型,如果要在像素级进行视觉空间关系训练,集合全球算力都不够,更逞 论时空关系联合训练。 说到算力,人们往往会说强大的人脑是个低功耗系统,这是认识错位。用人工智能的术语来说,人脑的低功耗是“推理”过程低功耗,而不是“训练”过程低功耗。人脑是亿万年进化的产物,进化就是一种训练过程,大自然训练出人脑这个复杂网络,消耗了巨量太阳能,相比之下,全球算力功耗算得了什么呢? 推 荐 语 这就是人工智能离不开脑科学的原因。以“机器学习 +大数据 /复杂环境 +大算力”模式训练大规模智能模型,确实可以解决不少问题,但天下没有免费的午餐,强大智能是以巨大训练成本为前提的,训练人脑花费的“天价”,人类付得起吗? 因此,借鉴生物大脑这个已经训练成功的“蓝本”,模拟生物大脑的精细神经结构和信息加工机理,却可能是实现更强大、更通用人工智能的最短路径。 借鉴脑科学研究成果,并不是说默默等待脑科学最新进展,事实上,脑科学大量已有进展尚未在人工智能领域得到有效利用。例如,目前人工神经网络所用的神经元模型,还是 1943 年的麦卡洛克 -皮茨( M-P)模型,训练的理论依据,还是 1949 年提出的赫布学习规则( Hebb Learning Rule)。在脑科学领域,有许多与智能行为密切相关的认知范式、神经活动机理等“宝藏”等待人工智能领域研 究者开发和利用,并以此推动生物智能启发的人工智能模型算法研究新范式。 因此,智源研究院 于 2020 年 8 月,设立“人工智能的认知神经基础重大研究方向”,就是要促进脑科学和人工智能的交叉,促进两个领域学者的交流和合作。作为认知神经基础重大研究方向的重要成果,智源生物智能开源开放平台已经在去年正式上线。同时智源研究院还在去年设立了生命模型研究中心,从模拟高精度生命系统的角度开展交叉领域前沿探索。 为了进一步加强脑科学和人工智能的合作,架起连接脑科学与人工智能的实际桥梁,我专门造了一个新词:“智元( Wiston)”, 意思是具有独立智能功能的基本神经回路。事实上,脑科学已经发现了很多“智元”,例如这份报告第 2章提到的位置细胞和网格细胞、第 3 章提到的吸引子网络、赢者通吃网络,众所周知的视皮层简单细胞和复杂细胞,以及近期热门的记忆痕迹细胞等,已经遍及感知、定位、学习、决策、记忆等多种智能。可惜的是,这些进展都没跳出“细胞 /神经元”这个神经科学术语,因此我提出“智元”概念,就是要把相对独立的智能和实现这种智能的一群神经元(及其网络连接)作为一个整体单元。以“智元”作为基本单元构造的人工智能系统,将是可解释、可预期和可信任的。 当然更重要是,从“智元”开始,我们就已经开始回答“一群神经元是如何形成概念的?”这个最重要的问题了。 1 前 言 近年来人工智能技术得到了快速的发展,引起了各界的广泛关注。随着计算机算力和 大数据可及性的快速提升,以深度人工神经网络为核心的人工智能系统在物体识别、自然语言处理等领域取得了令人瞩目的成绩,在围棋、星际争霸等竞技游戏中一骑绝尘,甚至在蛋白质结构解析、提出和解决数学难题等方面展现出超越人类专家的潜力。但目前的人工智能与通用智能之间,还存在巨大的能力鸿沟。而大脑作为通用智能的唯一样本,为人工智能的发展提供了重要参照。智源 “ 人工智能的认知神经基础”重大方向 ( Brain and Machine Intelligence) 旨在从生物脑如何实现智能的角度,对于人工智能的发展提出有启发的问题, 提供可资借鉴的原理、模型、算法和系统实现方案,从而促进类脑智能的发展,推动人工智能向人类水平,甚至超越人类的水平逐渐逼近。每年发表的白皮书就是我们的尝试之一,希望通过它向大家梳理脑科学、认知科学和类脑智能方向上最值得关注的动态和进展,并分享我们对于这些方向未来发展趋势的思考。 计算神经科学的先驱,英国科学家 David Marr 曾经提出,可以从三个层面理解脑的工作原理,首先是计算的层面 (Level of Computation) , 即脑在做什么计算,以及为什么要做这个计算;其次是表征 /算法的层面 (Level of Representation/Algorithm), 即脑在计算过程中的信息如何表征,选择什么算法来实现计算目标;最后是物理实现的层面 (Level of Implementation),即脑选择什么样的硬件实现形式来执行这些计算。今年的白皮书中,上述三个层面的研究进展都会有所涉及。 在计算层面,我们重点介绍了具身认知 ( Embodied Cognition) 理论和全局工作空间 ( Global Workspace Theory, GWT) 理论。与当前主流人工智能主要基于被动观察与识别,往往不具有具体物理形 态的范式不同,具身认知认为,认知过程无法脱离身体而进行,推广开来,整个环境和个体的行为同样是认知的重要组成部分。个体通过感知外部环境,进行决策,生成相应动作与环境交互,以此改变环境,这个过程周而复始,促成了智能的形成和发展。全局工作空间理论则是 2 由美国心理学家 Bernard Baars 在上世纪 80 年代作为一种意识模型而提出的认知架构,后来发展为“全局神经元工作空间” ( Global Neuronal Workspace, GNW) 。GNW 如同一个分布式路由器,同各个脑区的众多神经元存在关联,从而可以放大、维持信 息,并提供给各个处理模块使用,从而实现全局的信息共享和处理。 在表征 /算法层面,我们今年聚焦于脑中认知地图的表征以及神经流形这两个重要的研究领域。位于脑中海马体及其邻近脑区中存在表征空间特征的位置细胞 ( Place cell) 和网格细胞 ( Grid cell) ,近年来的研究揭示这一系统可能不仅涉及空间记忆与导航,而且可能参与了物理空间认知以外的信息处理,比如图片空间、嗅觉空间,甚至关系空间的表征,提示脑中可能用一套通用的机制在处理一系列表面上截然不同,但是具有深刻共性的信息维度。神经流形 (Neural manifold)则是利用动力学的理论和观点来理解众多神经元构成的群体如何开展高效计算的有力工具。通过流形向量场这一精确的数学语言对神经电生理信号进行分析已经开始回答很多有关神经群体编码的关键问题。 在物理实现层面,我们重点介绍了受生物视网膜启发的动态视觉传感器( Dynamical vision sensor,简称 DVS)和脉冲摄像头 ( Spiking camera) 。与传统的视觉传感器不同,这两类模拟视网膜的感知设备能够将图像信息转化为脉冲事件流进行表征,具备高动态范围、高时间分辨率、低能量消耗以及高像素带宽等特性。相应的,我们也系统地梳理了适宜于处理脉冲事件流信号,并可以开展运动目标快速探测、有效跟踪和精确识别的类脑视觉计算模型和算法。 在上述三个方面的内容之外,我们还针对脑科学与类脑智能研究中近年来涌现的新技术,特别是脑机接口技术、新型脑成像、连接组学与数据 处理方法等进行了梳理和介绍。脑机接口通过对于脑活动信息的检测和调控,在脑与外部世界间建立直接的信息通讯接口。这一技术的发展,有望对于人与环境、人与人的交互方式带来根本变化,从而引起社会、经济、教育、军事、医疗等众多领域的颠覆性变革。新型脑成像、连接组学与数据处理方法,展现了以往观察不到的神经活动细节,解析了神经网络中各部分的相互作用机制,从而促进人们进一步理解神经系统的设计原则。 3 编写白皮书的过程是我们一年一度盘点神经科学、认知科学、智能技术等相关领域重要进展的过程,也是我们不断思考什么是智能,以及如何发展 类脑智能的过程。希望这些努力能让对于这些领域的进展感兴趣,也对回答这些问题感兴趣的读者有所收获。与此同时,经过人工智能的认知神经基础方向各位同仁一年多的努力,智源生物智能开源开放平台 ( Bio-Intelligence Opensource Platform, BIOSP) 已经在 2021 年正式上线,该平台旨在通过开源开放数据、模型、算法、软件工具等一站式科研资源的方式,为认知科学、神经科学和计算科学及相关交叉领域的研究人员、学生和相关从业者搭建一个服务智能科学研究的平台型基础设施,进而推动和支撑国内脑启发的通 用智能研究工作。希望每年一版的白皮书和不断完善的开源开放平台能够助力中国脑 -智研究的交叉融合,促进类脑通用智能的早日实现。 4 目 录 前 言 . 1 第 1 章 认知科学对人工智能的启示 . 6 1.1 具身主义认知科学的兴起 . 7 1.1.1 符号主义与联结主义认知科学 . 7 1.1.2 具身认知与强化学习 . 8 1.1.3 多智能体交互与共识主动性 . 11 1.2 全局工作空间理论 . 12 1.2.1 人类的认知架构 . 12 1.2.2 元认知与元学习 . 18 1.2.3 深度学习与全局隐空间理论 . 22 1.3 总结与展望 . 23 第 2 章 神经科学进展 . 28 2.1 单神经元编码与抽象表征 . 29 2.1.1 从位置细胞,网格细胞到物理世界的神经编码 . 29 2.1.2 从物理空间到抽象空间的神经编码 . 31 2.2 神经元群体编码:神经流形 . 34 2.2.1 什么是神经流形 . 34 2.2.2 有关神经流形的实验发现 . 36 2.2.3 流形的维度 . 38 2.2.4 流形与线性解码的关系 . 40 2.2.5 流形上的动力学 . 43 2.2.6 流形向量场和循环神经网络 . 45 2.2.7 总结和展望 . 46 第 3 章 类脑视觉 . 51 3.1 类脑视觉从采集信号开始 . 52 3.2 类脑视觉的基本计算模型 . 54 3.2.1 运动目标快速探测的类脑模型 . 54 3.2.2 运动目标预测跟踪的类脑模型 . 56 3.2.3 运动目标识别的类脑模型 . 58 3.3 总结与展望 . 60 第 4 章 脑机接口技术与应用 . 64 4.1 脑机接口技术及其发展趋势 . 65 4.2 植入式脑机接口芯片 . 66 4.2.1 高通量低功耗技术 . 67 4.2.2 无线化技术 . 68 4.2.3 未来展望 . 69 4.3 柔性电极植入机器人 . 69 4.3.1 国际研发进展 . 70 4.3.2 国内研发进展 . 71 4.3.3 面临的挑战 . 72 5 4.4 脑机接口技术的应用 . 72 4.4.1 下行脑机接口 . 73 4.4.2 上行脑机接口 . 76 4.4.3 未来展望 . 79 4.5 总结与展望 . 79 第 5 章 交叉学科技术进展 . 82 5.1 高精度高信息量的数据获取方法 . 83 5.1.1 稀疏解卷积通过计 算提高成像分辨率 . 83 5.1.2 多色成像揭示系统全景组分 . 86 5.1.3 脑连接组反应组织设计原则 . 87 5.2 智能化数据处理手段 . 92 5.2.1 更智能的图像数据处理 . 92 5.2.2 智能化的生物大数据分 析 . 94 5.3 总结与展望 . 97 结 语 . 101 6 第 1章 认知科学 对 人工 智能的启示 近年来,人工智能领域在第三次浪潮爆发 后 经历了快速的发展,许多特定领域的专用人工智能算法已经大幅度超越了人类的水平,并在工业生产和社会生活中得到了广泛的应用。 尽管如此, 主流的观点仍然认为,目前深度学习算法的本质依然是海量数据驱动的统计学习,距离人类更加复杂的高级认知功能仍然存在本质上的差别。如何弥补这种差异,从而推动人工智能从弱人工智能到强人工智能的转变,已经成为许多从业者开始思考并着手解决的重大难题。 认知科学 ( Cognitive Science) 是一门 研究 认知 如何工作 的交叉学科 , 自诞生之初便 与 人工智能有着密不可分的关系 。 认知科学的 相关 理论数次推动了人工智能的发展,而人工智能作为人类模拟大脑功能的尝试, 其 本身也 可以看作是认知科学理论的 一种 实践 和验证 。 在本章中,我们将简要介绍认知科学的具身主义流派 以及 可能对实现通用人工智能具有一定指导意义的全局工作空间理论,并对它们与人工智能的关系做一些简 单 梳理 。 7 1.1 具身主义 认知科学 的兴起 1.1.1 符号主义与联结主义认知科学 在探索智能的道路上,现代意义的认知科学主要经历了两个时代: 符号主义时代( Symbolism)和 联结 主义时代( Connectionism) 1。 符号主义尝试通过操作 具 有 特定 含义的符号来实现 “ 智能 ” ,这一思想被后人概括为物理符号系统,典型的例子是 Alan Turing 在 1936 年提出的图灵机概念( 图 1.1 左 ),通过读写头在纸带上标记二进制信息(有孔和无孔)来实现相应的 计算功能 。图灵机概念的成功让 以 Allen Newell 和 Herbert A. Simon 为首的研究者们相信,通过对符号进行操纵,有限的符号最终可生成无限的信息,最终实现智能。 符号主义浪潮推动了电子计算机的发展,使其在 20 世纪的战争、工业、甚至我们的生活中被广泛使用 ,而 基于符号主义的 人工智能也取得了专家系统、 计算机推理等诸多辉煌的成就 尽管当时许多研究者认为 真正意义上的 人工 智能 近在眼前,但符号主义 在那些不适定问题( ill-posed problems)上却屡屡受挫,止步不前 。 图 1.1 左: 符号主义的代表 图灵机; 右: 哲学家 William James 在 1890 年提出 的 最早的连接主义模型 1 人们开始意识到,古典认知科学所倡导的符号主义衍生出的产品与人脑的智能相差甚远。要实现智能,应该让机器的运作机制向人脑的神经元机制靠拢,由此,受神经科学的发展推动, 联结 主义时代到来,虽然人工神经网络的雏形早在1890 年 已经 由哲学家 William James 提出( 图 1.1 右 )。相比于物理符号系统直接读取特定的符号信息,人工神经网络尝试读取输入源的统计形态信息,并以表征的形式在输入和输出信号之间建立统计关系,以达到学习和预测的目的。 在经 8 历了几次起起落落之后, 当前, 由联结 主义思想衍生出的深度神经网络 ( Deep Neural Network, DNN) 已取得了巨大成功,尤其在人脸识别、图像重建等领域,深度神经网络 为 人们的 生产 生活提供 了许多 便利 。 值得注意的 是,符号主义与联结主义虽然源自不同的哲学思想,但并不意味着两者水火不相容 。基于联结主义的神经网络虽然能够很好的解决图像分类、识别、语音识别、语义理解等任务,但 其背后的原理和可解释性问题一直困扰着人们 ,而符号主义有着更深刻的哲学和数学基础, 在 处理串行等 问题上更加简洁有效。因此, 近年也有一些研究者尝试构造混合模型 ,以 综合这两者的 特长 。 历史上,人工智能的几次繁荣和低谷都与符号主义和联结主义认知科学的发展密切相关 ( 图 1.2) 。虽然基于联结主义思想的深度神经网络目前还处在发展的高峰,但受限于样本量小、泛化能力差、能耗大、语义理解欠缺等瓶颈,当前的深度神经网络所达到的 “ 智能 ” 与人们所向往的类脑通用智能还相差甚远。那么,我们如何做才能实现这样的智能?结合神经科学近年来的重要发现,我们认为,以 Lawrence Shapiro 为代表的学者提出的具身主义浪潮会在不远 的将来到来。 图 1.2 符号主义与联结主义相关文献数量随时间的变化, 修改自 2 1.1.2 具身认知 与强化学习 古典认知科学中的三明治模型( sandwich theory) 认为 ,由智能驱动的认知过程可以视作一个由 感知 、 思考 、和 动作 ( sense-think-act)这 3 个独立的 9 元素所构成的回路 1( 图 1.3) ,通常人们主要关注的是 其中的 Think,却有意无意的将另外两部分弱化 。 而 具身认知( Embodied cognition) 认为,人的认知过程无法脱离身体而进行, 推广开来 , 整个 环境和 个体的 行为同样是认知的重要组成部分, 个体( agent)通过感知外部环境,产生思想并通过计算后,生成相应 动作 与环境交互,以此改变和影响环境,这个过程周而复始, 这 就是智能。 图 1.3 古典 认知科学中的三明治模型 1 地球上的动物经历了几亿年的演化( Evolution)而表现出了显著的 具身 智能, 这使得 它们 能够在复杂的环境中生存 、 学习 , 并与其他 个体、其他 物种和环境进行交互。 在行动中, 动物 为了趋利避害往往会更加频繁的采取对自己有利的行为策略 。 经过一段时间的学习之后,这些行为被强化( reinforce),甚至变成习惯而固定下来 , 这种学习方式称为 强化学习( Reinforcement Learning)。 在强化学习 中,智能体不断与环境进行交互并得到反馈( Feedback),通过试错( trial-and-error)的方式去总结哪些行动可能会带来更好的收益( Reward),以便于更好的适应环境。 如果我们把时间尺度放大,在个体的强化学习之外, 自然或 环境本身还会提供一种优化 算法 , 即 通过自然选择筛选种群,并通过基因突变来避免陷入局部极值点。 基于具身认知 , 李飞飞 团队 提出了一个 同时包含这两者的 计算框架,称为深度进化强化学习( Deep Evolutionary Reinforcement Learning, DERL) 3。在 该框架 下 ,智能体可以在多个复杂环境中执行不同的任务。 在这项研究中创建的具身智能体可以 在 平地 、 多变地形 等不同环境中 执行巡视、导航、避障、探索、逃脱、爬坡、推箱子和控球等 多种不同的 任务 ( 图 1.4) 。 DERL 为计算机模拟实验中大规模具身智能体 的 创建打开了一扇门,这有助于获得有关学习和进化如何 10 协作以在环境复杂性,形态智能 以及 控制的可学习性之间建立复杂关系的科学见解。此外, DERL 还减少了强化学习的样本低效性的情况。智能体的创建不仅 具有所需使用的数据更少的优势 ,而且 还 可以泛化解决 其他多种形式的 新任务。 图 1.4 具身智能体能够在不同环境中执行多种任务 3. 无独有偶, DeepMind 团队也进行了相似的研究 4, 通过自动生成大量不同的环境和游戏目标,智能体可以接受各种各样任务的训练 ( 图 1.5),在大规模的开放 ( Open-Ended)环境 中,智能体甚至学会了举一反三 ,做到了现有深度神经网络难以做到的零样本学习( Zero-Shot Learning) 。 强化学习 和进化 对于具身智能体 和通用智能的重要性可见一斑 。 图 1.5 Open-Ended Learning 中的开放环境 XLand4 具身 智能体的一个显著特征是可以 利用不同的感觉器官获取环境的信息 进行整合 ,并 执行多种不同的任务 。 例如,动物们可以 通过 视觉、听觉、触觉等不 11 同的感官获取环境信息,并进行 觅食、逃跑、迁徙等 等 。 而当前的人工智能大多只能执行非常单一的或者少数任务, 即便 是 DeepMind 宣称 的 可以执行几百万种不同任务的 智能体, 仍然有具体 任务相似性 太高的缺陷 。 与之 形成 鲜明对比的是,生物智能体能够执行的任务 种类 要多得多 ,并且通常涵盖多种不同的认知功能。 在认知科学中,我们经常通过不同的任务范式去研究人类智能的一些特征甚至缺陷。这些任务范式通常是为了 特定 实验目的定制 的 , 然而 其中的一些 单一 任务对于 目前的 人工智能而言仍然 有 一定的难度,更不用说让智能体同时完成多种任务。 值得一提的是, 在智源的 生物智能开源开放平台中, 我们 开放了 30 多种不同的人类认知行为范式, 实验主题 包括客体识别、注意、记忆、语言、数量感、音乐、空间认知等, 每种任务都包含大量人类被试的行为数据 。 我们认为, 这些任务可以供新的具身智能体在开放环境中学习用,也可以作为测试任务 评估 训练后 的智能体的认知能力,并 与人类智能进行对比。我们 希望这批数据能够 为 人工智能发展多任务能力提供 一些 帮助。 1.1.3 多智能体 交互与 共识主动性 在具身认知中, 与其他个体的交互也是 智能体与 环境交互的重要组成部分,不同智能体之间可能存在合作、竞争等不同的交互模式 。 社会 认知 ( social cognition)通常主要关注多个个体之间,或者个体与群体之间 的 交互 行为 。例如 , 两个或多个个体间 可重复进行的 社会决策往往 在 博弈论( Game Theory) 的框架 下 进行 研究 。 这些理论对于多智能体交互固然具有重要的意义,但 在大量智能体同时 活动的环境中,智能体之间进行直接对话的方式往往并不能达到好的效果,甚至 难以完成。 在一些低等动物中,尽管每个个体的智能非常有限,但众多个体组成的群体却能涌现出一定的智能 (群体智能) 。 例如,鱼群 能够 结队行进, 防御捕食者 ,提高觅食成功率 ;蚂蚁搬运食物时往往走的是最短的路径 等等。 每只蚂蚁在它走过的路径上都会留下信息素,并尽可能沿着信息素浓度高的路径前进,而信息素会随时间挥发,于是最短路径上信息素的浓度更高 。 人们借鉴这种现象创造了蚁群算法 和粒子群优化等算法 , 并且这种现象 在 无人机编队等多智能体互动中 也得 12 到了充分的关注 。 在宏观层面, 共识主动性 不仅仅出现在低等动物中,根据其定义,人类在社会活动和文明的进程中也会通过共识主动性 机制 与其他人 进行间接的交互,尤其在互联网时代,任何人对于互联网环境都可以造成直接或间接的干预,从而可能对其他人造成或多或少的影响 。科研社区、开源社区以及基于区块链技术 的金融社区等等都体现出了人类社会中的共识主动性, 而在可以预见的将来,当元宇宙普及之后,这种作用可能会更加明显。 在微观层面,大脑的智能也可以看作功能相对单一的大量神经元涌现出的群体智能 。 同鸟群和鱼群类似,通常只有临近的神经元之间存在直接交流, 信息通过这种局部的交互也能够传遍大脑并进行计算加工。 事实上,神经生物学的 研究表明,神经元的生长 发育 、突触的 建立 可能也体现了一种共识主动性: 神经元通过发放神经递质、 代谢产物等改变其附近的微环境,并利用组织液中的化学物质决定自己的行为,从而与环境中的其他神经元进行间接交互。 甚至已经有研究者开始考虑在人工神经网络中加入共识主动性机制。 1.2 全局 工作 空间理论 1.2.1 人类的认知 架构 伴随着具身主义思想的发展,以及多智能体交互 需求的不断上升 , 促使 了对环境中个体的 认知架构 研究 。 科学家们 一直 试图将人类的心智( Mind)理论化,并 通过 形式化建模 的方式 来 构建认知架构 。以实现人工智能 。 认知科学和神经科学近几十年的研究已经表明,大脑是模块化的,不同的区域具有特异的不同功能,例如人脑的梭状回面孔区( fusiform face area, FFA)负责面孔的识别, 韦尼克区 ( Wernickes area)负责语言语义理解,额叶眼动区( frontal eye fields, FEF)负责扫视运动等等。 那么,这些区域如何 相互配合,完成“ 在嘈杂的人群中 看到熟人,听到他 说话时盯住嘴巴 , 同时利用嘴型和不甚清楚的声音 听懂他在跟你打招呼并走过去聊天 ” 这样的 日常 行为呢? 这就涉及到了我们将要介绍的全局工作空间理论( Global Workspace Theory, GWT) 6,7。 13 图 1.6 GWT 认知架构的功能框架 草图 5 全局工作空间理论 是由美国心理学家 Bernard Baars 在上世纪 80 年代提出的一种认知架构, 它 最初作为一种意识模型而 被 提出, 是 现代认知科学的一个重要理论。该理论认为,大脑可以分成一些具有特定功能的模块,当感知觉输入或任务需求激发了某些模块的响应之后,这些响应会相互竞争,通过选择性注意机制,某些信息会进入全局工作空间,并在不同模块之间进行广播( broadcast),以此完成不同模块之间的信息交流,并合作完成不同的任务。而当信息进入全局工作空间并分发到其他模块时,意识就此产生( 图 1.6)。 GWT 理论通常可以用“剧场隐喻” ( theater metaphor) 来 理解 8( 图 1.7) 。 在 “ 意识剧场 ” 中,选择性注意像 聚光灯 一样 照亮了舞台上的一个 区域 。这个亮点揭示了意识的内容 : 演员们 进行表演 、 演讲或者相互交流。 导演、 编剧 、 场景设计师等 工作人员 藏在幕后的 黑暗中 , 他 们塑造了 舞台 上的可见活动,但它们本身是不可见的。 舞台中正在上演的内容也被播送给 同样处在 黑暗中的 观众 ( 即 大脑的其他部分) 。 14 图 1.7 GWT 的剧场隐喻 8 Dehaene 和 Changeux 等人 提出了一个全局工作空间架构的神经元 版本 ,即所谓 “ 全局 神经元工作空间 ”( Global Neuronal Workspace, GNW) 9,10。在他们的模型中, 一些局部的、专用的、模块化的皮层区域构成了一个单独的计算空间, 各个模块可能具有各自的层级结构,但不同部分可以并行、分布式处理特定的信息,如感 知觉、运动 、记忆等等。第二个计算空间是由一些广泛分布的兴奋性神经元(称为 GNW 神经元)和具有长程连接的轴突组成,能够 通过下行连接选择性地调动或抑制特定 模块传入的信息 。 在他们的模型中, 这种分布式的神经元群体具有自下而上接收信息并将自上而下的信息传输给任何一个处理器的能力,从而选择和广播信息 ( 图 1.8) 。 这种大范围广播允许不同的认知模块都能够接收到信息,被认为有助于未知问题的解决 ,例如通过 调动不同的 信息处理模块进行 竞争 或合作 ,从而更容易找到解决问题的路径 。 15 图 1.8 Global Neuronal Workspace 11, 12 GNW 的激活是非线性的, 具有“全或无”( all-or-none)的特性, 即 一旦有信息进入,便会 迅速 诱 发全局工作空间的广播,这称作“ 引燃 ”( ignition), 这种现象已经 在人和动物的实验中 得到了证实 ( 图 1.9) 。 引燃可能由外部刺激所触发 ,例如 黑暗里的一盏灯、周围车辆的鸣笛 ; 或者受正在执行的任务相关脑区触发 ,例如在回忆时发生“知晓感”( feeling of knowing),话到嘴边 却无法提取记忆内容; 甚至 可能在休息时自发随机 产 生。 GNW 还具有 独占 性 ( exclusive) ,某群神经元的激活能够抑制其余的神经元,如果 某个模块的信息激活了全局的活动模式,其他模块的信息将无法进入全局工作空间,因此全局工作空间只能够串行处理信息,并且不同子系统之间会存在竞争。这种机制符合意识的一些特征,例如状态单一,容量有限、顺次发生,也能够解释诸如非注意盲视( Inattentional Blindness)、注意瞬脱( Attentional Blink)等认知现象 。 GNW 如同一个分布式路由器,同各个脑区的无数神经元存在关联,从而可以放大、维持信息,并提供给各个信息处理模块和丘脑皮层环路使用。大脑的前额叶皮层( prefrontal cortex, PFC)、背外侧前额叶皮层( dorsolateral prefrontal cortex, DLPFC)、下顶叶皮层( inferior parietal cortex)、前颞叶皮层( anterior temporal cortex)、前后扣带回皮层( anterior/posterior cingulate cortex, ACC/PCC)、楔前叶( precuneus)等脑区,各自有其独特的功能和连接模式,但相互之间存在广泛的连接,任何一个区域获取的信息都可以迅速提供给其他脑区。这些脑区之间密切的双 向连接为引燃( ignition)创造了条件,从而能够触发突然的、集体的协同活动在全脑广播。 16 图 1.9 猕猴和人脑中的引燃 13 2017 年, Christof Koch 团队 在小鼠的 屏状核 ( claustrum)发现了三个巨大神经元( Giant Neuron) 14, 这些神经元跨越大脑 的 两个半球, 缠绕在整个大脑周围, 与大脑负责感觉信息、负责行为反应的许多区域都有连接, 在神经元层面符合全局 工作 空间的特征, 被认为可能是意识的开关。 GWT 不仅仅是一个概念模型 , Dehaene, Changeux 等人提出的 神经元动力 模型( Dehaene-Changeux Model, DCM)即为 GNW 的一种计算机 模拟 15。 通过分别建模单个神经元、丘脑皮层柱网络和具有长程连接 的 由 网络 组成 的网络( 图1.10), DCM 模拟 了生物脑中观测到的丘脑 -皮层震荡,以及网络自发或刺激诱发的引燃( ignition) 等 现象。 17 图 1.10 Dehaene-Changeux 模型 15 Franklin 等人在全局工作空间理论的基础上构建了一个更加通用的认知架构,称为 学习型智能分配代理( Learning Intelligent Distribution Agent, LIDA) ,是 一种 生物学启发 的 综合性、可以计算实现的概念模型 16。 LIDA 模型以 LIDA 认知循环( cognitive cycle)为基础 ( 图 1.11) 。 LIDA 把认知 循环 看作是一个认知原子,其中包含了更高层次的认知过程、思考、推理、问题解决、计划、想象等 。每个认知循环 分为三个阶段: 感知 理解阶段、注意阶段以及动作选择和学习阶段 ,各个阶段分别由若干相互作用的模块构成,如 图 1.11 所示。 在每个认知周期中, LIDA 智能体首先通过更新其对 环境 外部和内部特征的表示,尽可能好地理解其当前 的 状况 ( current situational model) 。通过 一种 竞争过程,它决定哪 些信息 最需要注意 ,并将 这 些信息 广播,使其成为 当前 意识的内容,于是智能体 能够选择适当的行动 去 执行。 需要指出的是, LIDA 认知循环中的各个模块并不与大脑中的功能模块直接对应,它们更多的是一种思维或心智意义上的功能模块。 虽然模块在图中用明显的边界表示,但它们 有非常丰富的交互,可能很难清晰的拆分开。另外, 在 LIDA 模型中,除了意识和行为选择部分以外,其他 过程 都可以异步、并行 的 处理。 LIDA 模型实现并充实了全局工作空间理论,并且涵盖了人类认知的很大一部分, 为许多认知过程提供了合理的解释, 被认为有可能作为理解 心智如何运作的工具。 同时, LIDA 框架被认为可能对通用人工智能( AGI)的实现具有重要的帮助 17,18。除此之外, Blum 等人还基于 GWT 构建了意识图灵机( Conscious 18 Turing Machine, CTM, 图 1.12),认为可以用于构建具有意识的人工智能系统。 图 1.11 LIDA 模型中的认知循环 19 图 1.12 意识图灵机( CTM) 20 1.2.2 元认知与元学习 现代计算科学的创始人艾伦 图灵( Alan Turing)和约翰 冯 诺依曼( John von Neumann)认为 , 机器最终 能够 模仿包括意识在内的大脑的所有能力 , 而当前的深度学习和人工智能所解决的计算问题主要与人脑中的无意识认知加工相对应。 意识似乎是实现通用人工智能( AGI)的过程中无法避开的一个话题, 针 19 对机器能否拥有意识的问题, Dehaene 等人提议将人类的意识相关计算分成三个水平 21。 无意识加工( unconscious processing, C0)包括 了大部分人类的智能,例如 知觉恒常 性、语义 提取 、 决策、学习等 , 大多 在潜意识或无意识状态 即可完成。图 1.13(上)展示了 面孔加工中潜意识下的视觉不变性( subliminal view-invariant), 如果首先呈现 同一个人的面孔 进行阈下刺激 , 即便是完全不同视角的照片也能促进面孔信息的加工,并降低 FFA 区域的激活强度 ,这种现象称为潜意识启动( subliminal priming) 。 图 1.13(下) 的双眼抑制实验 中 ,阈下刺激也能够进行有效的证据积累,从而影响正确率和