AI驱动新药研发深度发展.pdf
白皮书 第 期 2021 年 01 月 W H I T E P A P E R AI驱动新药研发深度发展 Pharmaceutical R&D is Deeply Driven by AI Technology 敬请关注第 19 期 2021 年 01月 名人名言:人工智能发现药物分子是2020 年“全球十大突破性技术”之一。 麻省理工科技评论AI 驱动新药研发深度发展 Pharmaceutical R&D is deeply driven by AI Technology 新药研发是守护人类生命健康的重要手段。 近年来确因风险高、 成本高、 研发周期过长等问题, 呈 现 出 发 展 速 度 渐 缓 的 趋 势, 但 人 工 智 能 技 术 的 应 用 赋 予 了 新 药 研 发 成 功 概 率 的 提 升 希 望, 降 本增效的可能。本期白皮书将重点讨论 AI 驱动新药研发深度发展的缘由、现状,以及我国 AI 新 药研发发展面临的机遇与挑战,为业界相关主体提供观点参考。 本期导读 李莹 莹 张建 楠 imit imit 战略咨询中心 战略咨询中心 朱烨 琳内容摘要 1 (一)AI 之于新药研发的意义 (四)AI 新药研发行业发展现状 (五)我国AI 新药研发发展面 临的机遇 (六)我国AI 新药研发发展面 临的挑战 (七)总结与展望 (二) 全球AI 新药研发发展环境 (三)AI 新药研发技术与应用现 状 IMIT 白皮书 2021 年 01 月 第19 期 AI 驱动新药研发深度发展 结合AI 技术赋能作用和传统新药研发痛点 问 题, 阐 明 AI 在新药研发全生命周期中的 应 用 价 值, 强 调 AI 成熟化发展背景下对新 药 研 发 和 制 药 工 业 产 生 的 变 革 性 意 义:1 ) 赋予了新药研发由关系数据驱动的新科学研 究 范 式;2 )一定意义上拓宽了传统计算机 辅助药物研发的作用边界。 为积极应对新药创制国际大环境变化,国际 社会部分国家已积极拥抱AI ,并在其国家 政策中明确AI 赋 能 新 药 研 发 发 展。 通 过 梳 理中国、美国、日本、印度四国在新药研发 背景下发布的AI 应 用 政 策, 明 确 各 国 AI 新 药 研 发 政 策 环 境 和 相 关 布 局, 以 及 我 国 AI 新药研发发展所处的国际形势。 概述了AI 新药研发在应对不同场景应用需 求时的实现模式,即大体都需要经历问题设 置、 数据集整合和算法模型构建和评价过程。 并通过描述和案例相结合的方式分别梳理了 该模式下AI 新 药 研 发 的 数 据 利 用 现 状、AI 技术发展现状及应用场景现状。 依照AI 技术赋能模式梳理AI 新药研发上中 下游产业链框架。结合研究、专利、产业细 分领域分布情况分析了AI 在药物研发全生 命 周 期 中 技 术 渗 透 情 况, 即 AI 药物靶点发 现和药物设计环节处于高聚集态势。以全球 人工智能+ 新药研发企业为样本,梳理并分 析了AI 新药研发企业发展布局和合作情况, 并将部分AI 新药研发企业具体情况收录于 白皮书附录部分。 从源头端、服务端、生产端分别剖析了我国 未来AI 新 药 研 发 发 展 面 临 的 重 大 机 遇。 在 源头端主要是国外小分子药物和大分子生物 药基于AI 靶点发现和分子设计的成熟可落 地 对 我 国 发 展 的 借 鉴, 以 及 AI 对于我国瑰 宝中医药的深度挖掘分析的潜在价值。在服 务端主要是CRO 临床服务数字化和智能化 升级在降本提效新药开发中可产生的巨大作 用。 在 生 产 段 主 要 是 AI 赋能下针对新药研 发制药工艺的提升和优化潜力。 剖析了我国AI 新药研发发展面临的挑战在 于:技术支撑基础层面,模型训练可利用数 据的不足和数据资源的闭塞 ; 复合人才方面, 技术迭代加速情况下市场快速供需上的不匹 配;产业基础方面,新药研发基础、氛围和 竞 争 力 薄 弱, 且 作 为 AI 新 药 研 发 的 基 础, 制药企业数字化变革相对滞后。 肯定了AI 新药研发发展的可行性和重要性, 对我国AI 新药研发发展作出展望研究简介 (一)研究背景 (二)研究目标 (三)研究方法 2 (四 )浙江数字医疗卫生技术研 究院 (五)版权说明 新药研发正处于数字化衰退阶段,即一些简 单的药物已被发现,往后的新药发现将越发 困 难。21 世 纪 以 来, 随 着 疾 病 复 杂 程 度 的 不断提升,新药研发难度和成本迅速增加, 但全球新药研发成功率呈明显下降趋势。据 (CSDD ) 统 计, 新 药 临 床 I 期至批准上 市的成功率已经从80 年代的23% 大幅下降 至现在的12% 左右 1 ;而新药研发投资成 本从2015 年的1,498 亿美元每年平均增加 2.8% ,到2022 年将达到1,820 亿美元 2 ; 另德勤2017 年 的 报 告 显 示,2017 年全球 TOP12 制药巨头在研发上的投资回报率仅有 3.2% ,相比2010 年的10.1% 降幅显著 3 。 同时, 我国创新药市场基本被跨国药企占据, 由我国自主研发的新药对于全球创新药物市 场的贡献率约为4% ,仅为美国市场贡献度 的 1/12 ,日本市场贡献度的1/3 4 ,新药研 发水平落后。 作 为 降 本 增 效 的 优 质 解 决 方 案,“AI+ 新药 研发”可通过将机器学习、深度学习、图像 识 别、 认 知 计 算 等 系 列 AI 技术有机嵌入至 新药研发的各环节如药物结构预测、药物靶 标 发 现、 新 药 分 子 设 计 及 试 验 设 计 等 大 大 缩 短 新 药 研 发 过 程, 提 升 新 药 研 发 效 率。AI 赋能新药研发将助力开创新的药物研究范式 和开发流程,加速疾病特效药、候选药的诞 生,用科技深度守护人类生命健康。大力发 展“AI+ 新药研发 ”将为我国新药研发带来 实质性的驱动力,对我国立足全球新药研发 市场意义重大。 明 确 人 工 智 能 驱 动 对 我 国“ ”、 “ ” 药 物 研 发 革 新 产 生 的 影 响。 通过梳理人工智能在新药研发中的应用分 布、行业发展现况以及国内外战略规划,分 析智能新药研发发展面临的机遇与挑战,并 针对人工智能在新药研发应用中的未来发展 趋势提出相关建议和展望。希望通过本期白 皮书,能够为国内智能新药创制行业发展提 供坚实参考和发展建议。 本文通过对国内外相关文献和资料进行检索 和研究归纳,同时选取国内有代表性的医疗 IT 领 域 的 意 见 领 袖 进 行 深 度 访 谈, 准 确 把 握 人工智能在新药研发领域的应用模式。 浙 江 数 字 医 疗 卫 生 技 术 研 究 院( 简 称“ 数 研 院 ”,imit TM )是中国首家致力于数字 与信息化技术在医疗卫生健康服务领域研 发 与 应 用 的 专 业 性 非 营 利 研 究 机 构(NPO/ NGO ), 院 长 为 杨 胜 利 院 士, 理 事 长 为 李 兰 娟院士,常务副院长为郑杰先生。 数研院聚集众多业内的资深院士和专家学 者、全球著名的医疗保健设备厂商、国内外 领先的行业软件企业来共同从事该领域的研 究开发、顾问咨询、认证评估、国际合作、 成果转化等工作,并引领政、产、学、研、 用、资六位一体的公益事业公共服务支撑平 台,进而营造出可生存可持续发展的数字医 疗卫生产业链生态环境。 本白皮书版权属于浙江数字医疗卫生技术研 究院,并受法律保护。转载、摘编或利用其 它使用本白皮书文字或观点内容, 请注明 “来 源:浙江数字医疗卫生技术研究院”,若违 反上述声明者, 本院将追究其相关法律责任。 IMIT 白皮书 2021 年 01 月 第19 期 AI 驱动新药研发深度发展3 一、AI 之于新药研发的意义 (一)AI 对症新药研发之痛 (二)AI 在新药研发中的应用价值 21 世纪以来, 人类疾病复杂程度不断提升, 全球范围内用药需求面临挑战。新药研发难 度和研发成本迅速增加,研发一个新药大概 平均要花26 亿美元, 超过12 年的研发周期, 而最终失败率超过90% , “投入高、 周期长、 风险大、成功率低”已成为新药研发行业魔 咒。对此,人工智能技术的发展应用为新药 研 发 带 来 了 新 的 技 术 手 段,AI 可针对新药 研发痛点问题在整体新药研发的工作流中提 供 单 点 式 辅 助 性 的 解 决 方 案, 具 体 见 图 1 。 基于AI 的虚拟筛选和预测等应用区别于长 周期的摸索实验可实现新药的高效率、低成 本 研 发, 将 新 药 研 发 的 成 功 率 从 12 % 提高 至 14 % ,同时可为药企每年节约 540 亿美元 的研发费用,节省约 50% 的研发时间 5 。 AI 的成熟化发展将对新药研发领域具有变 革 意 义。AI 应用可深入新药研发的全生命 周期,包括新药的从头研发和候选药物小试 等 制 药 工 艺 的 优 化。 重 点 来 说,AI 在新药 研发中的价值在于: 其一,赋予了新药研发由关系数据驱动的新 其一,赋予了新药研发由关系数据驱动的新 科学研究范式。 科学研究范式。当前的新药研发市场正在向 个性化药物和精准医学的方向发展,根据个 体携带的遗传信息制定针对病人需要、为个 体“量身定做”的个性化预防、诊断、治疗 方案的医疗模式,这是遗传药理学和药物基 因 组 学 发 展 带 来 的 一 场 革 命, 而 AI 的技术 赋能必将成为驱动这场革命的新引擎。面向 新药研发经历的三个发展阶段(从疾病的表 型到药物;从靶标到药物;从疾病的分子分 型 到 药 物 ),AI 基于相关关系的关联挖掘 大有可为,为基于因果关系的新药研发带来 新思路。通过支持疾病基因组学等高通量数 据 分 析, 找 出 潜 在 的 / 被 忽 视 的 药 用 通 路、 应答机制以及其与其他疾病的相关性,人工 智能可发现疾病治疗的新靶点和新机制,辅 助研究人员提出新的可供测试的假说,改变 了新药研发“先假设再验证”的传统模式。 与此同时,这也意味着人工智能在加快探索 更广阔的化学空间和药靶蛋白空间,促进发 现罕见病、癌症肿瘤等重大疾病治疗药物和 单病种“孤儿药”、多病种有效药物创制中 潜力无限。 其二,一定意义上拓宽了传统计算机辅助药 其二,一定意义上拓宽了传统计算机辅助药 物 研 发 的 作 用 边 界。 物 研 发 的 作 用 边 界。 在 AI 技术应用出现以 药 物 发 现 临 床 前 研 究 审 批 上 市 (IV 期 ) 临 床 研 究 (I 期 、II 期 、III 期 ) 生 命 科 学 研 究 海 量 异 质 数 据 难 分 析 新 靶 标 发 现 难 新 分 子 开 发 难 候 选 药 物 筛 选 难 制 备 工 艺 质 控 难 受 试 人 群 识 别 难 临 床 试 验 风 险 控 制 难 审 批 鉴 定 难 不 良 反 应 监 测 难 疾 病 机 理 难 发 现 临 床 试 验 申 请 药 品 注 册 申 请 3 - 6 年 6 - 7 年 0 . 5 - 2 年 ? 5000-10000 个 候 选 化 合 物 250 个 候 选 药 物 5 个 有 希 望 的 候 选 药 物 1 个 上 市 药 物 研 发 特 征 数 据 分 析 数 据 整 合 数 据 挖 掘 疾 病 机 理 分 析 靶 标 挖 掘/ 验 证 分 子 设 计 分 子 筛 选 药 物 重 定 向 智 能 质 控 患 者 精 准 招 募 临 床 追 踪 系 统 数 字 化 评 审 不 良 反 应 监 测 新 药 研 发 痛 点 研 发 流 程 AI 解 决 方 案 来 源 : O M A H A 整 理 图 1 AI 对 症 新 药 研 发 之 痛 示 意 图 1 AI 1 AI IMIT 白皮书 2021 年 01 月 第19 期 AI 驱动新药研发深度发展4 前, 计 算 机 辅 助 药 物 设 计(Computer-Aided Drug Design ,CADD )的方法是现代药物研 发加快药物发现的常规方法之一,不过在近 十余年的发展主要基于各类理论方法、计算 机硬件、及工业和学术专业软件的完善与成 熟。CADD 多以计算化学或计算生物学为基 础,通过计算机的模拟、计算和预算药物与 受体生物大分子之间的关系,设计和优化先 导 化 合 物 的 方 法; 通 过 基 于 受 体 / 配体的虚 拟 筛 选(virtual screening ,VS )从大量化合 物中挑选出一些有苗头的化合物进行实验活 性 评 价。 相 较 之 下 ,AI 辅助药物研发主要 通过将机器学习、深度学习、图像识别、认 知计算等系列AI 技术有机嵌入至新药研发 的各环节如药靶蛋白2D/3D 结 构 预 测、 药 物靶标发现、新药分子设计及试验设计等以 缩短新药研发过程,最大程度提升新药研发 效 率。 从 技 术 赋 能 角 度,AI 的优势在于能 够提供更高维度的数据分析,且精度和场景 应用广泛性更高,具体见表 1 。 1 1 IMIT 白皮书 2021 年 01 月 第19 期 AI 驱动新药研发深度发展 1 1 9 9 期 期 白 白皮 皮 书 书- - 表 表 表 1 人 工智能和 传统计 算机辅助药物研 发的比较 组 别 人 工 智 能 传 统 C A D D “ 同 ” 是 以 计 算 机 为 媒 介 辅 助 药 物 研 发 的 一 种 技 术 手 段 一 定 程 度 依 赖 于 结 构 化 学 / 生 物 学 、 网 络 药 理 学 、 化 学 / 生 物 信 息 学 等 知 识 规 则 “ 异 ” 数 据 大 数 据 : 从 几 百 万 化 合 物 、 序 列 、 3 D 结 构 中 学 习 特 征 、 发 现 关 联 少 数 据 : 针 对 某 些 靶 标 无 活 性 化 合 物 、 某 些 药 物 临 床 数 据 很 少 等 问 题 , 采 取 迁 移 学 习 策 略 无 标 签 数 据 : 参 与 生 成 式 模 型 的 学 习 , 甚 至 可 以 预 测 它 们 的 标 签 高 维 异 构 数 据 药 物 发 现 : 虚 拟 筛 选 几 十 万 化 合 物 构 效 关 系 研 究 : 几 十 个 上 百 个 化 合 物 通 常 只 分 析 一 种 活 性 或 若 干 种 理 化 性 质 精 度 定 量 和 分 类 模 型 都 具 有 较 高 的 准 确 度 善 于 提 取 抽 象 特 征 活 性 预 测 命 中 率 低 A D M E / T 预 测 依 赖 专 家 知 识 新 颖 性 生 成 式 模 型 自 动 化 生 成 和 优 化 全 新 结 构 取 决 于 化 合 物 库 多 样 性 和 药 化 专 家 想 象 力 解 释 性 许 多 黑 箱 模 型 很 难 被 人 类 理 解 强 调 相 关 性 , 不 强 调 因 果 关 系 变 量 的 物 理 / 化 学 / 生 物 意 义 非 常 明 确5 二、全球 AI 新药研发发展环境 (一)美国 (二)日本 (三)印度 新药研发关乎人类生命健康,是全球化研发 背景下各国人民健康提升和经济发展的重要 支撑产业。为积极应对新药创制国际大环境 变 化, 国 际 社 会 部 分 国 家 已 积 极 拥 抱 AI , 并在其国家政策中明确AI 赋能新药研发发 展。 中 国、 美 国、 日 本、 印 度 等 对 于 AI+ 新 药 研 发 在 数 据 基 础、 算 力、AI 技术基础研 究等方面进行了布局,同时寄希望于通过人 才 保 障、 平 台 建 立 等 促 进 AI 技术在新药研 发中的应用。 美国新药创制发展根基稳健且AI 发展实力 强 劲。 美 国 在 2016 年 发 布 的 国 家 人 工 智 能 R&D 战 略 计 划 ( - ligence Research and Development Strategic Plan ) 中提出了 AI 在医药卫生领域的愿景 : 人工智能可以支持生物信息学系统,从大规 模基因组研究(如全基因组关联研究、测序 研究)中识别遗传风险,并预测新药的安全 性和有效性。由美国发起的人类基因组计划 积累了大量的基因组学数据为 AI+ 新药研发 在数据层面提供了丰富的数据源。有赖于数 量庞大的国际制药公司的聚集,北美地区在 药 物 发 现 市 场 的 人 工 智 能(AI )应用中占据 主 导 地 位。 美 国 境 内 以 大 型 药 企 为 中 心 的 AI 新药研发攻关集中在感染、 肿瘤、 内分泌、 心血管、自身免疫、哮喘等疾病领域,这些 疾病领域的用药特点是患病人群多、用药时 间长、替代药物少、治疗棘手等。需要强调 的是,在当前生物医药快速发展的情况下, 美国AI 生物药研发环境可以说是得天独厚 : 其具备全球最先进的技术体系、最多的成果 储备,产业链成熟完善且是全球最大的生物 医药市场;另在全球最强的金融系统及全球 权威标准之一的 FDA 的 支 持 下, 美 国 生 物 医药产业引领全球的创新能力,发展环境优 越,资本市场结构合理,形成了发展势头良 好的产业集群体系和独特的创新生态。这使 得美国在推进AI 在生物医药产业的切入和 发挥显得顺畅,这将可能进一步升华并巩固 美国新药创制的全球领导地位。 日本国内日益严重的老龄化促进了用药需求 的持续提升,日本医药产业的发展遵循从点 突破到面突破路线进而进入医药产业强国行 列。日本医药企业以仿制药为突破完成国内 医药研发能力的升级,得益于发达的化学工 业基础,企业有效地获取、吸收国外先进技 术成果,日本在此基础之上实现技术的扩散 及 产 业 的 不 断 发 展 与 升 级, 形 成 了 一 个 高 效 率 的 技 术 成 果 消 化 吸 收 与 创 新 体 系。 面 向 新 药 研 发, 日 本 政 府 在 2016 年打造了一 个研究联盟帮助其国内公司和机构使用日 本 K 超 级 计 算 机 以 提 高 药 物 发 现 效 率, 日 本 70 家 制 药 厂 商、 医 疗 研 究 机 构 和 IT 相关 企 业 都 参 与 其 中, 包 括 了 Takeda 、Fujitsu 、 NEC 、 京 都 大 学 医 院、 日 本 理 化 学 研 究 所, 以及提供临床资料的日本国家研究发展研究 所等种种“产学研”协同作战的关键机构。 随 着 人 工 智 能 技 术 的 发 展, 日 本 在 其 2017 年 3 月 发 布 的 人 工 智 能 技 术 战 略 中 制 定了AI 新 药 研 发 的 发 展 路 线 图, 包 括 AI 辅 助药物发现、结合生物标志物和释药系统开 发个性化 / 特 异 性 药 物 并 使 用。 在AI 战略 2019 提案中日本提出将AI 应用于药物发 现 和 毒 性 评 价 等(2020 ), 并 使 用 AI 构建 药物发现目标搜索框架 (2021 ) 。 日本对于 AI 赋能新药研发发展路径清晰且报以重望。 印 度 是 全 球 著 名 的 “ 仿 制 药 房 ”。 经 过 30 多年的发展已成为以原料药和仿制药为核心 IMIT 白皮书 2021 年 01 月 第19 期 AI 驱动新药研发深度发展6 (四)中国 优势的制药强国。特定时期内部宽松的专利 制度,培育了印度化工制药行业强大的仿制 能力,此外印度企业基于专利前瞻性的路径 选择也是其在竞争激烈的国际仿制药市场中 脱颖而出的重要因素:高度垂直一体化的仿 制药体系、产能提升为先导的出口区域路径 选 择、 品 种 方 面 由 Para ( 专 利 到 期 后 仿 制) 切 入 后 向Para ( 专 利 期 内 抢 仿 ) 升 级的选择等。不断优化生产工艺,把成本降 得最低,把质量尽可能提高是印度药物研发 的 背 景 性 走 向。 不 过 针 对 AI 技术在医药领 域的应用发展政策发布来看,印度更致力于 为AI 助力新药创制打下基础。2018 年6 月, 印度NITI Aayog 在 人 工 智 能 国 家 战 略 中 提出将人工智能作为其癌症筛查和治疗的重 大突破口,通过开发大型基础注释数据集建 立一个附有标注的国家病理图像储存库;另 一个在讨论项目为癌症成像生物库,以期建 立并明确癌症表型的成像相关性。 我 国 药 物 研 发 主 要 以“me too ” 和“me ” 为主, 基于新靶点的新药创制甚少。 国内绝大部分企业的定位都在研发下游以仿 制和承接CMO (医药生产外包服务) 为主, 相对来说对于小分子化药研制实力较强,生 物大分子药物研发较弱。作为全球第二大药 物交易市场,中国在新药研发领域依然面临 严峻形势:新药研发原始创新不足,本土创 新原研药数量远远落后于国外,孤儿药市场 受国外垄断严重;新药研发方向同一重复现 象严重,新药研发知识产权获国际专利授权 比重远低于欧美国家和日本。美国在研药物 数量全球份额一直稳定在50% 以 上, 拥 有 世界上约一半的生物药公司和一半的生物药 专利,而我国在研药物数量在全球占比仅为 4.1% 6 。AI 新 药 研 发 发 展 对 我 国 意 义 重 大, 国家层面已有多项基础性和支撑性的政策发 布, 政 策 环 境 相 对 稳 定。2017 年 7 月, 国 务院发布新一代人工智能发展规划,特 别提出基于人工智能开展大规模基因组识 别、 蛋白组学、 代谢组学等研究和新药研发, 推 进 医 药 监 管 智 能 化。 而 后 , 国 家 发 改 委 “十三五”生物产业发展规划提出将加 速新药创制和产业化;加快发展精准医学新 模式;构建智能诊疗生态系统作为重点发展 领域加以推动,并进一步聚焦了新药创制方 向。 中科院上海药物所牵头的国家 “十三五” 新药创制的研究项目中将AI 技术作为最核 心 技 术。2018 年 11 月, 工 信 部 新 一 代 人 工智能产业创新重点任务对于医学标准数 据集建设和应用提出指标性要求。该政策的 发布有利于AI 新药研发场景标准化数据的 获 取 和 模 型 训 练。2019 年 5 月, 我 国 国 家 药品监督管理局药品审评中心CDE 发布 真 实世界证据支持新药研发的基本考虑(征 求 意 见 稿 ), 确 定 了 真 实 世 界 证 据 RWE 在 罕见病治疗药物、修订适应症或联合用药范 围、上市后药物的再评价、中药医院制剂的 临床研发、指导临床研究设计、精准定位目 标 人 群 等 场 景 中 的 应 用。2020 年 2 月, 工 信部科技司向人工智能相关学 (协) 会、 联盟、 企事业单位发出充分发挥人工智能赋能效 用 协力抗击新型冠状病毒感染的肺炎疫情 倡 议 书, 强 调 了 优 化 AI 算 法 和 算 力, 助 力 病 毒 基 因 测 序、 疫 苗/ 药 物 研 发、 蛋 白 筛 选 等药物研发攻关 7 。 IMIT 白皮书 2021年 01月 第19期 AI 驱动新药研发深度发展7 三、AI 新药研发技术与应用现状 (一)AI 新药研发应用模式 (二 )AI新药研发的数据利用现 状 (三)AI 新药研发应用技术现状 AI新药研发在应对不同场景需求时大体都 需要经历问题设置、数据集整合、算法模型 构建和评价过程。标注数据集、算法和模型 是 AI+ 新 药 研 发 中 必 不 可 少 的 组 成 部 分, 其 共同构筑并形成了 AI+ 新药研发过程中一条 完 整 的 虚 拟 计 算 路 径:1)获取目标训练数 据 集;2 )AI 自 主 学 习 算 法 建 模;3 )多次 训 练 优 化 模 型;4 )测试集应用以评估模型 性 能;5 ) 基 于 模 型 实 现 分 子 筛 选、 预 测、 分析等预定目标。 例如,Insilico Medicine 公 司靶向DDR1 激 酶 的 例 子 可 以 作 较 好 诠 释: 研究人员在整个过程中通过使用包括DDR1 激酶抑制剂、作用于非激酶靶点的分子、生 物 活 性 分 子 的 专 利 数 据、DDR1 抑制剂的三 维 结 构、 过 滤 Zinc 数据集的分子和常见激 酶抑制剂在内的6 个 不 同 专 项 数 据 集, 应 用 自 组 织 映 射(SOM )算法构建的药物发现 模 型“GENTRL ”( - forcement learning , 生成张量强化学习模型) 在 21 天内就能够设计出靶向DDR1 激酶的 潜 在 分 子 架 构, 并 在 46 天内完成初步生物 学验证。 在 AI 新 药 研 发 应 用 模 式 下, 目 标 数 据 集 的 采 集 与 应 用 无 疑 是 至 关 重 要 的。2019 年, Nature 的一篇综述文章梳理了机器学习技 术 在 药 物 研 发 中 应 用 所 需 数 据 特 性, 强 调 了标准化的高维靶标- 疾病- 药物关联数据 集、 正 常 / 疾 病 状 态 的 综 合 组 学 数 据、 高 度 可 信 的 文 献 关 联 分 析、 成 功 / 失败的临床试 验元数据、大量训练数据、化合物反应和规 则 模 型、ADME “金标准 ”数据以及众多蛋 白结构数据等在成功的 AI+ 药物发现应用中 的重要性 8 。应对AI新药研发发展强烈的 数据需求,国际上长久以来已积累了不少的 开 源 资 源 数 据 库 包 含 数 百 万 个 数 据 集, 是 支撑药物研发研究数据集需求的最主要来 源。 这 其 中 包 含 一 般 文 献 数 据 存 储 库( 如 PubMed ) 和 注 释 数 据 库( 如 中 山 大 学 开 发 的 ncRPheno 数据库 9 )。 除 此 以 外, 当 前 支撑AI新药研发的重要数据集还来源于高 校 / 大 型 药 企 的 长 期 数 据 积 累、 大 型 AI 应 用竞赛如Kaggle 、DREAM Challenge 提供的 样例数据集等。当前许多数据仍是以分散的 形式零落在不同持有主体中,由于药物研发 数据的强资产属性和利益关联属性,训练数 据的获取显得并不那么容易。不过值得惊喜 的 是, 我 们 也 看 到 了 一 些 组 织 机 构 在 这 方 面的努力。例如,IMI ( )发起了MELLODDY 项 目( 起 止 时 间为2019/6/1 2022/5/31 ), 该 项 目 通 过 基于区块链的创新解决方案,采用联合机器 学习方法建立了一个机器学习平台,使得在 尊重其高度机密性的同时可以从多套专有数 据中学习,数据和资产所有者将在整个项目 中保留对其信息的控制权。该项目中的制药 公司正在通过以前所未有的数量提供竞争性 数据 (超过十亿个与药物开发相关的数据点, 数百TB 的数据量)标注超过1000 万个小 分子的生物效应的图像数据来证明AI药物 发现的可行性 10 。 人工智能基于先进的机器学习、大数据和云 计算,在感知智能、计算智能和认知智能方 面 具 有 强 大 的 处 理 能 力。 目 前 AI+ 新药研发 大部分场景主要涉及人工智能技术范畴下的 机 器 学 习(ML )、 深 度 学 习(DL )、 自 然 语 言 处 理 技 术(NLP )、 知 识 图 谱 和 机 器 人 及 自 动 化 技 术。NLP 通过从海量数据中快速 提炼有用信息进行数据学习及靶点发现。知 识图谱通过将来自实验室的理化数据、各种 IMIT 白皮书 2021 年 01 月 第19 期 AI 驱动新药研发深度发展8 (四)AI 新药研发应用现状 期刊文献中的研究成果、以及临床数据等原 本没有关联的数据连通,将离散的数据整合 在 一 起, 从 而 提 供 有 价 值 的 决 策 支 持 11 。 深度学习是目前解决机器学习和人工智能问 题的最为流行的算法;神经网络在量子化学 计 算、 蛋 白 质 结 构 预 测、 蛋 白 质 - 蛋白质相 互作用模拟、热力学或动力学参数模拟等领 域已表现出重要作用 12 。深度学习通过逐 层的网络学习高维实验图像的高水平特征助 力 药 物 分 子 筛 选。2020 年 2 月, 面 向 新 药 研发的人工智能筛选分子入选麻省理工学 院技术评论发布的2020 年“ 全 球 十 大 突 破性技术”。人工神经网络如深度神经网络 或循环网络通过定量结构- 性质关系 (QSPR ) 或定量结构- 活 性 关 系(QSAR )等预测药 物分子的物理化学和ADMET 性 质。 蒙 特 卡 洛树搜索 (MCTS ) 、 递归神经网络 (RNN ) 等被认为是AI 应用于药物分子逆合成和从 头设计的先进方法。此外,人工智能技术的 发展正从传统的大样本训练向小样本学习及 反馈学习的模式转变,小样本学习的发展也 将是AI 新 药 研 发 发 展 的 重 要 方 向。 近 年 来 发 展 的 弱 监 督 学 习、 小 样 本 学 习(one/few- shot learning ) 乃 至 零 样 本 学 习(zero-shot learning ) 逐 渐 在 药 物 研 发 领 域 应 用:2018 年 3 月 底,Nature 发表了基于人工智能进 行药物逆合成路线设计的工作,完全借鉴了 AlphaGo 的 思 想, 而 AlphaGo 之后的Alpha - Go zero 版本则实现了不需要依赖训练样本 的对弈模式,在药物研发领域这种模式有望 发生根本性的改变 13 。 AI 新药研发应用在当前主要集中在化学小 分子药、生物类似药和生物制剂的从头研发 上, 并 多 基 于 研 发 周 期 进 行“ 单 点 式 ” 突 破而 “ 全 过 程 ”(full stack ) 的 应 用 较 少, 见图 2 。 依 照 新 药 全 生 命 周 期, 据 从 人 工 智 能应用程序在新药研发各阶段应用发展的潜 力, 系统生物学、 靶点识别、 先导化合物确定、 药 物 临 床、 药 物 重 定 向 被 认 为 是 全 球 AI+ 新 药研发最具变革意义的研究领域 14 。 图 2 AI 在 新 药 研 发 中 的 应 用 场 景 2 AI 2 AI IMIT 白皮书 2021年 01 月 第19 期 AI 驱动新药研发深度发展9 1. 研发前期 在研发前期,研究人员需要经历长时间的文 献 / 专 利 等 知 识 学 习 过 程。 药 物 研 发 相 关 知 识库、数据库、专项主题数据集、标注数据 集等是AI 新 药 研 发 应 用 的 基 础 来 源, 对 此 人 工 智 能 的 应 用 体 现 为 两 个 方 面:1 )扩展 和优化海量数据资源。例如通过机器学习基 于实体小分子化合物和化学规则可扩展构建 大量虚拟化合物,加快人类对于未知化学空 间 的 探 索;2 )海量异构数据信息资源的结 整 合。 通 过 借 助 人 工 智 能 NLP 、知识图谱等 技术可快速提取海量信息中提取出能够推动 药物研发的知识进行聚类分析,帮助提出新 的可以被验证的假说,从而加速药物研发的 过 程。 例 如: 英 国 生 物 科 技 公 司 Benevolent Bio (隶属于 Benevolent AI ), 利 用 技 术 平 台 JACS , 从 全 球 范 围 内 海 量 的 学 术 论 文、 专利、临床试验结果、患者记录等数据中, 提取出有用的信息,发现新药研发的蛛丝马 迹。 德国制药公司Boehringer-Ingelheim (BI ) 通过使用新兴公司Kairntech 的 AI 软件平台 Sherpa 以更好地利用现有的非结构化文本 信息。 2. 药物发现阶段 在 药 物 发 现 阶 段,AI 新药研发的应用聚焦 于靶点的发现 / 验 证, 以 及 候 选 药 物 分 子 的 筛 选 优 化。 当 前 来 看,AI 药物发现在药物 靶点发现和药物设计环节的技术应用相对成 熟: 研 究 层 面, 据 Nature 文 献 报 道, 现 有 人工智能解决方案在药物发现阶段更具先进 性 8 ; 专 利 层 面,AI 新药研发领域的专利发 布数量尽管还较少但主要技术指向还是集中 分布在药物的靶向确定和化合物筛选这两个 技术分支 15 。 在 加 快 靶 点 发 现 上,AI 应用 NLP/ML 技术访 问针对目标和非目标的大型数据集,系统地 用于训练机器学习模型从而驱动数据集的预 测属性, 可以帮助研究者充分理解疾病机制、 药靶蛋白的结构与功能等,或从免疫系统、 信号通路、分子立体结构等不同角度筛选靶 点, 从 而 缩 短 靶 点 发 现 周 期。 例 如,Deep - Mind 研发的 AlphaFold 工具能够成功预测蛋 白质折叠方式,解决科学界最棘手的蛋白结 构 表 征 问 题。Cyclica 开发Ligand Express 的 云 端 蛋 白 质 组(proteome ) 筛 选 平 台, 利 用人工智能辅助基于分子结构的蛋白质组筛 选, 作用于发现小分子化合物结合的新靶点。 GeniusMED 通过整合药物信息和疾病信息 两大系统,形成药物相似性网络、疾病相似 性网络和已知的药物疾病关联性网络。 BERG 基于人工智能的 平台技术,通过对多种癌细胞和健康人类细 胞样本进行高通量对比测试,来寻找治疗疾 病的新靶点和诊断疾病的生物标志物。 针对药物筛选和药物设计,从结构生物学出 发的AI 分 子 筛 选 技 术、AI 分子生成技术可 加速先导化合物的发现和优化,加快候选药 物 分 子 产 生。 以 AI 在分子对接中的应用为 例,分子对接是一种新的基于理论模拟的药 物设计方法,主要是研究分子间的相互作用 即按照受体与配体形状、性质互补的原则寻 找已知数据的小分子与靶标大分子作用的最 佳构象,预测受体的特征以及受体和药物分 子之间的结合模式和亲和力。对此,人工智 能面向小分子和生物大分子主要有两种应 用 方 案: 一 种 基 于 简 化 分 子 线 性 输 入 规 范 ( - ,SMILE )利用深度学习等开发的虚拟 筛选技术,通过特征模型构建以较低的时间 成本以量子力学级别的精度预测小分子的物 理 和 化 学 特 性, 筛 选 出 满 足 特 定 物 / 化特征 需求的候选化合物。另一种是利用人工智能 图像识别技术优化高通量筛选过程,比如基 于蛋白分子结构、基因分子分型尽可能以直 观的方式定性推测生理活性物质结构及其活 性作用, 继而匹配得到最佳分子构象。 例如, 公司是第一家将药物设计自动化 的 公 司, 新 型 化 合 物 会 通 过 其 AI 系统自动 IMIT 白皮书 2021 年 01 月 第19 期 AI 驱动新药研发深度发展10 进 行 设 计 并 根 据 药 效 、 选 择 性、ADME 等其 他条件确定合成的优先级。 3. 临床前试验阶段 在临床前试验阶段,新药研发的主要工作是 通过提前预测候选药物的ADME/T (药物的 吸收、分配、代谢、排泄和毒性)在后续药 物发展中起到关键作用的性质,从而极大缩 小实验范围,预测化合物不良反应,并评估 通过人类临床试验的可能性,降低后续药物 临 床 的 失 败 概 率。 过 去 药 物 ADMET 性质研 究以体外研究技术与计算机模拟等方法相结 合,研究药物在生物体内的动力学表现。而 AI 通过深度神经网络算法有效提取结构特征 的 预 测 方 式, 可 进 一 步 提 升 ADMET 性质预 测 的 准 确 度 。 例 如,Atomwise 公司开发的 AtomNet 平台基于深度神经网络已经学会识 别重要的化学基团如氢键、 芳香烃和单键碳, 以及分析化合物的构效关系,识别医药化学 中的基础模块,用于新药发现和评估新药风 险。此外,针对候选药物提取、合成、纯化 等工艺优化,人工神经网络可解决依靠传统 数理方法建模难以解决的多变量优化问题, 例如ANN 等非常适合处理配方设计时复杂 的多元非线性关系 10 。晶泰科技通过应用 人工智能高效地动态配置药物晶型,能完整 预测一个小分子药物的所有可能的晶型,大 大缩短晶型开发周期,更有