欢迎来到报告吧! | 帮助中心 分享价值,成长自我!

报告吧

换一换
首页 报告吧 > 资源分类 > PDF文档下载
 

20230417_中信建投证券_计算机行业证券研究报告:一致性模型、Auto0_GPT、Meta动画制作等动态跟踪_39页.pdf

  • 资源ID:172348       资源大小:5.43MB        全文页数:39页
  • 资源格式: PDF        下载积分:9.9金币 【人民币9.9元】
快捷下载 游客一键下载
会员登录下载
三方登录下载: 微信开放平台登录 QQ登录  
下载资源需要9.9金币 【人民币9.9元】
邮箱/手机:
温馨提示:
用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
支付说明:
本站最低充值10金币,下载本资源后余额将会存入您的账户,您可在我的个人中心查看。
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,下载共享资源
 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

20230417_中信建投证券_计算机行业证券研究报告:一致性模型、Auto0_GPT、Meta动画制作等动态跟踪_39页.pdf

一 致 性 模 型、Auto-GPT、Meta 动 画 制 作 等 动 态 跟 踪证 券 研究 报告 行业 动态报 告发 布日期:2023 年4 月15 日本报告由中信建投证券股 份有限 公司在中华人民共和国(仅为本 报告目的,不包括香港、澳门、台湾)提供。在遵守适用 的法律 法规情况下,本报告亦可 能由中 信建投(国际)证券有限 公司在 香港提供。同时请参阅最 后一页 的重要声明。分析师:于芳博SAC 编 号:S1440522030001分析师:金戈SAC 编 号:S1440517110001SFC 编 号:BPD352分析师:阎贵成SAC 编 号:S1440518040002SFC 编 号:BNS315 核 心 观 点:近 期AI 领 域 热 度 持 续 升 高,各个AI 巨头持续推出各种重磅 模型,其 中 包 括 微 软 旗 下DeepSpeed 持 续 深 耕 模 型 训 练 优 化 策 划,推出DeepSpeed-Chat,加速RLHF 训练过程,进 一 步强 化 大模 型 的 生 态优 势;以 基 于GPT-4 的Auto-GPT为代表,引发AI 代理热潮,向AGI更近一步;OpenAI 推 出 一 致 性 模型,预期在 图 像 生成 领 域将比 肩 甚 至超 越 扩散模 型;Meta 又 迎 来开 源,发 布 动画 制作 算 法与 数 据集;Google:采用Self-Debugging 的方法,提升 生成代 码的准 确度;Amazon 也 加 入到AI 大 战中 我们认为AI 热潮持续席 卷全球,建议 关注该 领域变 化。Deepspeed 组 织 推 出 一 款 大 模 型 系 统DeepSpeed-Chat,高效实现大模型的基于人类反馈强化学习(RLHF)微调训练。减少了大模型的RLHF 训 练 的 时 间 与 金 钱 成 本,削 减 了 自 然 语 言 大 模 型 的 微 调 门 槛,降 低 了 大 模 型 在 垂 直 领 域 的 应 用 难 度,进 一 步 提 高 了 中 小 厂 商 对 其 大 模型的 友好 度、依赖度,实现 大模 型 生 态上 的自 我反 哺。以Auto-GPT 为 代 表的AI-代 理 正 引起 注意,Auto-GPT 通 过接 入 互联 网、包 含内 存 管理、使用GPT-4接口等,拥 有非 常 好 的内 容生 成、逻辑思考 能力,甚至 还能自 己进行 代码 优化,Auto-GPT、AgentGPT 和BabyAGI 一 并 成为AI 代 理 风 口下 的主力 军,探索AI 边界,AGI(通 用人 工智能)即将 成为现 实。OpenAI 近 期提出了“一致性模型”支持一步式图像生成,相比扩散模型,无需多轮迭代便可快速生成图像,具备稳定且高效的特点,成为 新晋的优秀 图像生 成 模型,预 期在图 像 生成领域 将比肩 甚 至超越扩 散模型。Meta 开 源 其 动 画 制 作 算 法,其 中 包 含 人物检测、掩 码 分 割、姿 态 估 计/操 控 以 及 制 作 动 画 等 过 程,除 此 之 外,Meta 还 开 源 了 一 个 包 含 近180,000 张 带注释的草 稿画数 据集。Google 提出一种方 法,采用Self-Debugging 方法,通 过少量 示范来 教会大 型语言 模型进 行橡皮 鸭调试,提升 了生成 代码的 准确性。Amazon 推出Titan 模型,包 括 生 成 式 大 语 言 模 型 与 文 本 嵌 入 大 语 言 模 型,Amazon 同 时 推 出Bedrock生成式AI 平台,Bedrock 允 许 用 户 通 过API 访 问来自亚马 逊内部及 多个创 业 公司的各 类模型,包括Titan 基础模型、AI21 Labs、Anthropic、Stability AI 等,同时 能接入AWS 云服务平台,降 低开发 者 的开发成 本。核心观 点 1ZEVwPtOmPoPoQtQtOpQqR6McMbRtRoOoMnOjMnNsOkPqRtM6MoOwOvPsPoPvPtRmP目录一、Microsoft:DeepSpeed chat 实现RLHF 训 练加速二、OpenAI&Torantulino:AutoGPT 引发AI 代 理热潮三、OpenAI:一致性 模型加速图 像生成四、Google:Self-Debugging 提升生 成代码 的 准确度五、Meta:开源动画 制作程序六、Amazon:AIGC 新玩家 资料来源:Microsoft,中信建投DeepSpeed 针对 深度 学习模型 训练进行 优化 DeepSpeed 是 微 软 的 分 布 式 训 练 框 架,针 对 深 度 学 习 模 型 训 练 进 行 优 化。目前LLM(大 语 言 模 型)处 于 快 速 发 展 阶 段,可以从多个 阶 段 出 发 对LLM 的 训 练 过 程 进 行 优 化:1、选 用 高 性 能 的AI 计 算 芯 片;2、通 过 分 布 式 引 擎 降 低 单 体 算 力 需 求;3、选 用 合 适 的算 法 框 架提升 算法编程效率;4、使用合适的训练框架进 行优化训练;5、通过模型开源社区实现大 模型的开源、调用。DeepSpeed 主要工作围绕模型训练优 化展开,DeepSpeed 主 要从三个维度 出发优化深度学习 模型。在训 练过程 中提升模型的训练 效率、降 低 训练 难 度;在 推 理 过程 中,采 用 各 类 并行 技 术和 通 信 优 化等 技 术提 升 推 理 效率;同时 提 供 灵 活的 压 缩技 术,压 缩模 型 的尺寸同时降低压缩 成本。图 表:大模 型训 练过程 中的 不同 层级 的优化 图 表:DeepSpeed 模型 训练 的优 化策 略底层硬件优化训练开源社区算法框架分布架构 资料来源:github,OpenAI,中信建投DeepSpeed-chat实现 高效的基 于人类反 馈强化学 习训练 DeepSpeed-chat 是deepspeed 组 织推出的针 对大规模语言模型实现高效 的基于人类反馈强化学习(RLHF)训 练 的系统,可 以对大模型实现一键式 的RLHF 训练。其 中优化训练方法与Instruct GPT 基本保持一致并略作优化,主要通过三个步 骤实现 RLHF 训练:步骤1:监督微调(SFT)使 用 精 选的人类回答来微 调预训练的语言模型以应对 各种查询;步骤2:奖励模型 微调 使用一个包含人类对同一 查询的多个答案打 分的数据集来训练 一个独立的(通常 比 SFT 小的)奖励 模型(RW);步骤3:RLHF 训练 利用 Proximal Policy Optimization(PPO)算 法,根据 RW 模 型 的奖励反馈进一步微调 SFT 模型。图 表:DeepSpeed-chat 实现 高效 的RLHF训练 图 表:InstructGPT 中 基于 人类 反馈 的强 化 学习 机制 资料来源:github,中信建投DeepSpeed Hybrid Engine 优化RLHF 训 练过程 在RLHF 的 前 两步 训练过程中,通过ZeRO 的内 存管理优化和并行策略的灵 活组合实现训练提速。在RLHF 的第三步 训练过程中,模 型的 迭 代 首 先需 要 通过 模 型 推 理得 到 问题 答 复,由奖 励 模型 判 断 之 后反 馈 监督 微 调 模 型,实现模型参数的更新。模型的推理与训练 在第三个RLHF 训练阶段相互混合,降低了模型的训练 速度。DeepSpeed-chat 通过将模型的训练 和 推理 功能 整 合为 一 个混 合引 擎(Hybrid Engine),从 而实 现RLHF 第 三 步的 高速 训练。混 合引 擎中 针对模 型 的推 理和 训练分别实现了优化,同 时实现了模型训练 和推理过程的无缝 切换。图 表:DeepSpeed hybrid engine 大 幅提升RLHF 训练 速度 图 表:RLHF 训 练的吞 吐量 和拓 展性 显著提 升吞吐量拓展性 资料来源:github,中信建投DeepSpeed-chat提升RLHF 训练 的吞吐量 和拓展性 DeepSpeed-chat 大幅提升RLHF 训练的吞吐速度。通过 DeepSpeed 的高性能推理内核,DeepSpeed Hybrid Engine 在RHLF 第三阶段耗时降低为 HuggingFace 的1/9,Colossal-AI 的1/15,得益于Hybrid Engine 训练和推理过程 的高效整合,DeepSpeed-chat 推理过 程中 的 等 待时延 显著降低,大幅提升整个RLHF 训练的吞吐速度。DeepSpeed-chat 具备优秀的模型可拓 展性。Colossal-AI 可以在单个GPU 上运行最大1.3B 的模型,在单个A100 40G 节点上运行6.7B的 模 型,而DeepSpeed-HE 可 以 在 相 同 的 硬 件 上 分 别 运 行6.5B 和50B 的模型,实 现 高 达7.5 倍 的 提 升。同时,DeepSeed-RLHF在多达64 个GPU的集 群上实现了良好的整体扩展。图 表:DeepSpeed-chat 大幅 降低 第三 阶段RHLF时延 图 表:RHLF 的可 扩展性 测试推理过程时延显著降低 资料来源:ColossalChat,中信建投DeepSpeed-chat预计 将显著提 升LLM 的 人机对话 表现 DeepSpeed-chat 助力LLM 使用RLHF 进 行预训练,使 用该工具预训练后的模型性 能表现预计较为出色。以ColossalChat为例,ColossalChat 基于LLaMA 模型,并 使 用 基 于 人 工 反 馈 的 强 化 学 习 后 训 练 出 来 的 模 型,包 括 完 整 的RLHF过程来 复刻 类似ChatGPT优化训练过程。ColossalChat 的 双 语数 据 集 包括10 万 个中 英 文 问答 对,该数 据 集 是从 社交 媒体 平 台上 的 真实 问题 场 景 中 收 集 和 清 理 的。在 经 过RLHF 微 调 训 练 后,ColossalChat 只 需 要 不 到100 亿 个 参 数 就 可 以 达 到 与ChatGPT 和GPT-3.5 相当的效果。根据ColossalChat 成功的案例,我 们预测,在DeepSpeed-chat 加持下,其他LLM 在使用RLHF 后也将展现出良好的 人机对话表现。图 表:ColossalChat 数据 集收 集流 程 图 表:ColossalChat 模 型表 现 资料来源:github,中信建投DeepSpeed-chat对产 业的影响 几何 DeepSpeed-chat 降低大模型的RLHF 训练的时间和金钱成本。DeepSpeed-HE 比现有系统快15 倍以上,降低了RLHF 训练的时间和金钱成本。例如,DeepSpeed-HE 在Azure 云上只需9 小时即可训练一个OPT-13B模型,只需18 小时即可训练一个OPT-30B模型。这两种 训 练 分别花 费不到300 美元 和600 美元。DeepSpeed-chat 降 低 了 自 然 语 言 大 模 型 的 微 调 门 槛,实 现 大 模 型 生 态 上 的 自 我 反 哺。目前DeepSpeed-chat 只支持OpenAI 和Meta 旗下 的 部 分 模 型 做 快 速 的RLHF 训练,未 来 还 将 支 持Meta 的LLaMa 模型,并 未 在 广 义 的LLM 模 型 上 实 现RLHF 训练。我 们 认 为,DeepSpeed-chat 开源旨在降低大模型的微调门槛,让大模型更容易实现在垂直领域的微调,进一步提高中小厂商对其大模型的友好度、依赖度,从 而实现生态上的自 我反哺。图 表:不同 模型 在DeepSpeed-chat上的RLHF 训练 成本 图 表:当前DeepSpeed-chat 支持 的大 语言模 型Model familyopt bloom gpt_ neox gptj gpt_ neo gpt2 codegensize range 0.1B-66B 0.3B-176B 1.3B-20B 1.4B-6B 0.1B-2.7B 0.3B-1.5B 0.35b-16B 资料来源:github,中信建投DeepSpeed 提供 全方 位的大规 模自然语 言模型优 化技术 DeepSpeed 团 体还提供了一 系列工具和技术,来提升大 型深度学习模型在训练阶段 以及推理阶段的效率,包括 算法、技术及数据三方 面。在算法 层面,DeepSpeed-MII 模型、VL-MoE 大模型等在提高大模型的训练 速度的同时,降低了推理成 本。在技术层面,采用 张 量 并行、分布用户策略将大模型的训练 过程分布在多个GPU 和机 器上,从而可以训练更大的 模型,提升模型训练能力。在数据层 面,推出的DeepSpeed Data Efficiency 可 更好地利用数据,提搞训练效率。图 表:DeepSpeed 主要 工作 目录一、Microsoft:DeepSpeed chat 实现RLHF 训 练加速二、OpenAI&Torantulino:AutoGPT 引发AI 代 理热潮三、OpenAI:一致性 模型加速图 像生成四、Google:Self-Debugging 提升生 成代码 的 准确度五、Meta:开源动画 制作程序六、Amazon:AIGC 新玩家 资料来源:Github,中信建投AutoGPT 是 基于GPT-4 的 自主 人工智能 体 Auto-GPT 是一个开源的Python 应用程序,以GPT-4 为 驱动,允 许人工智能“自主”行 动,无 需用户提示每个动作。用户 可以为Auto-GPT 制定一个总体目 标,并逐步采取 自主行动来 实现该目标。该程序可接入 互联网并完全独立地在 电脑 上执行操作,无需在每一步都 进行人 工 提示。该 模 型具有多 个全新特征,包括接入互联网 进行信息搜集、长期和短期 内存管理、基于GPT-4 生 成文 本、可访 问流 行的 网站 和平台,以及使用GPT-3.5 进行文件储存和 汇总等。图 表:AutoGPT 样例 图 表:AutoGPT 新特点 资料来源:AutoGPT,中信建投AutoGPT 工 作原理图 表:AutoGPT 工作流 程 图 表:AutoGPT 应用实 例命令AutoGPT列举市面上最好的5双防水鞋 AutoGPT 是以GPT4 为 基础 的“自主”人工智能,使用 GPT-4 来 生 成、确定优先级和执行任务,使 用插件进行互联网浏览和其 他访问。同时AutoGPT 可使用外部内存来跟踪它正在做的 事情并提供上下文,并评估其情况,针对评估结果生成 新任务或自我纠正,并将新任务添加到 队列中,然后确定 优先级。经过多轮 信息搜集及评估,即可在无人干预的 条件下完成任务。借助长短期内存管理,AutoGPT 还可以实现持续更新 功能。资料来源:AutoGPT,中信建投AutoGPT 在 内容生成 方面表现 优秀 AutoGPT借助GTP-4 及 互 联 网 接 口,拥 有 优 秀 的 内 容 生 成 能 力。在 给 定 目 标 下,AutoGPT基于GPT-4制定问题解决方案,后 对 互联网上搜集的信息内容进行真实性评估,在一系列筛选、评估、更新迭代后,即可汇总完成任务。在文本内容生成质量方面,AutoGPT 生成的文本结构清晰、信 息全 面、逻辑通顺。图 表:AutoGPT 内容 生 成提 出目标评估、更新列举解决方案内 容生成 资料来源:Github,Twitter,中信建投AutoGPT 应 用及用户 增长趋势 AutoGPT 作 为 一 个拥 有长 短期 记忆 的人 工智 能体,有 多个 应用 场景,包 括内 容生 成、网站 创建 及维 护、市场 研究 和分 析、营 销以及 聊天 机器 人开 发等 需要 持续 更新 的任 务。随着AutoGPT 的 不 断 更新 和升 级,其 将在 市场 营销、金融、医疗 健康、电 子商 务 等领域有着更广泛的应 用。AutoGPT 自2023 年3 月30 日 发 布 以 来,已 经 受 到 各 方 的 广 泛 关 注。截至2023 年4 月14 日,AutoGPT Github 库 已 被 复 制6500 余次,被 收 藏48,800 余次。图 表:AutoGPT 开展 电 子商 务 图 表:AutoGPT Github Repo 页面 资料来源:Agent GPT,BabyAGI,中信建投AgentGPT 和BabyAGI AgentGPT 是在AutoGPT 基 础 上 创 建 的 可 在 浏 览 器 中 组 装、配 置 和 部 署 自 主AI 智 能 体 项 目。AgentGPT 在 用 户 输 入AI 名 称 和 任 务后,能 够 自 主 思 考 要 完 成 的 任 务、执 行 任 务 并 从 结 果 中 学 习,试 图 达 成 目 标。截至2023 年4 月14 日,AgentGPT Github库已经被8300 余 人收藏。BabayAGI 是 基 于GPT-4 的 强 化 学 习 人 工 智 能 体 项 目。该 模 型 从 婴 儿 认 知 发 展 中 吸 取 灵 感,以 促 进 强 化 学 习、语 言 和 认 知 发 展 等各 个 领 域 的 提 升。BabyAGI集成GPT-4、矢 量 搜 索 平 台Pinecone 以及LangChain框架,可 在 模 拟 环 境 中 训 练 和 评 估 各 种 人 工 智 能代理,执行复杂任 务。以AutoGPT、AgentGPT 和BabyAGI 为 代表的 模型正引发一轮AI 代 理热潮,不断探索AI 能 力边界。图 表:Agent GPT 界面 图 表:BabyAGI 工作界 面 目录一、Microsoft:DeepSpeed chat 实现RLHF 训 练加速二、OpenAI&Torantulino:AutoGPT 引发AI 代 理热潮三、OpenAI:一致性 模型加速图 像生成四、Google:Self-Debugging 提升生 成代码 的 准确度五、Meta:开源动画 制作程序六、Amazon:AIGC 新玩家 资料来源:ResearchGate,Diffusion Models:A Comprehensive Survey of Methods and Applications,中信建投图 像生成领 域常见抗 式生成网 络和扩散 模型 在 图 像生成领 域,过去常见的模型有对抗式 生成网络(GAN)和扩 散模 型(diffusion models)。对 抗式生成(GAN)网络包括 两部分,一个生成 器和一个 判别器。生成器负 责生成类 似输入数 据的新内 容,判别器 是将生成 的输出 与 真 实数据 区分开来,这两个部分在GAN 网络反馈循环中相互 博弈不断迭代,导致生成输 出的真实性逐渐增加。扩 散 模型(Diffusion Model)提 升了图 像生 成的 多样 性。扩散 模型 的概 念最 早在2015 年 提出,2020 年 提出 利用扩 散模 型的 子类 别DDPM(去 噪 扩 散 概 率 模 型)进 行 图 像 生 成。其 灵 感 来 自 非 平 衡 热 力 学,模型定义了一个扩散步骤的马尔可夫链,在正向扩散过程中,将随机 噪声添加到数据中,然后学习 反向扩散过程,从噪声中构 建所需的数据样本。图 表:对抗 式生 成网络 模型GAN 示意 图 图 表:扩散 模型 实现 图 像生 成 资料来源:Consistency Models,中信建投OpenAI 的“一致性模 型”成为 新晋的图 像生成模 型 对 抗 式 生 成网 络 和扩 散 模 型 各有 优 缺点,对 抗 式生 成 网络 依 赖 生 成器 与 对抗 器 相 互 博弈,具有 一 步 生 成的 优 势,但 是 模 型稳 定 性相对较差;扩散模 型图像生成过程需 要反复迭代,生成 图像的创意性较强 但是生成速度相对 较慢。OpenAI 近期提出了Consistency Models 模 型 具 备 无 需 对 抗 且 可 以 快 速 生 成 的 特 点,成为新晋的优秀图像生成模型。ConsistencyModels 建 立 在 连 续 时 间 扩 散 模 型 中 概 率 流 的 常 微 分 方 程(ODE)之上。给 定 一 个 将 数 据 平 滑 地 转 换 为 噪 声 的PF ODE,一 致 性 模型可以在任何时间 步将任意点映射成 轨迹的初始点从而 实现生成式建模。Consistency Models 支持单步生成,无需像扩散模型那样反复迭代,极大加 速了图片的生成过 程。图 表:一致 性模 型图示 图 表:ODE 将任 意点映 射到 轨迹 的初 始点 Consistency Models 在图像生 成任务重 表现优异 Consistency Models 在 低像素还原任务、掩盖图像 还原任务、色彩还原任务中 均表现优异。图 表:大模 型训 练过程 中的 不同 层级 的优化资料来源:Consistency Models,中信建投备注:左列为模糊图像,右列为真实图像,中间为Consistency Models生成图像 备注:左列为掩盖图像,右列为真实图像,中间为Consistency Models生成图像 目录一、Microsoft:DeepSpeed chat 实现RLHF 训 练加速二、OpenAI&Torantulino:AutoGPT 引发AI 代 理热潮三、OpenAI:一致性 模型加速图 像生成四、Google:Self-Debugging 提升生 成代码 的 准确度五、Meta:开源动画 制作程序六、Amazon:AIGC 新玩家 资料来源:Teaching Large Language Models to Self-Debug,中信建投Google 通过Self-Debugging 实 现代码的 生成迭代 当 前 自 然 语 言 模 型 已 经 具 备 了 一 定 的 代 码 生 成 能 力,但 是 代 码 的 正 确 率 仍 有 待 提 升。近期,Google 发 布 了 一 篇“Teaching LargeLanguage Models to Self-Debug”文章,提出了一种Self-Debugging 的方法,通过少量示范 来教会大型语言模 型进行橡皮鸭调试,提升了生成代码的 正确性。在 调 试 过 程中,模型 首 先 根 据目 标 任务 生 成 新 的代 码,执 行 相 应 的代 码,同 时 生 成 相应 的 代码 解 释,代码 的 执行 结 果 和 代码 解 释共同构成反馈信息,反馈信息返回模 型实现模型迭代。图 表:大模 型进 行self-debug 的 迭代 流程 Self-Debugging 显著 提升代码 的准确度 Self-Debugging 显 著 提 升 了 代 码 的 正 确 度。在 具 体 的 代 码 翻 译 测 试 中,目 标 任 务 将C+代 码 翻 译 为python 代码,Codex 已 经 达 到 了当 前 最 好 的 基 准。引入Self-Debugging 迭代,通 常 经 历 三 轮 完 整 的 调 试 周 期 后,Self-Debugging 便 可 以 将 代 码 的 准 确 度 提 升 到 较 高水准,代码准确度 同时随着训练样本 数据量提升而提升。在 不 同 难度任 务中,Self-Debugging 均实现了 准确度的提升,尤其是在高 难度的任务中,代码准确度 实现了9%的准确度 提升。图 表:Self-Debugging 带来代 码 准确 度的提 升 图 表:不同 难度 任务下 准确度的提 升资料来源:Teaching Large Language Models to Self-Debug,中信建投 目录一、Microsoft:DeepSpeed chat 实现RLHF 训 练加速二、OpenAI&Torantulino:AutoGPT 引发AI 代 理热潮三、OpenAI:一致性 模型加速图 像生成四、Google:Self-Debugging 提升生 成代码 的 准确度五、Meta:开源动画 制作程序六、Amazon:AIGC 新玩家 资料来源:A Method for Animating Childrens Drawings of the Human Figure,中信建投Meta 开源animated drawings 4 月13 日,Meta 开源动画制作代码和 包含近 180,000 张带注释的草稿画 数 据集。动 画 绘制程序 包括:人物检测、掩码分割、姿态估计/操 控以及制作动画。对 于 人 物 检 测 与 姿 态 估 计,作 者 使 用 现 有CV 模型(MaskR-CNN)检测图像中的人物和关节,并将这些模型进行微调后用于儿童绘画;对于图像分割,作者提出了直接的基于图像处理的方法,相比直接从微调人物检测模型获得分割掩码更加有用准确;在制作动画步骤中,作者利用儿童绘图中常见的扭曲视角(twisted perspective)将动 作捕捉数据重新定位到人物 身上。作 者 从用户端 收集了178,166 张符合要求的儿童手 绘图并进行了开源。图 表:animated drawings 算法 流程图 表:Meta 发布 动画制 作程 序演 示 资料来源:A Method for Animating Childrens Drawings of the Human Figure,中信建投图 像检测 第 一 步,对图 像中的物体进行检测。作者所 使用的是Mask R-CNN 模 型,该 模型主干是ResNet-50+FPN。第 二 步,使用MS-COCO 数据集进行预训练,但因为MS-COCO 数据 集是 真实 世界 的图 像,并非 是儿 童绘 画,因此,作 者对 模型进 行 了微调,包括权重设计、损失函数、梯 度下降优化、使用OpenMMLab 检 测箱进 行训练等等。图像检测步骤 需要8 个Tesla V100-SXM2 GPU 的 服务器进行预训练。图 表:直接使用Mask R-CNN 检 测 会出错,微调 后,准 确率提 高第 一 行 左 图:直 接 使 用MaskR-CNN;第 一行 右图,进行 微调后的模 型检测 出 来的物体成功 检测 情况失败 检测 情况 资料来源:Microsoft,中信建投图 像分割 儿童绘图中,图像 分割是一个非常困 难的操作(与真实 图像有较大差距),虽然 目标检测过程中会 预测一个分割掩码,但质量并不好。作者使 用了经典的基于图 像处理的提取掩码 的方法:1、将 图像 大小 调整 为400 像素宽,并保持纵 横比不变;2、将 图像转成黑白的,并执 行自适应阈值处理,阈值是 相邻8个像素值的高斯加 权减去一个常数;3、为 图像 的边 缘进 行填 充,确保 任何 封闭 的前 景像 素组 都是 实行的且不包含漏洞。图 表:基于 图像 处理 的 掩码 提取 方法图 表:基于 图像 处理和Mask R-CNN 提 取掩码 效果 比较 资料来源:A Method for Animating Childrens Drawings of the Human Figure,中信建投姿 态估计 第 三 布,进行 姿态估计,为了让绘图上的人 物执行复杂动作,需要了解 人物的比例和姿势。作者假 设MS-COCO 这个数据集的 每张 图 像使用17个关键点,然后作者使用姿势 估计模型来预测这些关键点 的位置。使用了在ImageNet 预训练的ResNet50 作为骨干,使用自 上而下的基于热图 的关键点头进行姿 势估计(人体姿态 估计的一种方法),然 后 经过一些 参数的初始化,使用OpenMMLab 姿 态工具 箱进行训练,直到收敛。图 表:姿态 估计 情况 资料来源:A Method for Animating Childrens Drawings of the Human Figure,中信建投动 画生成 最 后 一步是动 画生成,首先基于掩码使用Delaunay 三角剖析算法生成网格;并使用预测的关节位置,为 人物创建骨架,通过旋转骨骼并使用新的关 节位置使网格变形,可以将角色移动 到各种姿势上,动 画就被创作出来。后续作者还有一些 创作上的优化,在基 于 一系列关 节投影、骨骼旋转、3D 映 射等操 作,动画最终被生成。图 表:给定 预测 的关节 关键 点,为人 物生成 骨骼 装置 并产 生重新 定位 姿势 资料来源:A Method for Animating Childrens Drawings of the Human Figure,中信建投Meta 创立用 户操作网 页进行数 据集收集 Meta 建 立了一个 网页,让用户可以上传儿童 绘图、切割图像、检测关节 位置、创作动画等。用 户 可以选择 是否将上传的图像共享给Meta,Meta 后续也会对这些图像进 行过滤,确保图像是符合Meta 要求的。网 站 上线后,共有320 万 人访 问该网站,670 万张图像被上传。最终Meta 开源了18 万张儿童手绘图像。图 表:Meta 开放 一个网 站,用户 可以 使用Meta 技 术,同时 可以将 儿童 手绘 图像 共享给Meta 目录一、Microsoft:DeepSpeed chat 实现RLHF 训 练加速二、OpenAI&Torantulino:AutoGPT 引发AI 代 理热潮三、OpenAI:一致性 模型加速图 像生成四、Google:Self-Debugging 提升生 成代码 的 准确度五、Meta:开源动画 制作程序六、Amazon:AIGC 新玩家 资料来源:亚马逊,中信建投亚 马逊Bedrock 生成 式AI 平台 Amazon Bedrock 是亚马逊推出的生 成式AI 应用平台,此服务允许用户通 过 API 访问来自亚马逊内部及多个创 业公司的各类模型。Bedrock 是客户使用基础模型构建和 扩展生成式 AI 应 用 程序的最简单 方法,为所有开发者降低使 用门槛。Bedrock 有 着 广泛的应用场景,包括文本 生成、聊天对话、搜索引擎、段落总结、图像生成和定 制化服务。Bedrock 有多个全新特征,包括使用 基础模型加速、多种大模型 选择、自有数据训练基础模 型、利用AWS 等 工具 构建安全可靠的生 成 式AI。图 表:Bedrock 的主要 应用 场景 图 表:Bedrock 的主要 特征文本生成 聊天机器人 搜索文本总结 图像生成 个性化订制利用基础模型加速 多种基础模型选择 私有数据训练 AWS工具拓展 资料来源:亚马逊,中信建投Bedrock 定 制化模型 Bedrock 为用户提供了丰富的基础模 型选择。该平台不 仅可通过API 访问亚马逊Titan 基础模型,也可通过API 访问来自AI21 Labs、Anthropic、Stability AI 等 多 个公 司的模型。利用Bedrock 人工智能平台,客户可 以极容易地定制模型。用户 无需标注大量数据,仅向模 型展示几个标注好的数据,bedrock 就可以针对特定任务 微调模型。图 表:Bedrock AI 模 型选 择 图 表:高度 定制 化能力仅输 入几 个最 佳案例,Bedrock即可自动 为时尚新品生成 专属社交媒体推 广内容、展示广告 和产品网页 资料来源:亚马逊,中信建投Bedrock 可 利用AWS 工具 进行 丰富拓展 Amazon Web Services(AWS)是 亚马逊推出的 全球最 全面、应用最广泛 的云平台 之一。该 平台通过 全球数据 中心提供超过200 项功能齐全的服务,帮 助 客 户 降低成本、提高敏捷性并加 速创新。其 应 用 领 域 包 括 市 场 营 销、航 空 航 天、农业、金融、制造业、教育、能源等。Bedrock 开 放 外 部 拓 展,用 户 可 接 入 亚 马 逊 云 服 务 推 出 的AWS 工 具 和 功 能 访 问 从 文 本 到 图 像 的 一 系 列 强 大 的 基 础 模 型,以 及 最 新发 布 的Amazon Titan 基 础模型,来构 建可 靠且 安全 的生 成式 AI 应 用 程序。图 表:Amazon Web Services(AWS)业务构 成 图 表:AWS 全球 布局计算机 数据库 存储容器 网页及移动端程序 无服务器 机器学习 资料来源:亚马逊,中信建投Titan 大语 言基础模 型(FM)Titan 模 型是亚马逊发布的 高性能基础模型(FM)。未来将推出两个不同的Titan 模型。第一个是针对总结、文本 生成(如原创博客)、分类、开放式问答和信息提取等任务 的生成式大语言模型。第二 个是文本嵌入(embeddings)大语言模 型,能够将文本输入(字词、短 语甚至是大篇幅文章)翻译成 包含语义的数字表达(即embeddings 嵌入编码)。Titan 模 型已在大型数据集 上进行了预训练。私人订制 化训练时,无需注释大量数 据。该模型的主要应用 场景为:自动化自 然语言任务,比如 总结和文本生成;提高搜索精确度并 提升个性化推荐;识别有害、不良内容 以 促进AI 良 性发展。图 表:Titan 模 型简介图 表:Titan 模 型优势良性发展的高性能基础模型自动化自然语言任务 提高搜索精确度并提升个性化推荐 识别有害内容(仇恨语言、暴力)风 险提示 人 工 智 能 模 型 技 术 发 展 不 及 预 期:人 工 智 能 模 型 属 于 先 进AI 算法,若 后 续 算 法 更 新 迭 代 效 果 不 及 预 期,则 会 影 响 人 工智 能模 型 演进 及拓 展,进 而会影响 其商业 化落地等;算 法 隐 私 问 题:人 工智 能 在进 行预 训练 过 程中,使 用了 大 量数 据,其中 会 涉及 相关 隐私 问 题;应 用 不 及 预 期:人 工智能 算法与相 关应用 落地之间 还存在 一定距离,需要 注意应用 落地不 及预期风 险。算力基础设施支持不及预期:美国制裁中国高科技企业,对中国形成芯片、算 力 的 封 锁,人 工 智 能 模 型 训 练 过 程 中 需要 大量 算 力资 源,需要关 注中美关 系带来 的中国算 力的压 力;数据数量与数据质量不及预期:人 工 智 能 模 型 需 要 大 量 的 高 质 量 数 据 进 行 训 练,若 数 据 数 量 和 质 量 存 在 短 板,则 会 影响 模型 效 果;伦 理 冲 突 风 险:人 工智 能模型 将进 一步 推动人 工智 能迈 向通用 型人 工智能,人 工智 能进一 步智 能化 将产生 人工 智能欺骗、人 工智 能 上瘾、人 与人工 智能之间 的关系 等一系列 伦理问 题;感谢辛侠平、樊文辉对本报告的贡献。分 析 师 介 绍阎贵成:中 信建 投 证券通信&计 算机 行 业首 席分 析师,北 京大 学学 士、硕 士,专 注于 云计 算、物联 网、信息 安 全、信 创与5G等领 域 研究。近8 年中国移 动工作 经验,6 年多 证券研 究经验。系2019-2021 年 新 财富、水晶球 通信 行 业最佳分 析师第 一 名,2017-2018 年 新财富、水晶球 通信行业 最佳分 析 师第一名 团队核 心 成员。金戈:中 信建投 证 券研究发 展部计 算 机行业联 席首席 分 析师,帝 国理工 学 院工科硕 士,擅 长 云计算、金融科 技、人工智 能等领 域。于芳博:中信建 投 计算机行 业分析 师,北京大 学空间 物 理学学士、硕士,2019 年7 月加入中 信 建投,主 要覆盖 方 向智能汽 车、CPU/GPU/FPGA/ASIC、EDA 和工业 软件等 方向。评 级

注意事项

本文(20230417_中信建投证券_计算机行业证券研究报告:一致性模型、Auto0_GPT、Meta动画制作等动态跟踪_39页.pdf)为本站会员(18709673099)主动上传,报告吧仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知报告吧(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642号


收起
展开