2020年云数据中心的智能能耗管理和优化.pdf
云 数 据 中 心 的 智 能 能 耗 管 理 和 优 化 ( 2020 年) SDN/NFV/AI 标准与 产业 推进委员会 2020 年 9 月 2 版权声明 本白皮书版权属于 SDN/NFV/AI标准 与 产业 推进 委员会 ,并受法 律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点,应 注明“来源: SDN/NFV/AI标准 与 产业 推进 委员会 ”。违反上述声明, 本联盟将追究其相关法律责任。 目录 版权声明 . 2 1. 范围 . 5 2. 术语 . 5 3. 缩略语 . 5 4. 数据中心能耗管理概述 . 6 4.1 研究背景 . 6 4.2 云数据中心能耗分布 . 7 4.3 云数据中心编程模型 . 7 4.4 节能技术与策略 . 7 5. 基于人工智能的云数据中心 能耗优化的介绍 . 9 5.1 系统原理 . 9 5.2 执行流程 . 11 6. 数据中心能耗相关的机器学习算法介绍 . 12 6.1 K-means 聚类算法 . 12 6.2 PageRank 基本算法 . 13 6.3 朴素贝叶斯 . 13 6.4 决策树 C5.0 . 14 6.5 算法比较 . 15 7. 不同应用场景能耗管理及优化 . 19 8. 总结与展望 . 23 附录一 、 参考文献 . 错误 !未定义书签。 4 前言 本研究报告旨在阐述云数据中心的能耗管理和优化方面的关键技术,以及人工智能技术 对云数据中心能耗优化的方法和流程,并详细阐述了数据中心能耗相关的机器学习算法,分 析了不同应用场景能耗管理与优化方法。最后,给出了对云数据中心智能能耗管理的建议进 行了总结和展望。 1. 范围 本 白皮书 适用于 云数据中心 不同应用场 景中能耗管理和优化 的 人工智能技术、机器学习 算法选取和使用。 2. 术语 2.1 公平调度器 Fair Scheduler 为所 有运 行的组织动态的调整系统资源,不需要预先占用一定的系统资源,可以公平的 共享集群资源。 2.2 先入先出调度器 FIFO Scheduler 把应用按提交的顺序排成一个队列,在进行资源分配的时候,先给队列中最 先提交 的应 用进行分配资源,待最 先提交 的应用需求满足后再给下一个分配,以此类推。 2.3 Mahout库 提供一些可扩展的机器学习领域经典算法的实现,包括聚类、分类、推荐过滤、频繁子 项挖掘 等 。 2.4 MapReduce 一种编程模型,用于大规模数据集(大于 1TB)的并行运算。 3. 缩略语 下列缩略语适用于本文件。 BP:反向 传播 (back propagation, BP)神经网络 CART:分类回归树( Classification and regression tree) CEMS: 协作式消耗性微切片服务器 ( Cooperative Expendable Micro-Slice Servers) CLS:概念学习系统( Concept Learning System) CMOS:互补金属氧化物半导体( Complementary Metal Oxide Semiconductor) CNN:卷积神经网络( Convolutional Neural Networks) 6 DPS:动态电源切换( Dynamic Power Switching) DVFS:动态电压频率调整( Dynamic Voltage and Frequency Scaling) FIFO:先进先出( Fisrt In First Out) GLB:地理负载均衡( Geographic Load Balancing) IR:初筛算法( Information Retrieval) kNN: k近邻算法( K-Nearest Neighbor) LSTM:长短记忆网络( Long Short Term Memory) MANO:管理与编排( Management and Orchestration) MIPS: 单字长定点指令平均执行速度( Million Instructions Per Second) NFV: 网络功能虚拟化( Network Functions Virtualization) PUE:电源使用效率( Power Usage Effectiveness) RIPPER:重 复增量剪枝以减少 错误( Repeated Incremental Pruning to Produce Error Reduction) SLA:服务等级协议( Service Lavel Agreement) SVM:支持向量机 (support vector machine, SVM) SVR:支持向量回归 (support vector regression) UPS:不间断电源( Uninterrupt Power System) VNF: 虚拟化网络功能 (Virtualize Network Function) 4. 数据中心能耗管理 概述 4.1 研究背景 随着移动互联业务和云计算业务的快速发展,大规模的云计算基础设施所消耗的能量也 在 逐 年 增长。 有报告 显示,美国的 IT基础设施在 2011年所消耗的电能经估算已是 2006年 的两倍,电费成本大约为 45 万亿美元。一方面,如此大幅的能量消耗增长会排放出大量的 CO2,加剧温室效应 ; 另一方面,不断增长的能源消耗已经成为云计算提供商重要的成本来 源。 Amazon 的 CEMS 项目显示 : 能源消耗已经占到该项目总投资额的 41.62%。所以,对降 低云计算中心能耗的有效方法开展研究,共同打造绿色云,则已成为 业内人士的通见与共识, 这也是云计算得以健康发展的关键因素。 4.2 云数据中心能耗分布 在云计算中心,能耗主要来自于服务 器 集 群、冷 却设备 、配电系统、网络 传输设备等。 通常,服务器集群负载所消耗的能量占整体能耗的 50% 左右,国际上通用以 PUE 值来衡量 一个云计算中心的能源效率。 PUE 的计算公式为 : PUE = 数据中心总设备能耗 /IT设备能耗; PUE 的基准值是 2,越接近 1 说明能效水平越好。云数据 中心的最大能耗仍然来自于其庞大 的服务器集群。在已有设备的基础上如何提高服务器集群的能耗是云数据中心亟需解决的问 题。 4.3 云数 据中 心编程模型 MapReduce计算框架是目前在数据中心广泛被使用的编程模型 , 因此它对数据中心的能 耗至关重要 。 目 前 , 已有 很多 工作关注于研究 MapReduce模型的能耗以及具体的控制方法 。 MapReduce计算框架的实现一般分为两个部分 : 一个是分布式存储 , 另一个是分布式计算 。 GreenHDFS1设计并实现了绿色分布式存储的方法 , 它将系统的存储节点分为两个部分 : 一 部分是热点区域 , 另一部分是非热点区域 。 不同类型的数据会存储在不同的区域中 , 与此同 时 , 非热点区域会长时间处于低能耗状态 。 Chen 2等人研究了 MapReduce中不同的配置参 数对能耗的影响 , 他们还提供了针对 MapReduce 测量能耗的企业级基准 。 Leverich3等人 通过在一定程度上牺牲性能来降低能耗 。 Lang 4等人发现 : 与计算时只用一部分计算节点 并关掉其他计算节点相比 , 运行一个计算任务应该使用所有的计算节点 , 当任务完成之后再 关掉所有的计算节点 , 因为这样会达到更 好的节能效果 。 Cardosa 等人 5发现 : 可以通过 调整或者控制虚拟机的物理位置来达到降低能耗的目的 。 Chen 等人 6通过数据压缩的方式 降低了系统的能耗 。 Wirtz等人 7使用 DVFS 技术面向计算密集型的 MapReduce 应用进行能 耗控制 。 Li等人 8以及 Hartog等人 9均 提 出了不同 的面向异 构集群能耗的调度机制 , 使 得可以在不严重影响系统吞吐量的情况下达到低功耗的效果。 4.4 节能技术与策略 由于服务器集群的能耗占据整体能耗的最大比例,所以目前有关云数据中心的节能算法 和策略的研究大都是基于服务器集群的。服务器集群的节能已经成为绿色云计算的研究热 点。在研究国内外大量技术文献的基础上,云数据中心的节能技术和策略可以归纳为以下四 种。 a. 虚拟化 8 遵循摩尔定律,服务器的硬件不断升级,多 核技术的应用更是将服务器的计算能力推向 更高水准。与此同时, 7 24 小时运转的服务器在绝大部分时间里都在浪费其自 身 的 计算能 力。 Singh通过实验验证了大部分服务器在没有负载的情况下,其能耗也会达到能耗峰值的 60%左右 10。 虚拟化技术实现了 IT 资源的逻辑抽象和统一表示,不仅在云数据中心的操 作管理及资源调度方面作用巨大,在节能方面也同样有着出色的表现。埃塞克斯郡的帕尔默 学院通过部署服务器虚拟化,将超过 20 台的 IBM 服务器减少到仅为 3 台装有 Vmware 的 vSphere4 1 服务器,节约了 19%的成本预算 11。上述方案充分显示了虚拟化技术在提升 服务器能源效率方面的优势。目前,虽然虚拟化技术能降低服务器集群的整体能 耗 已 经得到 公众认 可,但是虚拟化技术在能耗优化方面的量化仍存在一定问题。不同类型的物理机和虚 拟机在搭配时会有 不同的效 果,因此虚拟机的装箱算法便成为了目前虚拟化技术在节能领域 的研究热点。 Cardosa 和 Singh等人在 IEEE TRANSACT IONS上发表文章,该论文的方法是 通过获取虚拟机装箱过程中时间和空间 ( CPU、内存和存储能力 ) 的平衡来实现节能 12。 文中采用启发式算法找出最优节能的配 置方案,虽然算法的时间复杂度略高,却 可节约 10% 左右的能耗,效果良好。 b. 任务调度 任务调度也是云计算能耗优化的研 究 热 点。云 计算中 的 Map Reduce模型是将任务划分 为子任务 交给不同的节点同时进行。对于云数据中心庞大的服务器集群而言,如果所有节点 同时处于运行状态,势必带来惊人的能耗。此时需要通过任务调度来实现服务器集群的动态 调整,使那些负载较轻的节点接收更多的任务,或者是将其任务迁移出去后保持在休眠状态, 从而降低其能量消耗。文献 13是以节能效果为目标,论述经典遗传算法在任务调度中的应 用。文献 14研究 了粒 子群算法和蚁群算法在云计算任务调度中的应用,并比较其在节能方 面的效果。上述论文的研究结果表明,在不同的应用场 景 下 ,利用 不同的 智能优化算法调度 服务器之间的任务分配都分别取得 了较优的结果。一些开源的云计算平台往往会自带一些经 典的调度器。如 Hadoop 平台就将任务分成三个粒度 : Queue、 Job、 Task,并以这三个对象 构建了 FIFO Scheduler、 Fair Scheduler 以及 Capacity Scheduler 三种调度器 15。当 然,这几种调度方法都更适用于同构的云环境,目前最新的 Hadoop2 0 beta 版本已经出 现了适应于异构集群的调度器 LATE。 c. 负载均衡 在云环境 中,负载均衡可以将单个重负 载 的 运算分 担到多 台节点设备 上进行并行处理。 每个服务器节点的计算运行结束后,将结果汇总并返回给用户,大大提升了系统的处理能力。 负载均衡本身是一种提升云计算数据处理速度的技术,但是对庞大的云服务器集群来说,负 载均衡技术同样能有效地降低集群整体能耗。 Adbeldalam 等人通过实验证明了在 K 台服务 器下,负载均分时能耗最小 16。由此可以看出对于节能而言,服务器集群负载的合理分配 意义重大。虽然借助于上述 虚拟化技术和任务调度技术,云数据中心可以很方便地将低负载 节点中的任务迁移出去 ,通过维持 运行节点的合理负载来降低能 耗 。 但是虚 拟机中 的任务迁 移 以及物理机的休眠、重启都是需要消耗能量的。德国马堡大学的 Freisleben 教授在文献 17中研究了虚拟机任务迁移的整个过程,并对迁移的三个阶段的能量消耗做了实验分析。 对于拥有庞大服务器集群的云数据中心而言,频繁的任务迁移及物理机的休眠 /启动策略并 不合理,往往需要利用负载均衡技术才能有效地降低能耗。目前,云计算中负载均衡技术的 关键因素是负载均衡的算法设计。对于同构的服务 器集群环境而言,负载均分便是最简单可 行的办法,如 Hadoop平台便是将输入数据分割成 64M 大小的数据块,然后均分 给 DataNode 进行处理。目前的研究热点是异构环境下或者多核环境下的动态负载均衡技术,如文献 18,19考虑了节点的处理能力及节点的实际负载,给出了不同应用环境下的动态负载均衡 算法。 d. DVFS DVFS的全称是 Dynamic Voltage and Frequency Scaling,即动态电压频率调整技术。 不同于上述三种宏观策略下的节能技术, DVFS技术是从每台服务器自身的角度来降低能耗。 对 于 CMOS电路而言,能耗和电压、频率的关系为 : E = Cfv2t (1) 对于同一 服务器芯 片,频率越高,需要的电压也越高。 降低频率可以降低功率,但是降 低频率往往伴随着增加任务的运行时间 t,因此单纯地降低频率并不能有效地减少能耗。通 常情况下, DVFS策略需要在降低能耗和缩短任务运行时间之间做出合理的取舍。目前在 DVFS 技术方面,有三种基本的节能算法 : 第一种是 Lowest DVFS,每个虚拟机以请求的 MIPS来 执行任务,调整 CPU速率至最低。该算法在任务到达率较低的情况 下能耗最少。第二种是 Adanced DVFS,为当前的虚拟机所请求的 MIPS提高 %,每台处理器具备一定的伸 缩 性 。 此算 法可以 克服 Lowest DVFS策略较低的服务器接受率问题。第三种是 Adaptive DVFS, 通过预先判断请求到达率以及服务时间,从而得到最优的伸缩模型。 5. 基于 人工智能 的云数据中心 能耗优化 的 介绍 5.1 系统原理 a. 前提 假设 1) NFV:为支持不同的网络服务, 可以将 不同的虚拟网络部署在同一个 NFV基础设施上 ; 10 2) VNF:虚拟网络 功能 实例被应用在虚拟机或者容器上; 首先, 通过 MANO 来 安装 VNF; 使用 虚拟机 /容器迁移技术可以将 VNF实例 从一个服务器转移到另一个服务器上; 3)数据中心:服务器消耗 70%的能 量 , 其他的 设备( 交换机,路由器,存储设备,空 调)消耗剩余的 30%能量;服务器为了达到高峰时段的服务需求,即使在非高峰时段也需要 保持高功率状态 。 4)能量优化机制( 数据中心 中):在非高峰期将服务转移到一部分服务器上,将其他 服务器设为闲置状态 。(注:此处是一个假设策略,实际上能量优化机制也可参考上一章节 中的其他节能方法策略。) b. 系统原理 1)由 VNFs 提供的服务可以通过 虚拟机 /容器 迁移,从一个服务器转 移到另一个服务器 上, 通过迁移将备用服务器转换为空闲状态 ; 2) 人工智能技术(例如深度学习和机器学习)预测高峰时段 以 及 负荷量 ,然后 唤醒必 要数量的服务器投入到满负荷状 态。 c. 角色 与功能 1) 系统管理员 功能:管理数据中心,并确定虚拟机 /容器迁移的相关策略 。 2)人工智能系统功能: ( 1)数据中心服务器收集相关数据,人工智能系统从中收集和学习服务模型; ( 2)根据 服务需求, 预测 高峰时段以及负荷量,结合虚拟机 /容器迁移的相关策略; 触 发服务流从一个 虚拟机转 到另一个 虚拟机。 3)数据中心服务器功能: ( 1) 为人工智能系统提 供所需数据; ( 2) 在一定的触发条件下, 根据策略执行虚拟机 /容器迁移 。 4)数据中心 环境监控系统 功能: ( 1) 为 人 工智能 系 统 提供需要的 环境 信息; ( 2)根据相关触发条件 执行环境调节的操作 。 5) NFV MANO功能: 根据 相关策略 执行 VNF的生命周期管理操作 。 5.2 执行流程 使用人工智能进行云数据中心的能耗优化包括信息收集、建立关系模型、预测、触发、 执行操作五个流程。 如图 1所示。 图 1 云数据中心智能能耗管理和优化架构 a. 信息收集 人工 智能系统收集和存储虚拟网络的信息,包括每一个 VNF的 CPU使用、存储 使用、网 络 使用等,以及能量损耗信息和环境信息 。 b. 建立关系模型 人工 智能系统使用 AI 算法建立网络服务和其需求资源的关系,能 量 损 耗和环 境设置 的 关 系 。 c. 预测 人工 智能系统学习服务模型 ,并 预测未来某时间段内服务 所 需求 的 资源 。 d. 触发 在某些条件下触发数据中心服务器 或数据中心环境监控系统 执行相应操作。列举 和 人工 智能系统相关的触发类型 如下: 1) 人工 智能系统预测服务所需要的资源在某段时间内将低于临界值 ; 12 2) 人工 智能系统预测服务所需要的资源在某段时间内将高于临界值 ; 3) 人工 智能系统决定改变 数据中心 环境设置 ; 4) 人工 智能系统检测到之前 学习的服务模型 发生 改变 。 e. 执行操作 5) 数据中心服务器根据服务模型和迁移策略动态转变为闲置或者被唤醒。 6) 数据中心环境监控系统 根 据 相关触 发条件 执行 环境调节的操作。 6. 数据中心能耗相关的机器学习算法介绍 6.1 K-means 聚类算法 K-means 聚类算法在 1957 年被提出 , 迄今为止仍然被广泛使用 。 该算法的核心思想是 : 以迭代计算的方式找出 K个中心点 , 使得每个点到其所在聚类的中心点距离之和最小 , 其具 体运算过程如下 : (1)初始化指定 K 个中心点 .一般可以通过随机的方式选取 ,也可以通过伞聚类的方法初 始化中心点以减少迭代次 数 ; (2)计算每一个数据点到各个中心点的距离 ,将数据点分配到距离最近的那个中心点所 在的类 ; (3)通过计算每一个聚类中 所 有 数据点 的平均 值得 到新的中心点 ; (4)如果所有的中心点坐标都保持不变 ,则意味着结果收敛 , 停止计算 ; 否则 , 返回第 (2) 步继续计算 。 这里介绍 Mahout 库中基于 MapReduce实现的 k-means算法 。 每个点以向量的形式进行 存储和计算 , 所有点被存储在分布式文件系统的不同数据块中 。 Map 函数接收一个数据点和 当前 K个中心点作为输入 , 计算出距离该数据点最近的中心点 , 并将该数据点和距离最近的 中心点作为运算结果输出 。 Combiner 函数接收本地所有 Map 函数的计算输出 , 并将属于同 一类的点相加 , 同时计算该类中相加 的 点 的数目 。 Reduce 函数接收所有节点 Map 任务的计 算结果 ,通过计算属于每个类的所有点的平均值来得到新的中心点 , 并通过原中心点和新中 心点的坐标差是否小于某一个阈值来判断该中心点是否收敛 : 若所有中心点已经收敛 , 则结 束本次计算。 6.2 PageRank 基本算法 PageRank 算法由 Google 创始人 拉里 .佩奇 和 谢尔盖 .布林 于 1999 年提出 , 主要用于表 示网页等级的重要性。其中心思想是 : 每一个页面 都使用 rank 值来表示它的重要程度 , 若 一个页面的入链程度越多 , 则这个页面越重要 ; 与此同时 , 若指向这个页面的入链权重越高 , 则 这 个页面 所获得 的权重也就越高 。 具体计算步骤如下 : (1) 每一个网页抽象成一个点 , 根据连接关系构建一个有向图 ; 对每一个点分配一个相 同的 rank值 , 并对于每一个点进行以下两步操作 ; (2) 每一个点将其部分 rank值平均分配到其指向的点上 ; (3) 每个点将其通过所有入链获得的权重加和以及保留的 rank值得到本点新 rank值 ; (4) 当所有的点收敛时 , 结束本次运算 ; 否则 , 继续执行第 (2)步 。 在 Mahout库中 , PageRank应用会使用一个分布式矩阵来表示这个有向图 。 如果第 i行 第 j列的值为 1/n,则表示 点 j有 n条 出 边 , 其中一条出边指向点 i。 同时 , 程序中会使用一 个向量存储所有点的权重 , 而矩阵和向量的乘积便是所有点获得的最新的权重 。 所以 , PageRank计算事实上是矩阵和向量不断相乘的过程 。 Map函数会传入两个参数 : 一个是分布 式矩阵的某一行 , 另一个参数是所有点权重的向量 。 Map函数会将两个向量相乘 , 并将最终 结果传给 Reduce函数 , Reduce函数负责将所有 MapTask 传过来的数值组成一个 新的权重向 量 。 6.3 朴素贝叶斯 在概率论与统计学中,贝叶斯定理 (Bayes theorem) 表达了一个事件发生的概率。 通 常 ,事件 A在事件 B发生的条件下的概率,与事件 B在事件 A发生的条件下的概率是不一样 的;然而,这两者是有确定的关系,贝叶斯( Bayesian)定理就是这种关系的陈述。通过联 系事件 A与事件 B,计算从一个事件产生另一事件的概率,即从结果上溯源。 在 Mahout 中,目前已经有两种实现的贝叶斯分类器了,其中一种是朴素贝叶斯算法, 另外一种是互补型的朴素贝叶斯算法。 简要描述朴素贝叶斯分类过程如下: (1) 设特征向量 x=x1, x2, , xd为一个待分类项 , 每一个 xi代表 x 的一个特征属 性。 (2) 有类别 y=y1, y2, , yn。 14 (3)计算 P(y1|x)、 P(y2|x)、 P(yn|x), 即 x属于每个类的后验概率。 (4)若 P(yk|x)=maxP(y1|x), P(yn|x), 则 认为 x属于第 k类。 6.4 决策树 C5.0 在分类和预测的各种算法中,决策树算法是最常用的。 最早的决策树算法起源于 CLS ( Concept Learning System)系统,即概念学习系统。它是最早的决策树算法,为今 后的 许多决策树算法提供了借鉴。 决策树模型构建的过程就是以样本集为基础的学习、归纳的过 程,决策树算法执行的结果的一些分类规 则 , 都是从 样本数 据中推理得到的。找出样本集中 属性和类别之间的关系,并且利用这种关系来预测未 知类别的样本所属类别是构建决策树的 最终目标。在使用 决策树预测未知样本的类别时,采用自上而下的递归方式,决策树的每个 节点都会进行一 次比较,比较的结果会影响后续分支的方向,当走到叶子节点时,就会得出 最终分类的结果。 决策树算法种类很多,主要有 ID3、 C4.5、 C5.0、 CART等。一般会根据测试属性所采集 的技术、决策树的结构、剪枝的 方式等选取合适的分类算法。 算法的基本思想: 算法 : GenerateDecisionTree(D,attributeList)根据训练数据记录 D生成一棵决策树。 输入: 数据记录 D,包含类标的训练数据集; 属性列表 attributeList,候选属性集,用于在内部结点中作判断的属性。 属性选择方法 AttributeSelectionMethod(),选择最佳分类属性的方法。 输出:一棵决策树。 过程: ( 1)构造一个节点 N; ( 2)如果数据记录 D中的所有记录的类标都相同(记为 C 类) :则 将节点 N作为叶子 节点标记为 C,并返回结点 N; ( 3)如果属性列表为空:则将节点 N作为叶子结点标记为 D 中类标最多的类,并返回 结点 N; ( 4)调用 AttributeSelectionMethod(D,attributeList)选择最佳的分裂准则 splitCriterion; ( 5)将节点 N标记为最佳分裂准则 splitCriterion; ( 6)如果分裂属性取值是离散的,并且允许决策树进行多叉分裂:从属性列表中减去 分裂属性, attributeLsit -= splitAttribute; ( 7)对分裂属性的 每一个取值 j, 记 D中满足 j的记录集合为 Dj; 如果 Dj 为空 , 则新 建一个叶子结点 F,标记为 D 中类标最多的类, 并且把结点 F 挂在 N 下 ; 否则 , 递归调用 GenerateDecisionTree(Dj,attributeList)得到子树结点 Nj,将 Nj挂在 N下 ; ( 8) 返回结点 N; 6.5 算法比较 一直以来,人工智能技术在数据中心能量管理与优化领域得到了广泛应用。反向传播 (back propagation, BP)神经网络、支持向量机 (support vector machine, SVM)、决策树、 专家系统、知识推理等技术应用 在了设备功率预测、机房温度控制、云资源 与能耗协同调度 等方面,初步实现了数据中心一些 能耗 管理功能的智能化。 下面对数据中心能耗相关算法 进 行比较分析。 表 1 不同算法的比较 算法 优点 缺点 适用场景 K-means 聚类算法 原理比较简单, 实现也是很容易,收敛 速度快,计算复杂度 低。当结果簇是密集 的,而簇与簇之间区别 明显时 , 它的效果较 好。主要需要调参的 参数仅仅是簇数 k K 值需要预先给 定,很多情况下 K值的估 计有难度。 K-Means算法对初 始选取的质心点是敏感 的,不同的随机种子点得 到的聚类结果完全不同 , 对结果影响很大。对噪 音和异常点比较的敏感 采用迭代方法,可能只能 得到局部的最优解,而无 法得到全局 的最优解 适用于虚拟机 调度 管理、云任务分 配策略等方面 PageRank 与查询无关的 过分的相信链接关 如机房电能计 16 算法 静态算法,所有网页的 PageRank 值都是离线 计算好的;有效的减 少了在线查询时的计 算量,减少了查询响应 时间 系:一些权威网站往往 都是互不链接的,因为存 在竞争关系;人们的查 询具有主题特征, PageRank忽略了主题相 关性,导致 结果的相关性 和主题相关性降低;旧 的页面等级比新的页面等 级高 量 邻近算法 kNN ( k近邻) 简单且有效 对数据的分布 没 有要求 训练阶段很快 不产生模型,理解 特征于类如何相关的能力 有限 需要选择一个合 适的 K 分类阶段很慢 名义变量(特征) 和缺失数据需要额外处理 适用于 分类任 务,具有以下特点: 特征和目标 类之间关系众多、复 杂或极难理解 具有相似类 的项目又是非常近 似 如果数据是 噪音数据,难以确定 类边界 。 如 根据 管理 员使用 的 节能措施 历史 数据进行节能 措施分类及推荐 朴素贝叶 斯 简单、快速、有 效 能很好地处理 噪声数据和缺失数据 训练样本较少 量,也支持大样本 依赖于一个常用 的错误假设,即一样的重 要性和独立特性 应用在很有大量 数值特征的数据集时并 不 理想 适用于 概率学 习分类任务,具有以 下特点 : 为了估计一个 结果的总体概率,从 众多属性中提取的 信息应该被同时考 很容易获 得一 个预测估计概率值 概率的估计值相 比预测的类而言更不可靠 虑。利用所有可以获 得的证据来修正预 测。 如 异常 能耗数 据 检测 告警 业务场 景中的应用 决策树 C5.0 适用大多数问 题的通用分类器 高度自动化的 学习过程,可以处理数 值数据、名义特征以及 缺失数据 排除了不重要 特征 适用于大、小数 据集 不需要数学背 景也可以解释结果 比复杂模型更 有效 决策树模型在根 据具有大量水平的特征进 行划分时往往有偏差 容易过度拟合或 者欠拟合模型 依赖于轴平行分 割,对某些 关系建立模型 时会有困难 训练数据的小变 化可能导致决策逻辑的大 变化 大的决策树可能 很难理解,给出的决策可 能看起 来违反直觉 根据简单选择 集 做出复杂决策,以 逻辑结构形式呈现 学习到的知识,适用 改进 策略 和业务流 程。如 机房能耗预测 等,属于贪婪算法 规则分类 1R/RIPPE R算法 1R算法 可以生成一个 单一的、易于理解的、 人类可读的经验法则 可以表现得非 常好 可以作为更复 杂算法的一个基准 1R 算法 只使用了一个单 一的特征 可能过于简单 RIPPER 算法 可能导致违反常 理或专家知识的规则 处理数值数据不 逻辑 if-else 语句形式的知识,可 用于对无标记的样 本指定一个分类。规 则是可以阅读的命 题,类似事实的陈 述,可以直接识别规 则而避免偏差,擅长 识别偶发事 件。如 基 于用户熟悉的规则 18 RIPPER算法 生成易于理解、 人类可读的规则 对大数据和噪 声数据有效 通常对决策树 产生的模型更简单 太理想 性 能有可能不如 更复杂模型 确 定机房节能措施 的使用条件,触发机 房能耗告警 的前提 条件,属于贪婪算法 回归 对数值关系的 规模和强度建立模型 适用于几乎所 有的建模任务 提供特征与结 果之间关系的强度与 大小的估计 回归树与决 策 树结合,适用数值预测 的决策树分类 对数据使用了很 强的假设 模型的形式需要 提前指定 不能处理缺失数 据 只能处理数值特 征 需要统计知识 回归树与决策树 结合模式不需要事先指定 模型和统计学知识,且需 要大量训练数据 数值数据预测 建模两种方法,线性 回归或者用决策树 预测。线性回归包括 直线线性回归、多元 线性回归。决策树预 测包括回归 树、模型 树等。可以应用到 机 房服务器能耗 预测 等 人工神经 网络 模仿大脑结构 来模拟任意函数功能 适用于分类和 数 值预测问题 对数据基本关 计算量极大,训练 缓慢 容易过度拟合训 练数据 有时结果很难解 如 机房温度的 控制 建模 系不需要做出假设 释 支持向量 机 使用多维曲线 来定义特征和结果之 间的关系 可用于分类或 者数值预测问题 不会过多受到 噪声数据的影响,而且 不容易出现过度拟合, 准确率较高 寻找最好模 型需 要测试不同核函数核模型 参数的组合 训练缓慢,尤其是 当输入数据集具有大量的 特征或者案例时 导致复杂的黑箱 模型,很难,无法解释 适用于 通过空 调送风温度、回风温 度、风量和机架温湿 度作为训练参数,对 未来机架温度进行 预测 等 关联 ( apriori) 能够处理大量 事务型数据 规则中的结果 很容易理解 对数据挖掘知 识有用 对于小的 数据集 不是很有帮助 需要努力对数据 的真实洞察和常识区分 容易从随机模式 得出虚假结论 通过度量规则 的支持度和置信度, 搜索大量元素之间 的关联关系,不需要 训练算法和标记数 据。 如通过机房 设备 运行日志进行关联 规则挖掘并提供智 能化管理决策支持 等 组合(元 学习) 需要依据具体应 用场景进行组合,优于 单个算法 依据具体应用 场景进行组合 使用 7. 不同应用场景能耗管理及优化 人工智能技术在云计算 数据中心能耗管理与优化中应用日益广泛,在设 备和系统能耗与 性能建模、作 业任务与资源调度、运行参数优化和节能措施选择等方面应用不断深入, 能耗 的管理和优化与云计算数据中心承载的业务密切相关。下面从机房、 IT设备、云计算平台、 业务系统、数据中心 5 个不同应用场景讨论其能耗管理与优化问题。 20 表 2 不同应用场景能耗管理及优化分析 场景类型 场景分析 能耗管理及优化方法 机房 对于中心机 房,主要涉及 到制冷、 UPS、 IT 设备运 行参数设置和状态管理, 也涉及到 IT 设备的布局 与放置,核心是确保 IT 设备工作在适合的温度, 并尽量降低各种辅助设施 的能耗 从制冷、供电、布局 多个维度研 究机房能耗的优化 和分布,在最 大程度保障服务质量前提下,部 署尽量多的 IT 设备,降低拥有 总成本,如设备 /机柜功率优 化、制冷策略优化,主要使用的 方法有凸优化、线性规划、神经 网络等 边缘机房与中心机房设计 大致相同,但边缘机房需 要大量部署、能耗也是系 统级的增加。主要 涉及各 类 接入节点 /IT 设备 的负 载、电能消耗等方面。 接入节点的负 载预测能够提前评 估未来时刻负载量的大小,为资 源配置或者电源管理的决策提供 指导意见,提高资源利用率,从 而减少 能耗。 同时,动态的电源 管理能够更加精确的控制边缘服 务器的工作模式(关闭 ,休眠, 活跃等)的转换,从 而避免在关 闭和唤醒服务器是带来的能量消 耗, 主要 使用 的方法有循环神经 网络、 长短期记忆人工神经网 络、 强化学习等。 IT设备 设备种类包括服务器、网 络设备和安全设备等,其 中服务器设备的数量最 大、能耗最高。 服务器级能耗优化技术包括 DVFS、 DPS,通过调节 CPU的频率 和电压来降低能耗,如回归模型 等方法来预测 DVFS 下 CPU 的性 能、功率和能耗值,功率限制下 的 CPU-GPU 联合运行的调度算法 等; 网络设备能耗优化是对网络流量 进行合并,然后让空闲的网络设 备或端口进行休眠或关闭,以节 约网 络设备的能耗,常用方法包 括 采 用 多 商 品 流 (multi-commodity flow, MCF)、 贪婪二进制背包和拓扑感知的启 发式规则等方法进行设备选择; 对每个活跃的流量使用专用的通 道,对不活跃的端口进行休眠, 对全部端口休眠的设备进行休眠 的方法进行 SDN节能。 云计算平台 云计算平台将数据中心 IT 资源进行整合,是数 据中心 IT 设施的核 心, 是由计算节点、存储节 点、网络节点、负载均衡 节点等多种类型节点 组成 的庞大系统。云计算平台 能耗管理和优化主要是在 数据中心 IT 资源分配、 调度时结合能耗特性进行 优化,实现资源和 能耗优 化的统一 计算节点主 要涉及服务器频率和 电压的调整,虚拟机部署、动态 迁移和任务接入与调度等方面的 优化方法;存储节点主要涉及硬 件方面的低功耗控制,以及软件 方面的静态数据放置和动态数据 迁移技术来降低能耗;在虚拟机 能耗管理方面,主要借助 LSTM 时间序列预测、 CNN 的空间特征 提取等深度学习技术,对虚拟机 进行调度和管理,同时融合了 SLA、 IT 设备能耗模型、环境温 度以及 UPS 负载等因素,做出最 优的 宿主机分配选择。 业务系统 主 要 涉 及 到云 计 算的 PaaS 和 SaaS 层,一般 按照信息系统、大数据平 台、 Web 集群等系统特性 进行能耗的优 化,根据系 统能耗、 SLA、业务特 由于业务系统种类繁多、 QoS 特 性和控制方式各异、规模大小不 一,其能耗管理与优化涉涉及 到 业务访问影响种类、数据存储与 分布等多个因素,每类业务系统 根据自身特性进行管理与优化, 22 性、数据分布和使用频率 等方面进行能耗、性能和 服务质量的平衡,达到既 满足业务需要,又节能的 目的 主要使用的方 法有 SVR、整数规 划和启发式算法等。如根据每个 服务器的峰值效率点进行业务调 度、采用支持向量回归 (support vector regression, SVR)方法进 行高性能计算机 作业能耗预测 等。 数据中 心 数据中心层面的能耗管理 分为单数据中心和多数据 中心能耗两大类情况。单 数据中心更注重数据中心 内部制冷、 UPS、 IT 设备 能耗以及云计算系统能耗 的协调优化,多数据中心 更关注数据中心间负载、 成本、电价、能耗的均衡 和总 成本最优。 利用神经网络、机器学习等方 法,通过传感器的数据建立数据 中心性能模型,预测数据中心的 PUE 值:服务器设备的总负载、 网络设备的总负载、运行状态的 水泵数量、运行状态压缩机的数 量、水泵和压缩机的频率、冷却 塔的数量、冷却塔冷水水温、运 行状态风机数量、室外温度、室 外湿度、室 外空气密度、风速和 风向等 19个指标;在多数据中心 能耗联合优化方面,电价成为负 载调节和资源分配主要考虑因 素,主要采用的技术包括启发式 算法、线性规划、动态规划、混 合整数规划、遗传算法等分析电 力市场、工作负载、再生能源、 性能目标及其它影响 GLB 的因 素,实现电能