大数据主题深度研究:数据爆炸的大数据时代.pdf
大数据主题 深度研究 数据 爆炸 的 大数据时代 2016 年 4 月 20 日 分析师 邓世杰 行业 研究员 2016 年 4 月 20 日 请务必阅读正文后免责条款 - 1 - 大数据 主题 深度研究 相关研究报告 报告要点: “ 大数据 “是土壤。 开放 的数据即 为 土地上 的 河流 , 河流流过之处,就会孕育起发达的数据文明 。 “大数据 “ 时代势不可挡 。 2008 年 全球产生的数据量为 0.49ZB, 2009 年 为 0.8ZB, 2010 年增长为 1.2ZB, 2011 年数据 量 高达 1.82ZB, 而全人类历史上说过的所有话的数据量大约是 5EB。整个 人类文明 所获得的全部数据中,有 90%是过去两年内产生的。而到了 2020 年,全世界所产生的数据规模将达到今天的 44 倍 。 “大数据“产业崛起 。 越来越多 的政府、企业等机构开始意识到数据正在成为组织罪重要的资产 , 数据分析能力正在成为组织的核心竞争力。2012 年 3 月, 美国 政府宣布投资 2 亿 美元拉动大数据相关 产业;联合国 2012 年 发布大数据政务白皮书,指出大数据对于联合国和各国政府来说是一个历史性机遇 ; 马云重新定义阿里 ” 我们 集团本质 上市一家扩大数据价值的公司 , 我们正在努力让数据和计算能力成为普惠经济的基础。尽管如此,我们依然觉得和未来潜力相比,云计算和大数据还是个婴儿。 “ 中国 政府 高度 重视大数据发展 。 2014 年 3 月 ” 大数据 “ 首次 出现在 政府 工作报告 中 以来,国务院会议一年内 6 次 提及大数据运用。 2015 年 6月 国务院常务会议上,李克强总理再次强调 ” 我们 正在推进简政放权,放管结合 、 优化服务 , 而大数据手段的运用十分重要。 “ 风险提示: 政策变化, 技术 迅速变化 。 请通过合法途径获取本公司研究报告,如经由未经许可的渠道获得研究报告,请慎重使用并注意阅读研究报告尾页的声明内容。 2016 年 4 月 20 日 请务必阅读正文后免责条款 - 2 - 目 录 1 大数据 . - 5 - 1.1 大数据的概念 . - 5 - 1.2 大数据的价值 . - 6 - 1.3 企业涌入大数据市场 . - 7 - 2 大数据处理技术 . - 8 - 2.1 大数据处理的四大步骤 . - 9 - 2.2 大数据处理系统的架构 . - 10 - 2.2.1 分布式文件系统 . - 11 - 2.2.2 分布式数据库系统 . - 12 - 2.2.3 分布式数据处理系 统 . - 13 - 2.2.4 大数据的开源实现平台 Hadoop . - 14 - 2.3 数据分析及数据解释 . - 16 - 2.4 大数据与云计算 . - 16 - 2.4.1 云计算为大数据带来的变化 . - 17 - 2.4.2 大数据逐步“云 ”化 . - 17 - 3 大数据产业 . - 18 - 数据基础设施 . - 19 - 3.1.1 存储设备 . - 19 - 3.1.2 服务器设备 . - 21 - 3.1.3 网络设备 . - 22 - 3.1.4 IT 系统集成商 . - 23 - 3.1.5 网络安全服务商 . - 25 - 3.2 大数据服务链 . - 26 - 3.2.1 数据源(大数据的拥有者) . - 27 - 3.2.2 大数据管 理工具 . - 28 - 3.2.3 大数据应用工具 . - 29 - 3.2.4 云计算服务提供商 . - 31 - 3.3 大数据行业市场规模 . - 32 - 4 大数据产业政策 . - 34 - 5 总结 . - 35 - 免责条款: . - 36 - 2016 年 4 月 20 日 请务必阅读正文后免责条款 - 3 - 图表目录 图 1 大数据构成 . - 5 - 图 2 大数据在纽约市交通规划上的应用 . - 6 - 图 3 美国个人征信业务 . - 6 - 图 4 全球大数据市场规模(亿美 元) . - 6 - 图 5 2014年国际公司的大数据收入规模 . - 7 - 图 6 大数据生态里的国内外公司 . - 7 - 图 7 海量数据的管理难题 . - 8 - 图 8 Informatica提出的大数据处理架构 . - 8 - 图 9 大数据处理生命周期 . - 9 - 图 10 大数据处理系统结构 . - 10 - 图 11 分布式文件系统 . - 11 - 图 12 典型 NoSQL数据 库 . - 13 - 图 13 MapReduce批处理模型 . - 14 - 图 14 Sector and Sphere云计算平台 . - 14 - 图 15 Intel公司给出的 Hadoop开源实现方案 . - 15 - 图 16 华为大数据统一架构 . - 15 - 图 17 阿里云平台 . - 18 - 图 18 大数据产业架构 . - 18 - 图 19 浪潮信息存储领域产品 . - 19 - 图 20 中国存储市场规模 . - 20 - 图 21 全球外部存储磁盘存储市场竞争格局 . - 20 - 图 22 全球全部磁盘存储市场竞争格局 . - 20 - 图 23 中国外部存储市场各厂商营收( 2014Q2) . - 20 - 图 24 数据存储 . - 21 - 图 25 数据备份 . - 21 - 图 26 容灾 . - 21 - 图 27 浪潮服务器 . - 22 - 图 28 2015Q1中国 x86服务器市场各厂商销售额(百万美元) . - 22 - 图 29 固定 +移动一体化网络 . - 23 - 图 30 企业级网络设备 . - 23 - 图 31 数据中心组成 . - 23 - 图 32 网络安全产品和服务 . - 25 - 图 33 企业级网络安全产品 . - 25 - 图 34 安全管理系统架构 . - 26 - 图 35 大数据服务 . - 27 - 图 36 大数据服务链上的代表公 司 . - 27 - 图 37 IBM大数据领域投入 . - 29 - 图 38 Watson Explorer的工作原理:基于大数据的人工智能 . - 30 - 图 39 垂直化应用工具提供商 . - 30 - 图 40 行业化应用工具提供商 . - 31 - 图 41 商业化云平台 . - 32 - 图 42 百度云服务 . - 32 - 图 43 2014年全球大数据各细分领域市场份额 . - 33 - 图 44 2014-2020年全球大数据应用市场规模 . - 33 - 图 45 中国大数据产业市场规模 . - 33 - 2016 年 4 月 20 日 请务必阅读正文后免责条款 - 4 - 图 46 中国大 数据细分市场规模占比 . - 33 - 图 47 中国大数据软件市场 . - 33 - 图 48 中国大数据基础建设市场 . - 33 - 图 49 中国大数据应用市场 . - 34 - 图 50 大数据产业政策 . - 34 - 2016 年 4 月 20 日 请务必阅读正文后免责条款 - 5 - 图 1 大数据 构成 数据来源 :优品金融研究所 1 大数据 1.1 大数据的 概念 “ 大数据 ” 的确切定义尚无统一说法。根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理、处理的数据集合。海量数据概念是大数据的子集,通常认为海量数据 +复杂类型数据 =大数据。海量数据主要强调数据量之海,但可能只是结构化的数据,那么其处理、分析都很方便,问题只在于增加存储设备、提高存储效率。但大数据通常包含大量的非结构化的数据(包括文档、图片、 XML、 HTML、图像 、音频及 视频信息等)。 大数据的特点体现在四个维度( 4V): 数据量大( Volume): IDC预计到 2020年,全球将总共拥有 40ZB的数据量; 类型繁多( Variety):包括结构化、半结构化、非结构化数据; 价值密度低( Value):有价值信息被淹没在海量信息之中; 速度快、时效高( Velocity):处理速度要跟上数据增长速度 。 从管理视角来给大数据下定义:“大数据是一类能够反映物质世界和精神世界运动状态和状态变化的信息资源,它具有复杂性、决策有用性、高速增长性、价值稀疏性和可重复开采性,一般具有多种潜在价值。”基于大数据的资源观和管理的视角,认为大数据是一类能支持管理决策的重要资源。因此为了有效管理这种资源并充分发挥其潜在价值,就需要研究并解决这种资源的获取、加工、应用、产权界定、产业发展和政策保障等管理问题。 2016 年 4 月 20 日 请务必阅读正文后免责条款 - 6 - 图 4 全球 大数据市场规模 (亿 美元) 图 2 大数据 在纽约市交通规划上的应用 图 3 美国 个人征信业务 数据来源 :优品金融研究所 数据来源 :优品金融研究所 1.2 大数据的 价值 2010年 Science上刊登了一篇文章指出,虽然人们的出行的模式有很大不同,但我们大多数人同 样是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性,即 93%的人类行为可预测。 而大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。 随着计算机的处理能力的日益强大,能获得的数据量越大,挖掘到的价值就越多。数据本身不产生价值,如何分析和利用大数据对业务产生帮助才是关键。 2008年全球产生的数据量为 0.49ZB, 2009年为 0.8ZB, 2010年增长为 1.2ZB,2011年数据量高达 1.82ZB,而全人类历史上说过的所有话的数据量大约是 5EB。整个人类文明所获得的全部数据中,有 90%是过去两年内产生的。而到了 2020年,全世界所产生的数据规模将达到今天的 44倍。 2016 年 4 月 20 日 请务必阅读正文后免责条款 - 7 - 图 5 2014年 国际公司的大数据收入规模 图 6 大数据 生态里的国内外公司 数据来源 : 易观智库 数据来源 :优品金融研究所 1.3 企业涌入 大数据 市场 目前 全球大数据企业主要分为两大阵营。一部分 属于单纯 以大数据技术为核心的创新型公司, 希望 为市场带来创新 方案 并推动技术发展。另 有 一些则是以数据库 /数据 仓储业务为主的知名公司,利用自身资源与技术优势地位冲击大数据领域。 2014年,百度、阿里巴巴、腾讯、京东等互联网企业抓紧布局 大数据领域,纷纷推出大数据产品和服务,抢占数据资源。 传统 IT企业开始尝试涉足大数据领域,其产品和服务多是基于原有业务开展,未能撼动互联网公司的领先地位。初创企业受限于数据资源和商业模式,还要面对互联网企业的并购行为,竞争实力尚显不足。 由于我国 大数据领域的产业供给远小于市场需求,且已经出现的产 2016 年 4 月 20 日 请务必阅读正文后免责条款 - 8 - 图 8 Informatica提出的大数据处理架构 图 7 海量数据 的管理难题 数据来源 :优品金融研究所 数据来源 :优品金融研究所 品和服务在思路、内容、应用、效果等方面差异化程度不高,加之缺乏成熟的商业模式,导致大数据 市场竞争不够充分。在国内企业考虑如何提升服务能力的时候,国外企业已经在 2014 年悄然进入我国市场 。 未来, 国内大数据市场竞争格局将会发生重大转变。 2 大数据处理 技术 在传统的数据处理周期里,处理数据只有两个环节:从“数据源”到“应用”。传统的数据源需要经过处理存到一个结构化数据库( SQL应用最为广泛)进行管理,然后再使用诸如数理统计、结果可视化等技术完成对数据的应用。 与传统的数据处理周期不同,大数据处理需要在传统的“数据源 -应用 ” 这一个流程上增加 “ 数据管理 ” 这一步骤。数据管理软件公司 Informatica给出了一个理想的大数据处理架构。 2016 年 4 月 20 日 请务必阅读正文后免责条款 - 9 - 图 9 大数据 处理生命周期 数据来源 :优品金融研究所 2.1 大数据处理的四大步骤 大数据处理之一:采集 大数据的采集是指利用多个数据库来接收发自客户端( Web、 App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库 MySQL和 Oracle等来存储每一笔事务数据,除此之外, Redis和 MongoDB这样的 NoSQL数据库也常用于数据的采集。 在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大 量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。 大数据处理之二:导入 /预处理 虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自 Twitter的 Storm来对数据进行流式计算,来满足部分业务的实时计算需求。 导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆 ,甚至千兆级别。 大数据处理之三:统计 /分析 2016 年 4 月 20 日 请务必阅读正文后免责条款 - 10 - 图 10 大数据 处理系统结构 数据来源 :优品金融研究所 统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到 EMC的 GreenPlum、 Oracle的 Exadata,以及基于 MySQL的列式存储 Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用 Hadoop。 统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是 I/O会有极大的占用。 大数据处理之四:挖掘 与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测( Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的 Kmeans、用于统计学习的 SVM和用于分类的 NaiveBayes,主要使用的工具有 Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。 2.2 大数据处理系统的架构 大数据处理系统不管结构如何复杂,采用的技术千 差万别,但是总体上可以分为以下几个重要部分。 从数据处理的一般流程可以看到,在大数据环境下需要的关键技术主要针对海量数据的存储和海量数据的运算。大数据的研究主要来源于依靠数据获取商业利益的大公司, Google公司作为全球最大的信息检索公司,其走在了大数据研究的前沿。 面对呈现爆炸式增加的因特网信息,仅仅依靠提高服务器性能已经远远不能满足业务的需求。如果将各种大数据应用比作 “ 汽车 ” ,支撑起这些 “ 汽车 ” 运 2016 年 4 月 20 日 请务必阅读正文后免责条款 - 11 - 图 11 分布式 文件系统 数据来源 :优品金融研究所 行的 “ 高速公路 ” 就是云计算。正是云计算技术在数据存储、管理与分析等方面的支持,才使得大数据有用武之地。 Google公司从横向进行扩展,通过采用廉价的计算机节点集群,改写软件,使之能够在集群上并行执行,解决海量数据的存储和检索功能。 2006年 Google首先提出云计算概念。支撑 Google公司各种大数据应用的关键正是其自行研发的一系列云计算技术和工具。 Google公司大数据 处理的三大关键技术为: Google文件系统 GFS、 MapReduce和 Bigtable。 Google的技术方案为其他的公司提供了一个很好的参考方案,各大公司纷纷提出了自己的大数据处理平台,采用的技术也都大同小异。简单来说,支持大数据系统需要三个部分:分布式文件系统、分布式数据处理技术、分布式数据库系统。 2.2.1 分布式文件系统 文件系统是支持大数据应用的基础。文件系统最初设计时,仅仅是为局域网内的本地数据服务的。而分布式文件系统将服务范围扩展到了整个网络。不仅改变了数据的存储和管理方式,也拥有了本地文件系统所无法具备的数据备份、数据安全等优点。分布式文件系统可以有效解决数据的存储和管理难题:将固定于某个地点的某个文件系统,扩展到任意多个地点 /多个文件系统,众多的节点组成一个文件系统网络。每个节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输。 分布式文件系统的数据存储解决方案,归根结底是将将大问题划分为小问题。大量的文件,均匀分布到多个数据服务器上后,每个数据服务器存储的文件数量就少了,另外通过使用大文件存储多个小文件的方式,总能把单个数据服务器上存储的文件数降到单机能解决的规模;对于很大的文件,将大文件划分成多个相对较小的片段,存储在多个数据服务器上(目前,很多本地文件系统对超大文件 2016 年 4 月 20 日 请务必阅读正文后免责条款 - 12 - 的支持已经不存在问题了,如 ext3文件系统使用 4k块时,文件最大能到 4T,ext4则能支持更大的文件,只是受限于磁盘的存储空间)。 当前比较流行的分布式文件系统: ( 1) Lustre: Lustre是 HP、 Intel、 Cluster File System公司联合美国能源部开发的 Linux集群并行文件系统。该系统已推出 1.0的发布版本,是第一个基于对象存储设备的,开源的并行文件系统; ( 2) Hadoop: Hadoop并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式 应用的框架。 Hadoop框架最核心的设计就是: HDFS和 MapReduce。 HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算; ( 3) FastDFS: FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如相册网站、视频网站等等 ; ( 4) GFS: Google 开发的可扩展分布式文件系统,用于大型的,分布式的,对大量数据进行访问的应用。它运行于廉 价的普通硬件上,但可以提供容错功能,它可以给大量的用户提供性能较高的服务。 2.2.2 分布式数据库系统 传统的关系模型分布式数据库难以适应大数据时代的要求,主要的原因有以下几点: ( 1)规模效应带来的压力。大数据时代的数据远远超出单机处理能力,分布式技术是必然的选择。传统的数据库倾向于采用纵向拓展的方式,这种方式下性能的增加远低于数据的增加速度。大数据采用数据数据库系统应该是横向发展的,这种方式具有更好的扩展性。 ( 2)数据类型的多样性和低价值密度性。传统的数据库适合结构清晰,有明确应用目的的数据,数据的价值密度相对较高。在大数据时代数据的存在的形式是多样的,各种半结构化的数据时大数据的重要组成部分。如何利用如此多样、海量的低价值密度的数据是大数据时代数据库面临的重要挑战之一。 ( 3)设计理念的冲突。关系数据库追求的是 “ 一种尺寸适用所有 ” ,但在大数据时代不同的应用领域在数据理性、数据处理方式以及数据处理时间的要求上千差万别。实际处理中,不可能存在一种统一的数据存储方式适应所有的场景。 面对这些挑战, Google公司提出 了 Bigtable的解决方案。 Bigtable的设计目的是可靠的处理拍字节级别的数据,并且能够部署到千台机器上。 Bigtable 2016 年 4 月 20 日 请务必阅读正文后免责条款 - 13 - 数据来源 :优品金融研究所 已经实现了以下几个目标:使用性广泛、可扩展、高性能、和高可靠性。 Bigtable已经在超过 60个 Google的产品和项目上得到了应用。 除了 Google公司为人熟知的 Bigtable,其他的大型 Internet内容提供商也纷纷提出大数据系统。具有代表性的系