数据应用工程成熟度模型.pdf
数据应用工程 成熟度模型Data Application Engineering Maturity Model 目录1.1背景1.2模型概述 1.3适用对象 2.1业务系统化定义特征2.2业务数据化定义特征2.3数据资产化定义特征2.4业务智能化定义特征2.5成熟度进阶3.1数据理解概述业务理解数据评估关键点&难点3.2数据准备概述数据获取数据定义数据整理数据增强关键点与难点引言01成熟度模型04数据应用过程09020203050505050505060606070707071010101112121212131314153.3数据开发概述数据分析数据探索数据建模关键点与难点3.4 部署运营概述数据应用运营监控效果分析关键点与难点4.1 数据维度概述4.2 元数据管理元数据概述元数据定义及分类如何管理元数据4.3 数据质量数据质量概述数据质量维度如何进行数据质量管理4.4 数据安全数据安全概述如何做好数据安全管理数据应用过程13数据维度201515151616171717171818182121212121222222242525265.1综述5.2大数据工具列表 常用主要开源工具数据仓库与数据管理工具 数据清洗、集成和ETL工具BI与可视化工具数据建模与数据科学工具【附录1】术语【附录2】溯源与关系IBM-数据治理成熟度模型微软-团队数据科学模型阿里-大数据安全成熟度模型 CRISP-DM模型御数坊-DCMM模型NIST-大数据架构【附录3】参考文献数据工具与技术28附录322929293030303133363638383940404201引言01引言01 背景02 模型概述03 适用对象02 引言 背景nullnull在现代社会,随着企业的发展产生了大量的数据,生产部门有生产制造的数据记录,业务运营部门有营销数据,财务部门有经营数据,数据无处不在,数据又时时刻刻影响着企业运转中每个环节的决策。数据已经成为除了资金和人才以外企业新的资产价值增长点。数据本身并不代表价值,数据仅仅是以一定格式对事实进行记录,是原始材料;只有结合环境和上下文的数据才有意义,这就是信息;伴随着信息的积累,我们从趋势和关系的挖掘中总结出了规律,这些规律就变成了知识;然后依据知识在企业经营中进行决策和行动,能进一步促进企业的良性循环。数据产生价值的过程需要经历获取、存储、评估、整理、增强、分析、应用等多个环节,在小数据时代这些过程都相对简单和成熟。随着近些年数据收集方式的增多、传感设备数量的增加,计算能力的增强和存储方式的改进,导致了人们可感知的数据量急剧增多;按照摩尔定律,数据生成和存储的生长速度一直在呈现指数增长。大数据应运而生,带来了俗称的大数据 4V 特征:数量多(即数据集的规模)、多样性(即来自多种数据仓库、领域或类型的数据)、速度快(数据的流速)、多变性(在不同特征里的变化)。大数据的到来,使得在数据系统的演化进程中,人们对于高经济效益以及高效率的数据分析需求迫使现有技术不断变化。伴随着大数据革命,必须考虑如下四个方面的相互作用:数据集的特征、对数据集的分析、数据处理系统的性能以及对经济效益的商业考虑。这些决定了数据应用的价值效果。通过不断的实践,我们总结出了当前大数据环境下的数据应用工程 - 成熟度( LPDT)模型。nullnullnullnull数据应用工程 - 成熟度( LPDT)模型(以下简称“成熟度模型”)主要针对大数据环境下的数据应用工程提供方法论依据。可以用来指导企业评估自身所处的数据应用成熟度阶段,也可以用来指导企业如何晋级到更高阶的成熟度阶段。成熟度模型分为成熟度阶段( Level)、过程( Process)、维度( Dimensionality)和工具( Tool)四个方面展开。数据应用工程 成熟度模型( LPDT)03引言 适用对象成熟度阶段( Level)分为 Level1 业务系统化、 Level2 业务数据化、 Level3 数据资产化、Level4 业务智能化共四个阶段;除此以外,还有一个更高阶的隐藏阶段为 Level5 企业智能化。成熟度阶段( Level)主要代表了企业在业务运转中应用数据能力的高低,可以通过过程( Process)、维度( Dimensionality)和工具( Tool)等多个维度去评估。本成熟度模型不设置详细的打分机制,只提供部分阶段的特征供企业自评估参考。数据应用过程( Process)分为数据理解( Understand)、数据准备( Prepare)、数据开发( Develop)、部署运营( Operation)四个阶段,基本涵盖了所有数据应用过程,其中每个过程还会细分子过程、入输出及操作项,这些会在后续的章节详细阐述。数据应用过程可以理解为一个数据应用的最小迭代原型,也可以理解为一个大项目或企业的整体数据应用,其中过程与过程之间也可能发生小的迭代和回溯。使用时应在抽象理解的基础上与企业的实际情况映射。数据维度( Dimensionality)是指贯穿于数据应用全过程的一些数据领域维度,是数据应用过程中必须考虑的方面,当前我们只考虑“元数据”、“质量”和“安全”三个维度展开,由于每个维度单独展开都是一个很大的话题,本文档中只结合数据应用过程有限地展开阐述。数据应用过程中还有很多其他维度本次暂不涉及,也欢迎各位使用者反馈。数据工具( Tool)是指结合数据应用过程和数据维度各个环节会用到的工具,可能是开源的,可能是定向开发的,可能是 SaaS 的,可能是私有化部署,可能是免费的,可能是付费的。数据工具与过程和维度是相辅相成的关系,三者一起为成熟度阶段提供评估依据。nullnullnullnull数据应用工程 - 成熟度模型可适用于如下场景:企业管理决策层( CEO、 CIO 等)可以参考该模型评估企业数据应用的阶段,进行业务相关的数据战略决策,进一步规划数据在业务中的应用思路。业务部门可以使用该模型优化业务流程,参考该模型系统进行数据应用,挖掘数据价值,提高效率,提升业务效果。数据部门可以使用该模型更系统地建立数据管理和应用的流程机制,为更多的业务部门提供数据应用支撑能力。04 nullnullnullnullnullnull02成熟度模型01 业务系统化02 业务数据化03 数据资产化04 业务智能化05 成熟度进阶05nullnullnullnullnullnull数据应用工程 - 成熟度模型( LPDT)主要从数据管理和应用的角度来衡量企业应用数据的能力,并将其分为以下多个成熟度阶段。针对不同的阶段,从企业管理、数据应用过程、数据维度、技术 / 工具等多个方面不同特征进行参照判定。nullnullnullnullnullnullnull业务系统化阶段是指:企业的业务流程清晰,且业务过程都已经通过 IT 系统实现, IT 系统的实现以业务为导向,可能有少量数据记录,但并没有以数据为导向积累数据。nullnull“业务系统化”阶段主要有以下特征:企业管理:该阶段的企业战略以纯业务角度驱动;整个公司无数据意识,业务实施过程中无数据积累及数据优化业务的理念;企业的组织架构中无数据相关部门和职位的设置。数据应用过程:该阶段的企业只是使用业务系统中必备的数字进行业务和财务的统计管理和分析。尚未开始理解业务链条背后各个环节的数据,也没有考虑使用技术工具进行数据积累。每次基于业务目标的数据统计都需要定制化开发处理。数据维度:该阶段的元数据只涉及业务元数据,可能只在业务系统中使用,但并未统一所有的元数据术语,各业务线的业务单元分散管理。质量方面,可能会有一些测试和质检,但是并未从质量保证和质量控制角度设计质量管理指标和质量评价体系。数据安全层面只界定了财务数据,尚未对数据的分等定级和数据安全保密级别进行设计和划分。技术 / 工具:开始使用平台 / 系统管理部分业务或整个业务线,但业务系统间并未打通和串联,各业务系统无数据沉淀,业务系统背后的数据未被收集或处于散乱无序的未管理状态。nullnullnullnullnullnullnull业务数据化是指企业在业务系统化的基础上开始建立数据理念,开始基于单业务各个环节进行数据的收集、管理、分析,并反馈优化该业务,数据体量相对单一,可能有业务的 BI报表进行闭环的业务分析和迭代。该阶段是基于业务目标去收集数据和分析数据。nullnull“业务数据化”阶段主要有以下特征:企业管理:该阶段的企业开始建立数据的理念,在业务过程中注重数据的积累,战略上开始考虑通过数据来分析和解决业务问题;组织架构中有数据相关的部门和数据分析师等相关的职位来支撑。业务系统化