2018年秋季数据科学行业人才流动报告.pdf
Dfgd 2018 年 秋季 数据 科学行业人才流动报告 2 目录 前言 . 3 报告数据说明 . 4 一、数据科学领域的典型技术和应用场景 . 5 二、数据科学领域,到底有多缺人才? . 9 三、从企业要求与薪资角度,解读 5 大数据科学岗位 . 13 四、 纵向与横向职业发展路径 . 21 2018 年 秋季 数据 科学行业人才流动报告 3 前言 进入金九银十以来,不仅有广大学子紧张备战秋招,也有拿了半年度奖金后蠢蠢欲动的跳槽观望者,都对即将投身的新岗位薪资充满了好奇和困惑。 在 100offer 的 公众号后台,诸如 你们有大数据方向的薪资报告吗? 、 什么时候推一篇数据科学的行业分析? 的留言相当常见。 作为互联网与大数据 技术 兴起背景下的新职业,数据科学 从业者的 人数在近年 呈现出 明显的增长趋势。 2017年麦肯锡就已经在分析报告中表示,预计 2018 年数据科学家的缺口在 14 万到 19 万之间,数据分析师和经理的岗位缺口则将达到 150 万。 这组数字无疑是惊人的, 数据科学 行业 备受求职者关注,也是大势所趋。 不过抛开宏大的叙事角度,我们认为,着眼于互联网领域近年的实际跳槽数据, 或许能给有志于进入数据科学领域,或已经身处其中、正在考虑新的工作机会的你,有更贴近现实的指导意义。 你手中的这份 2018 年 秋季数据科学行业人才流动报告,就是 100offer 从累积至今的 40 万 +用户数据中,精选并分析 Data scientist 等岗位 方向 的 真实求职数据,得出 的 关于数据科学行业薪资与求职现状的最新独家 洞察 。 愿它能为还在踌躇的你 , 指点迷津。 2018 年 秋季 数据 科学行业人才流动报告 4 报告数据说明 1、文中数据除特别说明外,皆来自 100offer。 100offer 是服务于北上广深杭及新加坡互联网人才的招聘平台,其中工作 2 年以上的技术人才占 80-90%。 2、样本范围: 2015 年 1 月至 2018 年 8 月,经筛选 进行匿名展示的国内数据类岗位候选人,包括数据挖掘工程师、数据分析师、数据架构师、数据科学家、算法工程师等岗位。他们收到的面试邀请(以下简称面邀)和薪资普遍高于市场平均水平。 3、样本数量: 涉及 8563 份面邀的 1784 位求职者。 4、薪资计算方式:税前月薪 *发放月份,不包含奖金、期权等。 2018 年 秋季 数据 科学行业人才流动报告 5 Smart is the new sexy,哈佛商业评论曾发布文章认为, 21 世纪最性感的工作就是 数据科学家 。数据科学领域作为互联网技术开发的一个分支,也备受瞩目。 什么是数据科学?随着互联网和云技术的普及,在经营活动中产出海量数据、并依赖于数据推进决策的企业越来越多,你可以把这个通过收集、存储、分析海量数据来支持商务决策,实现商业智能的全过程,统称为数据科学。 由于大数据时代,数据量的增大和多样化与传统的统计学时代不可同日而语,数据科学所采用的收集和分析数据的工具也更多地依赖计算机和算法,因此,这是一个统计学、数学、机器学习、计算机科学等多学科的交叉领域。 一、 数据科学 领域的典型技术和应用场景 通常,一个完整的数据工作流可分为: 数据采集 数据整合和存储 数据分析和策略算法 结果展示和可视化 模型实施和决策 下面简要介绍各个场景以及常用的技术栈。(数据领域存在多种不同版本的语言和工具,这里仅列举一些最常见的) 2018 年 秋季 数据 科学行业人才流动报告 6 制图: 100offer 数据采集 如果把整个数据工作流比喻为一道美食端上桌之前的制作全过程,数据采集就好比去野外带回新鲜食材(原始数据)。这些开发语言工具就是镰刀锄头和渔网。 常见技术: 从 Web/传感器 /RDBMS 等渠道获取数据,为大数据平台提供数据来源,如 Apache Nutch 是开源的分布式数据采集组件,还有大家熟知的 Python 爬虫框架 Scrapy 等。 数据整合和存储 带回的食材(数据)要分门别类地去除淤泥和烂鱼烂虾( ETL、数据处理),存储起来,并建立联系。 2018 年 秋季 数据 科学行业人才流动报告 7 技术人员需要对具体的数据库进行架构设计和维护,并将数据分类存储。 不同的数据库也有不同的特性,适用于不同的数据类型。 比如对于活鸡活鸭( 关系型数据) ,我要用现成的工具( MySQL)定制一个笼子,并将它们放进笼子;蔬菜(非关系型数据)我就放地窖( MongoDB)里,马上要吃的熟食放冰箱等等 。 常见技术: 基于 Java/ PHP/C+等语言构建和维护稳定、安全的大数据平台,按需设计大数据架构,调研选型大数据技术方案,实施部署上线;设计数仓层级结构、 ETL、数据建模,主流数据库工具和大数据框架包括: MySQL, PostgreSQL, Redshift, MongoDB, Redis, Hadoop, Apache HBase 等。小团队中,数据处理、清洗 往往是在数仓环节中一起顺带完成的,所需技术有 Hive、 Hadoop、 Spark 等。 数据分析和策略算法 从地窖和冰箱中拿出原材料(访问数据库并读取数据)、经过一通洗菜、切菜、炒菜(基于统计方法做数据分析),食物们已经从原材料真正被煮成了菜肴。这个阶段,有些厨师会更关注如何将一道菜切好并煮熟上桌(工程实现和数据分析),而有的厨师会注重调料和菜谱的改良,让以后的菜更好吃(算法和机器学习,优化底层的算法模型)。 常见技术: Python、 SQL 属于数据读取和分析的基础, R 常用于统计分析和标绘, Scala 在大数据处理的应用也愈发重要。大数据分析的技术有: Hive 、 Impala、 Presto、 Spark、 SQL 等 。 2018 年 秋季 数据 科学行业人才流动报告 8 数据的结果展示和可视化 菜终于烧好了,但上桌前还需要做最后的摆盘、勾芡和提亮,再让食客一饱口福。数据可视化就是将分析、挖掘的结果用自动化、可读取和更优美的形式展现给需求方。 常见技术: R/HTML/CSS/JavaScript,以及 Excel、 Tableau 等 BI 工具。 模型实施和决策 数据科学工作者的职责边界,通常到结果展示和可视化环节就告一段落了。不过,食客们(业务需求方、公司决策层和客户等)从菜品中吸取了能量后,会进一步做哪些事情呢? 数据结论和模型在公司内外部的落地,影响商业决策和产生业务价值的过程,才是数据和算法真正体现价值的地方。 一方面,展示出的数据结论,可在数据类的平台或产品中作为实时报告,为公司内各个部门和外部客户提供决策支持,切实地影响到业务的下一步走向。另一方面,算法的优化和调整,可以直接为互联网产品带来更高的业绩产出。比如电商产品在优化了搜索推荐算法之后,用户可 以看到更多个性化的展示结果,增加点击率和购物订单的转化率,从而最终提高电商的营业额。 推动数据在商业中落地,并产生价值,这往往需要跨团队合作,包括获得运营、产品、市场甚至是 CEO 对数据结论的认可。因此,资深的数据科学家们,除了和数据打交道,还需要深入理解业务,具备调配人和团队资源的能力,和人打交道。 2018 年 秋季 数据 科学行业人才流动报告 9 二 、 数据科学领域,到底有多缺人才? A 企业需求 我们观察到,自 2015 年 100offer 的服务范围开辟了数据类岗位的招聘需求以来,企业发放的数据类岗位面邀占比就稳步上升。 2017 年,数据相关的岗位占比到达了近 7% 的小高峰,随后 2018 年至今有轻微回落。事实上,在整体互联网行业的技术从业者当中,数据和算法工程师的岗位占比也和以上数字相吻合。 在企业需求量稳固上升的同时,数据类岗位的薪资也水涨船高。从 100offer 历年平均面邀薪资来看,2018 年至今数据类岗位已达 43.4 万元的水平,比 3 年前增长了 37%;且 2015 年至今数据类岗位的面邀薪资都明显高于技术类岗位的整体平均水平。 2018 年 秋季 数据 科学行业人才流动报告 10 而放眼将来,互联网的下一步革命是建立在人工智能及大数据算法之上,尽管时下从事算法和数据挖掘工作的技术人才仍占少数,但数据科学领域在未来中短期内,仍然会处于多元发展、选择众多、需求旺盛、细分领域专家型人才紧缺的需求上升期。 从职场个人发展的角度而言,无论你是不是技术岗出身,懂数据挖掘和分析将成为数字时代的人才必修技能和职业素养。 B 人才供给 1)求职人数涨势稳定 近年来数据方向求职者不断增长。 2016 年人数涨势最猛,而 2018 年至今的求职人数也已经超过了 2017 年全年。