刚入职的数据分析师,上千数据指标,如何1周开发完?

简介: 作者:陈梦婷 更多内容详见数据中台官网 https://dp.alibaba.com小白同学终于毕业啦!学过高等数学、java、C++、数据库等课程,擅长编写算法,参加过多次数学建模大赛,在这个背景下,小白毅然决然选择了数据分析师这个岗位,毕业后顺利进入一家互联网公司,开始职场初体验。

作者:陈梦婷 更多内容详见数据中台官网 https://dp.alibaba.com

小白同学终于毕业啦!学过高等数学、java、C++、数据库等课程,擅长编写算法,参加过多次数学建模大赛,在这个背景下,小白毅然决然选择了数据分析师这个岗位,毕业后顺利进入一家互联网公司,开始职场初体验。

本周小白正式入职,在师兄带领下,开始第一周的工作。
然而信心满满的小白看到工作内容,感受到深深的压力——理想与现实、学校理论与职场实践,差异不是一点……

问数据需求为何物,码千万代码不知年
当小白刚刚坐下来,就碰到了职场第一个难题——需求理解。业务方纷至沓来,提了这样一批需求……
需求
image
image

小白虽然有点懵,但是想着循序渐进,应该可以搞定,那就先从第一个需求开始吧。

和师兄以及业务同学了解背景后,小白整理了下第一个需求的求解思路:
先明确统计的值,是用户数——可以根据用户注册表的主键字段计数 user_id(用户id),不去重也可以count1。
然后根据用户属性设置过滤条件,比如sp_status(用户状态)这样的临时、业务变化较多的枚举值。
最后可以将user_star_name(用户等级)设置为group by的汇总项。
以此类推……

搬砖走起
需求的代码语言逐渐清晰,和业务、和师兄都理解并确认实施可行性了,但是第二关又来了——计算逻辑设计。

虽然公司数据仓库已经有沉淀,但是业务发展快,数据生产加工供不应求,数据体系已经有些混乱了,具体操作步步维艰——太难找!难理解!太难用!

比如:大部分数据还是需要从已有事实明细数据中再加工,极少部分是可简单汇总得到……
image

唉,业务着急,还是慢慢搬砖吧!
(努力搬砖中的小白……)
image

搬砖成果
不知不觉,已经下午4点,第一个需求完成,最终输出指标30个,代码百行+,还有待验证和优化。
image

想到后面还要很多个需求要做,小白脑袋有点秃,懊悔自己初生牛犊不怕虎,一口接下太多需求。
image

问题来了。。。
业务同学几句话,几行表格,开发同学几行泪啊……大半天时间,30个指标只是长征路第一步啊!

此时好想有个指标计算器,按几个按键,剩下的近千个指标就可以自动算出来,又准确、又规范、又迅速,多好!
image

然而,手边只有一个SQL编辑器和无尽的字符集。

小白同学有点慌,即使给他一周时间,作为刚入职的数据分析师,怎么完成这么多取数需求,而且数据需求可能还会随时变化、随时增加!

山重水复疑无路,柳暗花明Dataphin

时间不知不觉到了5点,旁边一位技术leader看到小白对着需求的Excel愁眉不展,指了另一条路——公司最近新采购了阿里云产品智能数据构建与管理Dataphin,核心特点就有数据规范定义、代码自动化生成,在过去一周,专家团队已经实现一部分会员相关业务和数据迁移上云,可能可以解决小白的问题。
image

小白研究了下,已经有数据架构师角色的人构建好基本的数据框架,企业数据体系的业务逻辑和物理结构一目了然,自己负责的业务数据基本都已经覆盖,自己只要根据需求场景,开发指标即可!

维度及事实模型:
所需的会员、交易的表都有了,表名、注释清晰规范,没有选择困难;所需字段也都有了,一目了然主键、度量、关联的外键,都不需要冗余字段,使用简洁方便。
image

代码自动化生成:小白尝试操作了下,通过可视化表单增加一个字段后,提交后代码自动生成,生成物理表及调度任务.
image

(小白内心OS:真的好方便)
image

计算逻辑重复性校验:小白觉得挺有意思,自己仿造一个,提交时,发现居然做了事实逻辑表计算逻辑重复性校验,之前数据同义不同名的问题也可以及时暴露解决了!
image

派生指标
现在,小白需要的原材料都有了,业务需求怎么解决呢?

需求拆解
看了一遍Dataphin操作视频,小白尝试将之前整理的需求对号入座,按照One Data方法论:
派生指标=原子指标+统计粒度+业务限定+统计周期
小白的第一个业务需求可以这样实现:
1) 成交金额分布,基于事实模型中的度量(成交金额)、关联维度(用户)

  • 派生指标1:用户最近30天成交金额= 原子指标:成交金额总和 +统计粒度:用户 +统计周期:最近30天
  • ADS加工:将成交金额分段,再统计用户数

注册年限也可类似方式获取,取到max的注册时长即可。

2) 不同用户属性的分布,基于事实模型关联的枚举维度(用户等级、用户状态)、定义限定条件(业务类型)

  • 派生指标2:各等级用户最近1天数量=原子指标:用户数计数 +统计粒度:等级 +统计周期:最近1天
  • 派生指标3:各等级的A业务用户最近1天数量=原子指标:用户数计数 +业务限定:业务类型为A业务 +统计粒度:等级 +统计周期:最近1天
  • …………
  • 派生指标N,类似方式获取

ADS无需加工,直接提取对应的指标即可。

小白整理下思路,派生指标定义,follow逻辑大致如下:
image

实战操作
按照这个思路,小白迫不及待使用起来。
简单准备好原子指标、业务限定,小白就开始创建派生指标了。
快速创建原子指标和业务限定
image

image

分钟级派生指标代码生成
配置派生指标的过程异常轻松,小白怀疑自己是不是在做梦,感觉就像计算器一样 —— 不见一行代码,3步选择,1键生成所需指标。
image

令人惊喜的是,这里也有重复性校验,避免重复的指标开发。
image

一键提交,不到10s,结果就返回了!4小时的代码,到Dataphin中,这么短时间就完成了1/10!

小白不敢相信自己的眼睛,去运维、数据资产、即席查询界面再次确认了下,发现需求就这么完成了?!
image

image

万水千山总是情,大家一起Dataphin
小白正在开心地实现需求,突然业务方来新需求,他要的是最近1天、最近7天、最近30天、过去一年每个月的数据……小白心里一惊,这要多少行代码啊……转念一想,有办法了,只是变统计周期而已,对于Dataphin只是多一些统计周期选项而已,谁都可以做啊。小白将派生指标生成过程截图给业务方,告诉他选哪些选项,业务再没提需求。2天时间,小白将原计划一周完成的工作全交付了。

经过这次之后,小白发现了Dataphin好用之处,明细模型基本比较稳定,只要理解了派生指标的奥妙,多少需求都不怕,生成过程又快有稳,业务方也能看懂数据,甚至有些需求都自给自足完成了!作为公司第一批Dataphin用户,小白也快速实现从代码搬砖到数据中台专家的转变——现在的他开始挖掘更多基于Dataphin玩转的数据开发场景,衍生原子指标、层级维度、虚拟维度、有主键事实表……

好的,不说了,小白要继续和师兄、一个好奇的业务同学一起研究下,怎么让业务基于Dataphin更好更快地上云。

总结
以上事件取自客户真实实战场景,某大型传媒公司通过Dataphin,半年时间完成了如下成果:
• 数据处理平台:基于业务全局的盘点,完成整体数据架构,打通了数据归集、清洗、计算及存储,定义了适合业务的数据维度、业务过程、指标,并基于规划上线2000+个数据计算任务,完成了原系统的多年的结构转换。
• 数据资产管理平台:基于数据处理平台输出数据资产大图,一图看清数据中心的数据存储及建设情况,为业务人员提供了全地图检索能力,并提供了20+个维度及十个个业务过程及1000+数据表的查询及展现。
• 运营分析平台:基于产出的数据体系,快速构建数据分析体系,支持200+运营分析业务考核数据报表的开发落地。
• 智能推荐系统升级:基于统一、标准的数据体系,业务场景完成了数十万的Feed流内容精品池,并在此基础上完成了千人千人面的算法研发,支持了多种推荐场景,所有的算法任务支持快速变速及调整。

这只是一个客户的缩影。基于Dataphin的产品技术能力,每一个客户都可以有一个面向业务能理解、面向数据生产更经济、面向开发过程更加高效的数据架构体系,并支撑数据体系灵活扩展,让业务能快速、全面对业务进行分析和洞察,决策才能更高效、更准确!

延伸
很多客户都在问,数据仓库、数据平台、数据中台区别,基于这个场景,笔者的理解供参考:

数据仓库是20世纪,因经济快速发展、信息处理技术飞速发展,面向商业智能场景而出现的概念,它的定义是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。它奠定了目前数据体系的框架。
数据平台是一个很泛的概念,它可能代表数据计算存储体系,也可能代表管理数据计算存储、实现数据仓库等数据需求的工具套件,根据具体场景定义。但是它的目标一定是实现一站式数据相关企业需求的满足。
数据中台是这几年,尤其2019年兴起的概念,最早是阿里巴巴组织架构向中台转型,提出此概念——业务中台和数据中台双驱动。虽然每个人都有自己理解,但是笔者认为,数据中台是阿里巴巴多年大数据实践的产物,它是基于互联网飞速发展、大数据常态化等背景下,阿里巴巴作为一家重视数据驱动业务的公司,亲身实践,在数据仓库的巨人肩膀上,提出的原创创新概念——通过OneData体系让数据的建管用全链路统一、自底向上的数据体系统一且标准规范,通过实现数据生产及管理效率,从而让决策更精准、更快速,让业务创新存在更多可能性。
对于以上三个概念关系,笔者认为:
数据中台=One Data=One Model+One ID+One Service

都9102年了,企业数据建设应该从数据仓库转型至数据中台建设,而实现数据中台建设最佳数据平台工具就是阿里巴巴原创产品Dataphin。

结语:
阿里巴巴数据中台团队,致力于输出阿里云数据智能的最佳实践,助力每个企业建设自己的数据中台,进而共同实现新时代下的智能商业!
阿里巴巴数据中台解决方案,核心产品:

Dataphin,以阿里巴巴大数据核心方法论OneData为内核驱动,提供一站式数据构建与管理能力;
Quick BI,集阿里巴巴数据分析经验沉淀,提供一站式数据分析与展现能力;
Quick Audience,集阿里巴巴消费者洞察及营销经验,提供一站式人群圈选、洞察及营销投放能力,连接阿里巴巴商业,实现用户增长。
欢迎志同道合者一起成长!更多内容详见数据中台官网 https://dp.alibaba.com

相关实践学习
使用CLup和iSCSI共享盘快速体验PolarDB for PostgtreSQL
在Clup云管控平台中快速体验创建与管理在iSCSI共享盘上的PolarDB for PostgtreSQL。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
4月前
【八爪鱼RPA】招聘平台即时回复提醒,让招聘工作更高效!
八爪鱼rpa是一款易操作、无需编程的自动化流程处理工具。它可以帮助招聘平台实现自动回复候选人消息、设置提醒功能并对消息进行分类和整理。通过八爪鱼rpa的应用,招聘平台可以提高回复效率、提升候选人满意度、加快招聘流程,从而实现招聘工作的高效进行。
|
6月前
|
存储 运维 监控
运维面试必看的22个项目经验(真实) 学会薪资翻倍
运维面试必看的22个项目经验(真实) 学会薪资翻倍
230 0
2021米哈游校园招聘-提前批-编程题1-最简分式
2021米哈游校园招聘-提前批-编程题1-最简分式
151 0
|
程序员 项目管理
新晋主管十分钟掌握如何做好管理工作
新晋主管十分钟掌握如何做好管理工作
290 0
新晋主管十分钟掌握如何做好管理工作
|
搜索推荐
鹅厂同学:7 月开始不再进行薪酬调整?
2022 年的互联网,一天天的,真是好多事。5 月 31 日有脉脉网友放出了一则**《关于薪酬回顾有关调整的通知》的腾讯内部邮件**,大体的内容是说不再单独针对职级晋升做即时的薪酬调整。
125 1
鹅厂同学:7 月开始不再进行薪酬调整?
|
人工智能 数据可视化 大数据
用数据可视化的方式做汇报,更容易显现成绩、升职加薪更近一步
在日常工作中,老板总是会时不时的让我们做工作汇报,而这也是我们能够在老板面前展示自己的机会。但是,如果你拿给老板的是这样一张数据密密麻麻的表格,你觉得老板能够在短时间内看懂你的数据吗?
用数据可视化的方式做汇报,更容易显现成绩、升职加薪更近一步
|
运维 jenkins 持续交付
运维小哥的工作自述
  光阴似箭,日月如梭!弹指间,回首想想,进公司的时间也不短了。在平凡的岗位上默默地耕耘着,似乎是那么不起眼~~但作为一颗螺丝钉,我要大声的告诉自己:螺丝钉也能有自己的价值体现!        于是乎,三省吾身!        几千号员工的上市企业,以总部和分部为个体划分,在个体中又以部门为单位划分,各部门的管理、财政、人事都实现独立。
2302 0
如何带领平均入职2.6个月的新人,完成一次系统重构?
我们旧版首页系统属于集中化设计:「全能类」FeedBase加main函数。基本上所有功能耦合在一起。每维护一行代码,必须异常谨慎,以免影响其它逻辑。
1820 0
|
数据库 项目管理 架构师
年入50万的人是怎样工作的
1 小A,某外企部门经理,管理50多号人。     每天早上大约9点半到公司,每天估计开会(电话会议和现场会议)时间有6个小时,和领导和客户沟通时间估计2个小时,剩下的就是写ppt,邮件和跟进度了。
1112 0