如何从零开始了解数据?

简介: 本文主要以零售为例,讲讲当要了解一个企业的数据时,需要了解什么,如何快速从“门外汉”到“门儿清”。

如今关于企业数字化进程,企业信息化程度以及运营效率都有了极大的提高,数据的内容和维度得到了空前的丰富,很多场景或信息都能被数据有效、准确、实时地记录下来。

本文主要以零售为例,讲讲当要了解一个企业的数据时,需要了解什么,如何快速从“门外汉”到“门儿清”。

一、这个世界充满了数据

不难想象,我们目前所处的世界处处充满了数据。在日常生活中,我们的一言一行,一举一动,几乎都已被数据记录下来,而且越来越多地被表征。

4G的成熟应用以及5G的兴起,基站等通信基础设施的广泛布局以及LBS的商业化,出行或导航软件(包括买票、打车、共享单车、地图导航、汽车传感器......)的广泛使用,使得关于我们每个人的活动轨迹都转为数据而被记录下来,例如在哪里上班、住在哪里、出行方式、什么时候出行、经过哪里、在哪里停留、停留多久、什么时候达到等等。

随着新零售的发展,大数据、AI、扫码支付、图像识别、感应器等新技术的应用,微信营销、社交营销、社区营销等新思维的兴起,加速了线上线下的融合。无论人们在线上还是在线下购物,整个购物链条的各环节数据都会快速且准确地被传输至系统后台。

基于记录下来的数据,商家或购物平台会知道谁买、什么时候买、在哪里买、买什么、买多少、花了多少钱、怎么付款、是否打折或优惠等信息。如果你在线上购物,你搜索什么关键词、浏览哪些商品、跟商家咨询什么、商品送到哪里等信息,也会被商家或购物平台知道。如果你在线下购物,从进店到离店,你在店里的一举一动都在安装店里的摄像头严密监控之下。通过视频监控和人脸识别,商家会马上知道你是谁、新客还是老客、在店里的行走路径是怎样的,在哪个商品区停留,拿起哪些商品,把哪些商品放进购物篮等等。

当我们在网上聊天时,我们和谁聊天、什么时候聊、聊什么、文字/语音还是视频,都相应地产生了数据,也都被记录了下来。

同样地,我们在打电话、寄快递、点外卖、跑步健身、去餐厅吃饭、看电影或浏览网页的时候,都或多或少以数据的形式留下一点儿不可磨灭的痕迹。甚至,当你漫步在城市的每一条街道上,遍布城市每个角落的摄像头都可能会捕捉到你的倩影。

总之,科技服务给我们带来生活上的极大便利,但也从我们身上索取了最重要的东西——个人信息,作为交换。毕竟,天底下从来就没有免费的午餐。

尽管被数据记录或表征的事件、行为、场景越来越多,但仍有很多东西在目前阶段甚至未来很长一段时间都无法用数据记录。例如,人的内心想法,只要不表达出来,很难用数据记录下来,这大概也是导致这个世界充满不确定性的原因之一吧。

image

当我们接触到企业数据的时候,我们需要清楚这些数据是怎么来的。这些数据不会无缘无故地产生,其背后一定对应着某些业务场景。

我们深刻感受到,这个世界充满了数据,数据规模正在不断呈指数级地增长,数据类型也呈现多样性,从结构化数据,到文本、语音、图像、短视频、视频等非结构化数据。

二、数据表达了什么

真实(而不是杜撰、模拟、伪造)、可量化、可被记录的数据一定会反映真实世界某方面的业务场景。真实业务场景的发生或改变,大多也会反映在后台系统的数据中。

但数据对业务场景细节的表征仍存在一定的信息丢失或者失真。例如,有个30岁的女性顾客在母婴店买了两件婴儿服饰,但我们并不知道她为什么购买,是买给她自己的小孩还是送给亲戚朋友,是作为生日礼物送给小孩还是小孩长身体了需要换衣服,这时候需要做分析,需要“猜”。

零售是业务场景最繁多而且最贴近我们每一个人日常生活的行业。当谈到业务与数据的关系时,不妨以零售方面的例子,帮助我们更好的理解。

炎炎夏日,酷暑难耐,当你走进公司附近的便利店,使用微信支付,花了3.5元,买了一瓶无糖330ml摩登罐的可乐,而且刷会员卡攒了100积分,而收银员MM返回给了你一张POS单据,这时你所发生的这一切都已经通过收银记录在了数据库里。更糟糕的是,店里的摄像头也已经把你在店里的一举一动录了下来了,转化成为一帧帧图像数据。

这就是业务数据化。

分析发现,最近3.5元330ml摩登罐可乐的销量比上月增长20%,而消费者中75%是20-35岁的男性,相比之下,300ml塑料瓶装的可乐销量却下滑40%。店长权衡比较之下,认为300ml塑料瓶装可乐利润低,而330ml摩登罐可乐目前更受年轻人欢迎,考虑到日渐增长的租金压力以及日渐激烈的便利店竞争,做了一个大胆的决定——下架300ml塑料瓶装可乐,增加330ml摩登罐可乐。

这就是数据业务化,或者数据驱动业务。

image

所以,不要急着去看企业系统里面的一张张表。当脱离业务去看数据时,数据只是一个个冰冷的数字,没有什么意义,也不会告诉你什么信息。当我们在着手了解企业数据前,先让自己熟悉一下业务。

image

以“面-线-点”的方式熟悉业务,较为恰当,全面、系统、有效、深入,先是一个行业,再到某个垂直领域,然后是企业,最后是具体业务场景。以下几种途径可以帮助你快速熟悉业务:

阅读行业报告,包括行业现状、整体规模、发展模式、使用技术、商品特点、消费者特征、标杆企业、趋势预测,等;

从公司年报、经营分析报告等文件了解企业的总体情况;

浏览公司官网、公众号、官微、网店等,加深和完善对企业的了解,同时可以做一些线上体验及感知;

实地考察企业线下网点,体验网点服务,向一线网点工作人员了解情况。(很多大公司都会要求总部人员每年至少在一线体验1-2天,避免与业务脱节。)

请教有经验且很懂业务的老员工。他们不仅熟悉业务,而且对企业的人和事也很清楚,可以多咨询他们;

很多业务场景常常出现在日常生活之中,保持开放心态,细致观察,所见即所得;

注重平时积累,多读书,多体验生活,增加社会阅历和经验。

对于没有家室的年轻人来说,一罐婴儿奶粉能喝多久,大多是没有概念的;没谈过恋爱的男生,大多不会明白,BB霜、隔离霜是什么,为什么卸妆要用卸妆水、卸妆棉(直接水洗不就好了吗,省事~~),等等。这些生活常识,源于日常的不断积累,当你深入研究某个行业时,会让你得心应手,减少学习的时间成本。

image

只有当我们对业务有个基本的认知之后,我们才知道数据表达了什么。

三、数据背后的场景是什么

我们在了解企业数据时,面对的是几百个系统以及成千上万张表,不免有人感到手忙脚乱,不知怎么入手。

我们只要顺着大体的业务逻辑走,基本可以把企业IT系统的建设逻辑和关联关系梳理清晰,有一个整体面上的认知,形成框架思维,避免陷入某个“信息孤岛”。这么做对数据整合是很有必要的,不能把某个系统割裂开来单独看,系统之间的关联关系必须清楚。

例如,以会员为ID搭建基础数据宽表时,既要对以人为中心的业务流程梳理全面,又要在此基础上对每个业务节点的系统梳理清晰,并明确各系统数据之间如何整合与关联,争取做到全面,避免遗漏某些系统以及相应的信息。

image

零售企业一般会有市场、拓展、商品、采购、仓储、配送、运营、门店、客服、IT、行政、人力资源、财务、综合等智能部门。每个部门都有特定的业务活动及流程,部门之间也有相互的业务往来,企业的IT系统也是围绕这些业务活动来建立的。只要是零售企业,这个企业如此,那个企业也是如此,业务活动本质上没有太多不同,一通百通。只不过,每个企业独有的地方需要我们特别关注。

建议拿一份企业IT系统架构全景图,花几天时间研究研究。

当深入了解单个系统时,基于我们对企业IT系统的整体认知,我们除了清楚这个系统的功能和作用,谁在用,也需知道这个系统在企业整体系统中的位置,下上游系统都有哪些,数据流是如何运转的。

IT系统有两种,业务系统和业务支持系统。业务系统主要是各业务线条最原始的数据,即“一手数据”,而业务支持系统主要是从业务系统提取原始数据,清洗、加工、整合、分析后得到的汇总数据。

深入研究单个系统时,看数据字典当然是很有必要的。同样的,先从面上了解,先看看有哪几类表,有哪方面的数据,对应什么业务,哪些表可以不用看,哪些表需要重点看。

一般来说,表的命名遵循严格的规范,从表名上可直观地判断出是什么表。因此,可以从表的命名上做一个快速的辨识,例如,sys表示系统,pos表订单,cos表示客服,sms表示短信,item表示商品,等等。

每个系统都会有几百张表,需要快速做一个过滤,看看哪些表不用看。例如,sys相关的表主要是用来保存系统配置参数或记录系统运行状态的表,一般可以跳过不看。

经过初步筛选,得到了需要详细了解的表。

表一般分为两种,事实表和维度表。事实表记录、存储用于度量某一事务、事件或行为相关的数据或信息,如POS订单表,而维度表描述某方面个体的属性或个体与个体之间映射关系,如会员信息表、商品信息表、品类表、行业表、区域表、门店信息表、员工表等。事实表动态、冗余低、数据量大,而维度表静态、冗余、数据量小。

先看事实表,再看与事实表相关的维度表。

采用业务联想法以及"5W2H"方法论,可帮助我们快速了解单个表。

例如,去商店购物这件事,我们每个人都亲身体验过整个流程,从中可拆解出与这件事有关的几个要素信息,即谁买、什么时候买、在哪里买、买什么、买多少、花了多少钱、有没有打折、怎么支付等等。这些信息也产生了相应的数据。

反过来,我们也可从数据中获取这些信息,还原出真实业务场景。从事实表数据的字段信息中,可以知道会员/非会员(谁买)、订单时间(什么时候买)、门店(在哪里买)、购买的商品(买什么)、数量(买多少)、花多少钱(金额)、折扣优惠(有无打折)、支付方式(怎么付款)、收银员,等等。每个方面的信息又可结合维度表,或者融合外部数据,延伸得到更多维度的信息。例如,知道什么人买,可进一步知道这个人的基本信息,如性别、年龄、职业、注册时间等;在哪个门店购买,可进一步知道省、市、区县以及商圈的信息,还可知道门店是什么类型(如街边店、商场店);买了什么商品,结合商品表,或关联外部数据,可知道商品的具体属性信息。

image

关于单个表,还要弄清楚这些信息:

(1)主键,即可以用哪些字段唯一标识一行数据;
(2)数据更新机制,看看涉及哪些字段,事实表和维度表有所不同;
(3)数据量大概多少,看看是大表还是小表,量级多大;

至此,你已经了解单个表及其相应的业务。不要大意,这时候你对业务的了解只能打个及格分!更多更细的业务场景,需要对具体的数据字段进行深入研究才知道。别人不会告诉你太多的细节,告诉你也没用,因为没有亲身体验很快就会忘。

对具体字段的了解,仅仅看数据字典是不够的,数据长啥样也要清楚。

看数据时,要细心,要敏感。

如果看到有一行数据交易时间为“2018-7-4 9:16”,就要特别注意了,可能需要处理成规范的时间格式——“2018-07-04 09:16:00”;

如果看到某字段前面几行都是同一个值(如0或空值),就要特别留意这个字段是否只有一个值;

如果看到商品数量为小数时,就要结合商品名称、品类、单位、规格等信息,看看买什么商品时数量为小数;

如果结算金额为0时,看看商品是不是赠品(结合商品名称和品类来确定);

如果结算金额为负时,再看看数量是否为负,还要看一下订单类型是否为退货;

如果有个POS单结算金额非常大,有几百万,看看用什么币种结算,如果为RMB,则找业务人员确认,要么录入错误,要么有某种特殊业务操作。

总之,基于我们对业务的理解和数据的敏感性,如果发现某个字段数据“异常”或不合乎我们之前对业务的认知,这时不妨也看看其它字段是否也“异常”,透过这些字段信息,多想想,其背后的业务场景是什么。

如果可以,不妨对常用的表以及其中的字段谙熟于心,最好能记下来。

时间往往过往地耗费在底层数据处理阶段。而且,数据处理过程中会出现很多问题,这些问题大多其实是由于不懂业务和数据引起的。

当我们对数据越了解时,数据处理就越得心应手,越高效。

企业的原始数据有很多坑,永远不知道坑在哪里,什么时候来,花多长时间填坑。了解数据时,多点敏感,多点质疑,总不会错的。

原文发布时间为:2018-07-13
本文作者:Jerry Huang
本文来自云栖社区合作伙伴“ CDA数据分析师”,了解相关信息可以关注“ CDA数据分析师

相关文章
|
11天前
|
数据采集 前端开发 API
从零开始构建网络爬虫:ScrapeKit库详解
从零开始构建网络爬虫:ScrapeKit库详解
|
前端开发
前端项目实战242-数据进行深度拷贝方式之1
前端项目实战242-数据进行深度拷贝方式之1
56 0
|
机器学习/深度学习 数据采集 监控
如何从零开始构建深度学习项目?这里有一份详细的教程
很多人工智能项目其实并没有那么严肃,做起来还很有趣。2017 年初,我着手启动了一个为日本漫画上色的项目,并作为我对生成对抗网络 ( GAN ) 研究的一部分。这个问题很难解决,但却很吸引人,尤其是对于我这种不会画画的人来说!在寻找项目时,不要局限于增量性改进,去做一款适销对路的产品,或者创建一种学习速度更快、质量更高的新模型。
如何从零开始构建深度学习项目?这里有一份详细的教程
|
数据可视化 安全 关系型数据库
从零开始安装MySQL数据库,并使用可视化DBevaer创建数据 | 开始搞全栈(一)
从零开始安装MySQL数据库,并使用可视化DBevaer创建数据 | 开始搞全栈(一)
227 0
从零开始安装MySQL数据库,并使用可视化DBevaer创建数据 | 开始搞全栈(一)
|
架构师 定位技术 开发者
从零开始做网站|学习笔记
快速学习从零开始做网站。
95 0
从零开始做网站|学习笔记
|
SQL 关系型数据库 数据挖掘
数据分析从零开始实战 | 基础篇(五)
数据分析从零开始实战 | 基础篇(五)
132 0
数据分析从零开始实战 | 基础篇(五)
|
XML SQL JSON
数据分析从零开始实战 | 基础篇(四)
数据分析从零开始实战 | 基础篇(四)
135 0
数据分析从零开始实战 | 基础篇(四)
|
SQL 数据挖掘 程序员
数据分析从零开始实战 | 基础篇(一)
数据分析从零开始实战 | 基础篇(一)
110 0
数据分析从零开始实战 | 基础篇(一)
|
存储 SQL JSON
数据分析从零开始实战 | 基础篇(二)
数据分析从零开始实战 | 基础篇(二)
数据分析从零开始实战 | 基础篇(二)
|
XML SQL JSON
数据分析从零开始实战 | 基础篇(三)
数据分析从零开始实战 | 基础篇(三)
数据分析从零开始实战 | 基础篇(三)