阿里巴巴西湖品学大数据峰会观后感

简介: 会上没有提到太多高大上的算法和模型,更多的是在商业社会中如何把大数据应用起来。总的感觉这次会议的主题是“数据+商业”,也就是如何让数据在商业社会中产生价值。这个topic非常广泛,远远超过了一般互联网盈利模式(广告+游戏)的范畴。

0.jpg

会上没有提到太多高大上的算法和模型,更多的是在商业社会中如何把大数据应用起来。总的感觉这次会议的主题是“数据+商业”,也就是如何让数据在商业社会中产生价值。这个topic非常广泛,远远超过了一般互联网盈利模式(广告+游戏)的范畴。对于我们做大数据的朋友来说也是一样的,过去我们经常提到的搜索引擎、计算广告和推荐系统基本上最常见的大数据应用场景了。但是随着大数据与商业社会的结合,产生了需求新的玩法。

阿里巴巴数据委员会会长车品觉提到了美国在大数据领域的顶级会议strataconf,提到了现在最重要的是把大数据应用落地,也就是”Data engineering”的概念。我的理解工程化就是让大数据成为大家工作中必不可少的一个工具,不再是一个高大上的概念。他同时提到数据要稳定、数据挖掘出来的结果可解释(Data Scientist的要求之一就是storytelling)。在以前的商业社会中做决策要大家讨论来讨论去,更多的是靠在这个行业内的经验来说话,现在新的玩法更应该是用数据来说话,用数据来支撑决策。他也提到目前在大数据商业应用中的主要问题:人才不匹配、数据冗余、工具不统一、安全、数据质量等。他还提到了从IT到DT的转变。

阿里小微金融集团首席风险官胡晓明演讲的题目是《商业驱动下的大数据》,把大数据的应用领域拓展到互联网金融这个目前看来最热的领域。我特别赞同他提到的这样一句话“数据没有大小之分,数据只有是否被商业认知之分”,我的理解是再大的数据如果不能发挥出商业价值、不能支撑商业决策、不能帮助带来商业利益都是没有意义的。所以“数据+商业”的核心还是应该从商业的需求出发,通过数据的手段找到能够使得业务增长的突破点。

我把他提到的金融机构发放贷款的例子做了个抽象总结如下:

目的:发放贷款使银行等金融机构赚钱,控制风险率和不良贷款率。

传统金融的玩法:传统商业银行发放贷款要考虑的几个因素:抵押担保(这也是很多小微企业拿不到贷款的原因);贷款企业的利润率、还款能力(资金流水)、还款意愿(前面几期借的钱是不是还上了),而对这些因素的判断来自他们对原来负债的经营行为。

互联网玩法:互联网构建起的是虚拟社会,线下的行为无法获得。淘宝上的商家很难判断利润率,更无法得知他们借了多少钱,有没有还。但是小微企业信贷的目的还是一样的,就是要控制风险和不良贷款率,那么怎么办?看看商家在淘宝平台上的其他数据有没有能够帮助达到这个目的的。互联网小微企业信贷会去看商家的经营规律,看消费者对商家的评估,看商家的经营行为中的守信程度(类似行为金融学)。根据这个去分析商家的好坏,建立对他的评价。他提到阿里小微金融已经为70W家企业提供贷款,整体贷款累积量1800亿,而且从来没有见过贷款人的面。风险率和不良贷款率比商业银行还要低,而且是没有抵押和担保的。

我想这是一个非常典型的大数据支撑商业的案例,没有提到高深的计算广告、时髦的深度学习,靠的是对业务的理解,看哪些数据背后表达的意思是跟业务紧密联系的,哪些数据能够被商业充分认知。他也提到从IT到DT的转变,阿里巴巴的目的是让数据被社会所用、被销售所用、被制造业所用、被消费者信用所用,让阿里巴巴的数据成为中国商业的基础设施,也就是大数据在各行各业中都发挥价值。数据要想被广泛使用涉及到一个重要的环节:数据如何开放?数据开放除了我们经常提到的数据平台(像Hadoop或者其他数据系统)的建设,更重要的是数据的安全和用户的隐私。他提到了数据要脱敏,同时数据的商业定义、每个标签打的要足够清楚而且不涉及隐私。他还提到了用大数据保证账户、资金安全:开放就会带来安全和隐私方面的一些隐患, 怎么通过大数据来解决。分析一个人的行为,在手机上的操作行为,在PC上的操作行为,甚至研究他在输入帐户每一个字母的间隔距离、间隔时间,我们去看他在手机上输入密码的速度,如果是通过机器扫号,或者别人偷你的帐户,都是有异动性的。这个看起来是挺复杂的没有多大意义的事情,当它能够带来的商业价值足够大的时候就变得非常重要了。所以还是那句话“数据没有大小之分,数据只有是否被商业认知之分”

Acxiom的程杰博士主要的point是数据的连接才能产生价值。

他首先提到了大数据领域常见的关联关系,例如某地区纸尿裤销量上涨意味着什么?如果是婴儿纸尿裤意味着出生,如果是老人纸尿裤意味着老龄化。

一些大公司比如花旗银行,大的人寿保险公司,大的零售商等会有一个现象很有意思,他们看每个消费者是很窄的,他们看到的是用自己的产品品牌去看一个消费者,所以他们看到的消费者的信息是片面的。等八小时之后他们自己是消费者的时候,他们把视野扩大了很多。所以这就是一个问题,如果我们回到消费者本身,而不是局限于消费者这一部分数据的了解,我们的商业行为也会更有效。这个例子说明的主要问题就是不要把数据孤立地看待,要把多方位的数据连接起来。我跟一个同事讲过这样一个故事,说我的一个朋友每个月在某个游戏上面会花几百块钱,然后他说我那个朋友是个高帅富。我说你猜错了,他只是一个普通的打工者。因为他只是看到了用户的某一个方面,没有深入了解这个用户的其他方面就武断地下了结论,得到的结论就有可能是错的。数据很多,但是数据的价值是不一样的,尤其在数据的不同连结、不同整合的基础上,他们表现的价值完全不一样。哪些数据价值大?怎么连接价值大?这个决定因素还是你使用的商业场景。

他还提到Acxiom在美国管理一个消费者的数据库,有2.4亿个成人在这个数据库里面,美国总共人口是差不多4亿,2.4亿成人就是18岁以上都在这个数据库里面。这2.4亿相当于是1.4亿个家庭,每个家庭有1700条信息,再加上4000个购买倾向性模型打分。我的理解就是Acxiom这个公司是个数据整合和交换平台,所以他们在宣传数据连接也是符合其公司定位的。

最后他还举了个例子:数据没有连接、没有打通,相当于有车没路

Linkedin的商业分析部门总监Simon Zhang 首先分享了Linkedin的商业模式。这个思路很好,更是说明了那个问题:要想用好大数据,先得明白商业模式。Linkedin的商业模式是数据与业务双向驱动、不断迭代良性循环的一个特别好的例子。第一步是用户的增长以及用户的体验;第二步用户的增长和体验增加了很多的后台和前台的数据;第三步是从这些新的数据里面产生了更多的解决方案,产品,更好的客户体验。这些客户体验产品和解决方案,再一步推动了商业的增长,用户的体验,用户的增加,进一步产生了更新的数据。所有的销售人员,市场推广人员,产品经理,开发人员,以及客服人员,他们都有大规模的数据来辅助他们做更好的工作。他们的目标是在IT技术和Bussiness之间找到平衡点。

据我了解目前Linkedin从事数据相关的团队主要有两个:

1,Data Team,偏技术,大家可以通过data.linkedin.com了解他们做的一些主要的系统、项目。Linkedin有大约25中DB,100多种Data Source。业务方对这些系统和服务的要求:简单、迅速、规模化

2,商业分析部门,也就是Simon Zhang所带领的部门。这个部门的主要工作我想是偏业务的数据分析和挖掘。

那么对于支撑这些业务部门的商业分析部门的人都是干什么的?

1,商业分析师,占50%

2,提供BI工具(不是报表)

3,Data Infrastructure (不是Hadoop,是在hadoop之上提供的数据服务)

4,Text mining(可能跟Linkedin的主要产品是以文本的形式提供有关)

5,非常少的战略决策分析师,这部分人思考问题非常结构化,高屋建瓴。往往具备多年的企业管理经验

6,Machine Learning, Data Mining, Data Scientist

他提到对于人的挖掘和分析:一个人是有多面性,需要挖掘各个方面的属性。但是几乎所有的产品都存在数据稀疏性的问题?怎么解决?可以通过不同维度的数据产品和运营活动来勾引用户的信息、丰富和完善我们的用户属性,同时也增强了用户的互动性和粘性。

过去“业务方提需求然后RD满足需求”的迭代方式周期太长了,等着项目结束了数据早已失效了。现在他提倡的解决思路是矩阵化,我的理解也就是Data Scientist的职责,这个人要负责“数据需求的提出、指标或者日志的定义、数据的分析和挖掘、数据在业务中的应用、收到用户反馈之后的持续优化”。这样的一个职能就是相当于一个人从头跟到尾,这个人是非常熟悉某一业务的、而且这个人也必须懂基本的数据技术和工具,懂得如何用数据驱动产品和业务的发展。数据本身没有意义,有意义的是其中的分析。

现在研发、产品、市场推广、销售和运营等部门不需要找分析师,通过数据系统和工具就可以直接拿到需求报告,而这些团队的工作是分析核心数据,做决策建议。他举例说比奈是自己动手画画,而不是给别人提需求让别人按照他的思想画画的。后面他还提到了对分析师的要求“好的分析师能改变未来,一般的分析师能改变现在,差一点的分析师连历史都不知道”。

后面他还举了一些例子来说明如何让数据在业务中发挥价值。一个就是通过BI帮助用户增加活跃度,防止客户流失。这个思路和我们以前做的用户流失和召回的思路是非常一致的(说明我们的用户挖掘和研究还是有一定成果的),典型的思路就是不能为了召回而召回,而要根据我们产品的特点去分析用户和产品的各种维度的关系,找到流失的原因和召回的思路。

他还同时提到“A/B测试”在产品分析方面的实战,Linkedin有数千个在线A/B测试帮助决策。大家不用争来争去到底哪个方法更好,放到线上去做“A/B测试”就行了。

唯品会的VP分享了数据化决策如何更靠谱。他首先给大家分享了几个他们工作中经常遇到的问题:

1,用户的行为背后如果是理性的,那么可以分析和挖掘出一些规律。然后女性购物者(唯品会女性购物者比例非常高)在网上购物往往是非理性的、冲动的决定。那么,数据团队或者业务团队怎么可能用完全理性的逻辑的分析判断用户行为?

2,数据团队的KPI如何拆解的问题?

3,在做决策的过程当中往往去寻求一些依据,但倾向于去寻找一些支持我们观点的证据。实际上在商业环境下,管理者常常是有自己的一个判断。有了判断之后,他第一件事是说,数据团队你去帮我找数据证明这个观点,数据团队往往会倾向于绞尽脑汁从各种维度去找一个数据来证明老大的观点。

然后他提到了解决这些问题的一些方法,他提到如何在企业内构建数据文化:

1,业务是首要的,不要迷信数据。从客户中能够获得第一手信息可能比从数据中获得更简单、高效。数据不会告诉我们全部真相,但是客户可以(有点像砸场子的)

2,统一公司内部不同部门之间的统计口径,有共识的指标体系

3,数据团队要关注业务,关注业务的痛点,不要只关注数字本身。冰冷的数字没有意义,数据和业务结合才会产生价值。

4,数据既要安全隐私,也要共享打通

5,数据的时效性非常重要

6,数据的粒度和管理成本。不要上来就搞的很细,先给个大面上可用的数据用起来,然后看效果。这个是跟搞科研不太一样的,不用上来就搞很多理论证明啥的,先给个大面上过得去的数据用起来。小步快跑,快速迭代。

7,在一个企业里面,建立数据化决策的流程,远远重要过我们现在有一个多么强大的数据系统和数据分析团队。数据团队更重要的是去发现,证真和证伪的意义都非常大。管理者需要有数据支撑决策的意识,分析师需要深入业务。决策者要有一个谦虚的心态去学习,要能够尽可能的谨慎的发表有个人倾向的意见,鼓励下面的团队尤其是数据团队去构建更扎实的基础、更好的决策流程。这是一个管理者对数据化决策的进程推进能起到最大的作用,而不是他亲自上手去指挥去设定一些项目或者目标,然后让下面快速去执行。


原文发布时间为:2014-04-11


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
分布式计算 算法 搜索推荐
阿里巴巴内部:2022年全技术栈PPT分享(架构篇+算法篇+大数据)
我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心技术栈:覆盖了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。 大数据:Spark、Hadoop
|
4月前
|
分布式计算 算法 搜索推荐
阿里巴巴内部:全技术栈PPT分享(架构篇+算法篇+大数据)
我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心技术栈:覆盖了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。 大数据:Spark、Hadoop
|
7月前
|
分布式计算 算法 搜索推荐
阿里巴巴内部:全技术栈PPT分享(架构篇+算法篇+大数据)
我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心技术栈:覆盖了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。 大数据:Spark、Hadoop
|
大数据
《重磅发布!300页阿里巴巴大数据核心技术公开,速度收藏》电子版地址
重磅发布!阿里巴巴大数据团队历时一年,集合25+专家协力打造《像阿里巴巴一样玩转大数据》系列电子书,近300页实战精华。
100 0
《重磅发布!300页阿里巴巴大数据核心技术公开,速度收藏》电子版地址
|
人工智能 大数据
《阿里巴巴大数据及AI实战》电子版地址
阿里云服务器购买价格,阿里云所有产品价格表分享
127 0
《阿里巴巴大数据及AI实战》电子版地址
|
大数据
《重磅发布!300页阿里巴巴大数据核心技术公开,速度收藏》电子版下载地址
重磅发布!阿里巴巴大数据团队历时一年,集合25+专家协力打造《像阿里巴巴一样玩转大数据》系列电子书,近300页实战精华。
111 0
《重磅发布!300页阿里巴巴大数据核心技术公开,速度收藏》电子版下载地址
|
人工智能 大数据
《阿里巴巴大数据及AI实战》电子版地址下载
阿里云服务器购买价格,阿里云所有产品价格表分享
95 0
《阿里巴巴大数据及AI实战》电子版地址下载
|
运维 大数据
|
人工智能 大数据
《阿里巴巴大数据及AI实战》电子版
阿里云服务器购买价格,阿里云所有产品价格表分享
81 0
《阿里巴巴大数据及AI实战》电子版

热门文章

最新文章