助你所在团队走上大数据路途的六大规则

简介:

 

【51CTO.com原创稿件】大数据概论

“大数据”是近两年来各界最热议的话题之一。那么大数据究竟是什么?

据我个人理解,大数据包括结构化数据(Structured Data)和非结构化数据(Unstructured Data)。数据来源包括传统交易如企业ERP、财务、CRM系统和潜在海量的数字来源如网页、移动应用用户行为、教育视频点播和媒体资源。

由于“大数据”的热点集中和可以处理海量数据如大规模并行计算(massively parallel computing)、云计算、Hadoop和MapReduce。因此,Oracle、IBM、微软、SAP和其他大厂家目前共同在推动相关对话。但光谈技术解决不了中国非500强企业所面临的行业竞争和混乱。这些企业已了解转型的必要性和紧迫性,关注的话题包含集合传统数据和数字数据产生的洞察和如何形成研究问题。当然非500强企业也了解B744引擎放不进拖拉机,所以偏向先建立扎实的数据分析基础,优化用户体验。

我也坚信大数据确实带来新业务机遇,但目前更关注数据如何驱动企业实际价值。本文将分享Countly与客户合作所获取的经验。

大数据的六大规则。

从Countly累计的经验,我整理了一些规则适合“小”和“大”的数据领域。当你开始你的大数据路途,这些规则将会帮你缩短学习曲线,并获得更大的价值:

1、在早期阶段,先建立数据灯塔再考虑大数据。

好好规划你的数据项目。在最初期,建议“失败快,但往前跌”(fail faster while failing forward)的规划。不要花24个月搭建海量的大数据环境,后期再发现这是你最大的错误。

你可以相当快开始采集数据、建立非完善的数据仓库和做数据分析。这种组建可称为数据灯塔,先关注三大趋势:

  • 发现以前未知的走势或关键驱动因素
  • 摸索异常的记录
  • 理解数据中的相关性

覆盖率有可能不完善,但获取一些立竿见影的成果和指引后期的扩展。关键是一开始得考虑规划扩展性和灵活性的选择。

2、建立大数据思考。

Avinash Kaushik,一位数字分析的专家,倡导采用框架的数字营销计量模型确保数据分析项目针对公司最重要的业务(请查看Avinash所整理的以下例子)。此外,你必须与高层有共识,不需太细,但在一页面总结明确的业务目标与实现。

数字营销核心指标

当你通过数据灯塔掌握这些数据,你所获取的见解将带给你惊喜。你对企业的影响将是巨大的,因为在很多企业还没集合传统数据和数字数据。

3、如果大数据思考比大数据技术更重要,那么在技术方面我们又能做些什么呢?

当你的公司使用免费的用户分析平台,如Google Analytics或友盟,你的数据将是产品,为厂家建立附加值(如谷歌Adsense)。由于虚拟商业模式抄袭是市场最隆重的赞美,自部署或在私人化的部署越主流以保障数据安全和灵活融合数据。

让我们继续讨论数字数据解决方案。由于你需要评估成本、二次开发灵活性、可扩展性、数据所有权和性能,可考虑开放的平台,如Countly用户行为分析平台和其他推荐数据可视化和其他实用的Javascript软件

4、先追求正确的时刻获取数据,而不是实时数据。

另外,建议你先彻底了解你的公司目前如何组织数据,然后把数字数据融入现有流程。始终目标是如何匹配数据传化成见解和洞察。如果实时数据没创造业务价值,你何必投入资源实现呢?而且你的公司将省很多钱,因为海量的实时数据肯定不便宜!

数据采集过后,你的公司需要任何人工处理吗?如果答案是需要,那么你不需要实时数据,你需要正确的时刻获取数据。如果你有智能或规则驱动的自动化系统,那么你可考虑获取实时数据的“原材料”。

5、数据质量差,但还是得做业务决定。

我们的目标应该是尽可能地采集、处理和存储数据。这流程可能不完善,但数字数据仍然具有价值。因为相对于任何的传统来源,数字数据让你建立最完善的用户画面与传化。

数字数据质量确实有优化的空间,如何处理视频或眼花缭乱的社会媒体平台。但市场不会等你做这些优化,所以开始凭数据做小决定。记住,即使这些决定将是革命性的,因为数字与传统数据集在好多公司从来没集合!随着经验的累计和了解数据的限制,你将可以做更多附加值的决定。

6、消除噪音比找到信号更有价值。

到目前为止,我们查询的目标是从所有噪音摸索有价值的信号。以掌握正确的信号,前提包括清晰的研究问题、数据规模较小、数据集更完整。前美国国防部长DonaldRumsfeld所谓的已知的已知(Known Knowns)和已知的未知(Known Unknowns)。Rumsfeld采用这概念讨论反恐情报的噪音,但也适用于分析和研究(请查看以下模式),做明智的业务决定。当然,“未知”的象限需要你的公司累计经验才可以比较进行有效探讨。

已知的已知模式(来自TextOre)

以建立数据灯塔和面临大数据时代,你必须知道如何消除海量数据量的噪音,才可能开始寻找信号。

六个简单的规则,让你们革命者遵循,确保,革命成功。

这六条规则正在解决首席执行官的问题,而不是CIO或CTO。因此,所思考的的问题较宏观。此外,讨论大数据之前,我建议先建立扎实的基础,通过大数据思考并搭建数据灯塔。

你觉得以上的框架有价值吗?它会驱使你改变对大数据的处理方式吗?关于以上的规则,哪一条规则最实用?你从经验中分享的最大的数据建议是什么?期待回音!


本文作者:陈俊勋

来源:51CTO

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1天前
|
机器学习/深度学习 运维 算法
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
近日,由阿里云计算平台大数据基础工程技术团队主导的四篇时间序列相关论文分别被国际顶会ICLR2024、ICDE2024和WWW2024接收。
|
机器学习/深度学习 分布式计算 算法
腾讯大数据将开源高性能计算平台 Angel,机器之心专访开发团队
随着近年来深度学习技术的发展,各种机器学习平台也纷纷涌现或从专用走向了开源。到现在,一家科技巨头没有一个主导的机器学习平台都不好意思跟人打招呼。比如谷歌有 TensorFlow、微软有 CNTK、Facebook 是 Torch 的坚定支持者、IBM 强推 Spark、百度开源了 PaddlePaddle、亚马逊也在前段时间高调宣布了对 MXNet 的支持。 现在,腾讯也加入了这一浪潮。在 12 月 18 日于深圳举办的腾讯大数据技术峰会暨 KDD China 技术峰会上,腾讯大数据宣布推出了面向机器学习的「第三代高性能计算平台」——Angel,并表示将于 2017 年一季度开放其源代码。
422 0
腾讯大数据将开源高性能计算平台 Angel,机器之心专访开发团队
|
存储 缓存 数据可视化
大数据(数据入库管理规则)
数据入库、大数据、入库规则
1126 0
|
自然语言处理 监控 搜索推荐
大数据团队从2到3
其实从3.0阶段开始,团队的升级路线就比较分散了,依赖于各公司对于数据团队职能的定位和期待。
316 0
大数据团队从2到3
|
机器学习/深度学习 分布式计算 DataWorks
9大训练营免费开营!阿里云大数据团队的独门绝学全在这了
即日起,阿里云大数据训练营九营齐开!理论与实践,概念与案例,大数据从0到1上手学习,行业大神真人带练!
3221 0
9大训练营免费开营!阿里云大数据团队的独门绝学全在这了
|
机器学习/深度学习 分布式计算 DataWorks
|
大数据 流计算 运维
大数据团队从1到2
1.0阶段的核心是数据分析,把大数据离线计算的整套流程和框架搭建起来,后续就是不断在框架中加入新的业务、新的需求了。但是1.0阶段的数据是T+1的,即每天、每周、每月定时计算的,快一点儿的有每小时、甚至每5分钟的,都是离线数据,实时性不足。2.0阶段重点加强的,就是实时计算领域。
1112 1
|
大数据 BI 数据挖掘
大数据团队从0到1
“大数据”这个词,大家都已经不陌生了,已经从一个新兴的词汇变成了一个百姓茶余饭后都会聊到的概念。各种大大小小的互联网公司也都会创建自己的大数据团队,我也曾经在多家公司从事过大数据领域的开发和团队管理工作,这里写一下我自己的经历和感受。
2211 1
|
大数据
CCF大数据与计算智能大赛在沈阳浑南落幕 45支团队赢百万奖金
12月2日,第六届2018 CCF大数据与计算智能大赛决赛嘉年华系列活动在沈阳浑南创新天地落下帷幕。
1633 0
|
监控 Java 大数据
中国民生银行大数据团队的Flume实践
转载自:AI前线 中国民生银行服务器的操作系统种类众多,除 Linux 外,部分生产系统仍采用 AIX 和 HP-UNIX 操作系统,由于在 AIX 和 HP-UNIX 无法使用 Logstash 作为日志采集端,在大数据基础平台产品团队经过一系列选型后,采用 Flume 作为 AIX 和 HP-UNIX 操作系统上日志采集端。
1919 0

热门文章

最新文章