大数据思维——从掷骰子到纸牌屋

简介: 大数据分析的根本是小数据汇集,有数据分析总比无数据分析好些。
云栖社区有个书评活动,昨天以短信推送到了我的手机,想了想正好赶上年底我想整理一下我的思绪,就搭车发在云栖吧,也算是我第一篇在云栖的原创帖了,呵呵。

虽说做技术多数时间是针对问题找寻解决方法,但我经常觉得做技术也需要一些思考。

讲个段子,说的是一个技术很熟练几乎任何问题都能解决的人去应聘,HR看了他简历上10年经验很满意,就问他你对未来的发展怎么看?他说,我10年只专注做好我的本分,没时间去关心其他。HR摇摇头说:你不是有10年经验,而是一个经验重复了10年

段子只是段子。

一来说自己精通到专注领域内任何问题都能搞定的未必为真,C和C++语言基本是程序相关专业的必修课,即便如此连专门研究的教授也不敢放话说有问题我都能搞定,即使搞C++的开发人员案头上还常备一本600多页的C++宝典查呢(这和日语翻译案头放广辞苑,英文翻译案头摆牛津朗文差不多,属于工具书)

二来技术的发展很快,比如Red Hat红帽认证在linux下出名吧?但是国内现状是使用云服务器的企业越来越多,抱一台服务器来自己装系统自己部署环境,现在很多小公司已经不这么做了,但你花了N年去考证的时间成本岂不白费?再如oracle认证,Cisco认证.....这些含金量确实高(报名费也不菲),然而学成领证后,找工作呢?你拿着oracle认证求职一家数据库公司发现人家的要求是mysql你做不做?计算机领域的认证很多,考的话怕是考不完。

如今你不要指望单精通一门技术吃遍天,技术日新月异,CSDN上对新语言的讨论可谓热火朝天,我想单一的大牛也不敢夸口自己掌握了从编程到数据库的各种语言。这便是团队的重要性---优势互补,而要从团队里发出自己的声音,你需要的是一种思维。

就像现在网站比较火的自适应。自适应需要特别的工具吗?不,用普通的dreamweaver就够了,dreamweaver可以写CSS,写JS,写ASP,写.net,写php.....是一个比较综合的平台,缺点就是有点大,如果只是写网页的话,用Notepad++都行(Notepad++安装包解压后不到7M)。自适应和非自适应的最大不同在于h5语法标签上,如果只是纯静态简单的html网页的话把预设数值改成比例就是简单的自适应。但是,如果是基本网页编写不熟就要直接写h5网页的话,有点难度。学技术,从0到1最难。

回归书评,就说说大数据吧。

试阅是50页的PDF,开篇说的淘宝的千人千面(首页内容根据用户喜好推送)就是基于每个用户的小数据实现的。大数据的基础是汇集小数据,如果你注册淘宝后什么信息都不填,那么你任何时候访问淘宝都不会有变化---没有数据,就没有分析;没有分析,就没有推送。

感觉大数据分析就像以前的数据挖掘,收录的数据越多挖掘的信息越宝贵。而且要分析精确的话至少要分析近期数据----像试读13页开始提的那些搞笑案列,倒是整理了历年的大数据,但是运用过去的数据作分析至多能做预测,说是大数据分析我个人觉得不妥?

好在16页开始讲到正经点了,分析曲线。样本足够大时可以用数学方法作图模拟出曲线(样本越多曲线越靠谱,试阅中说的拿2年的数据预测50年太模糊了),坐标曲线可以分析化归出一个方程,方程运算可以预测曲线走向。高数科研所经常有搞这次分析的。嫌手工计算太难的话,matlab分析(matlab就比较大了,当时下安装包光盘都用了3张)

41页的积分公式传达了一个信息:大数据分析更高层就像数学。任何看着靠谱的分析,都是数据分析的结果,否则看着就不靠谱更谈不上大数据了。爱因斯坦的相对论虽然是物理,但看过的人都对里面密密麻麻的微积分颇有感受吧?读不下很多时候第一道坎是对里面的积分看着头疼吧,何况一来大学高数教授的微积分以定积分为主(求的是具体数值),而相对论更多是不定积分(求的是函数),二来微积分有多种,大学考察的是黎曼积分,而微积分还有勒贝格积分,究竟爱因斯坦推导用哪种积分不可考。(就像几何,欧氏几何经典的平行线不可相交而在非欧几何里平行线可以交,好在非欧几何不是专业学者接触不深。这也可以解释为什么好多大学本科生毕业找到好公司后公司要专门培训吧)

如果把小数据的变化看作微分,很多小数据的波动就可以汇成积分,然后做大量的数学推导变换,就可以抽象出函数表达式来分析下一步。

当然,预测未来这种事很难精转化,就算理论物理计算出来的数值还需要通过实验物理验证呢,这也是物理学家分理论和实验的原因之一。

不过再怎么说,大数据分析总比无数据分析好些。我凭空说明天的温度多少,你信吗?

谨以此文祝各位圣诞快乐

PS:试阅版PDF我也在这篇博客里备个份以后要看时方便自己整理,以防自己一段时间后回头看时不明白自己看过的是哪本了.....

PS2:如果抽奖失败,那么就去tmall网购 实体书
不过因为我在云南,选卖家时就倾向西部,比如四川的卖家。(其实你说为什么在JD购物快?因为JD是分物流中心的,举个例子,你在JD自营店买了个东西,而收货的地址在云南,首先分析出属于西部,然后JD通过查询数据库发现自己位于四川的西部中心有这个东西,那么就是从四川发出而不需要从生产地发,通过归纳收货地址分析最短距离缩短了物流时间,这也是一种大数据分析。当然这仅限于JD自营店,如果是卖家发货的话,就只能买家选择近的卖家了,因为一般卖家很难全国分区域建物流中心的,这也算是JD自建物流体系中的一点小脑筋吧)

PS3:书评获得了 奖励
5de445eac5a2a20b78ed2f9d44a2615b8a982ff7
这就代表书评活动结束了?那样的话一个ID就可以尽情看了吧

回看了下(发现点蓝色标题就可以下PDF了)

有时间细细学习,我觉得做一件事,首先要明确做什么,然后再想怎么去做可能更快点。

现在都讲天下武功唯快不破,结果有的就连想做什么都来不及想就去做,后来失败碰壁,对互联网失去了信心。不信的话问问身边敲代码的你在做什么,大部分的回答是:工作挣钱。

诚然,人活着一定要吃饭,但人活着的追求不止吃饭。(物质与精神的辩证关系,政治教材上讲得够多了)

未来搞网站的重心在朝向移动化发展,微官网,手机端,app,html5,自适应,都可以看做是新的发展。而这些新趋势的根,都在比较古老的网页编程上。

提斧头的伐木工未必比不过持电锯的伐木工。比起外在,内核可能更实在些,是金子总能发光,是烂泥终扶不上墙----在被发掘之前要让自己有相应的价值,否则就别感叹怀才不遇了,你究竟是人才还是废材,需要先认清自己。

PS:2017年3月6日收到了奖品,等待了90天的申通....马上开始品读 1.gif
f86aeca2e5d1b572c36eafb9b2e691e23f15005c
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
存储 算法 数据可视化
大数据思维|学习笔记
快速学习大数据思维
301 0
大数据思维|学习笔记
|
机器学习/深度学习 存储 人工智能
被神话的大数据——从大数据(big data)到深度数据(deep data)思维转变
自从阿法狗战胜人类顶级棋手之后,深度学习、人工智能变得再一次火热起来,但有一个基本的误解是更大的数据会产生更好的机器学习结果。然而,更大的数据池/仓库并不一定有助于模型学习到更深刻的见解。正确的答案是?
2054 0
|
大数据
常州大学阿里云大数据学院举行“创新思维”课程答辩
创新思维新生研讨课是常州大学校企联合培养学生的第一次课程,课程通过基础概念、实际案例、设计创新等全方位学习方式,夯实学生的理论基础并提高实践能力,扎实推进嵌入式培养成果,更好做好校企联合培养工作,助力大数据产业的持续蓬勃发展。
1982 0
|
机器学习/深度学习 人工智能 大数据
何大安:大数据思维改变人类认知的经济学分析
在人类改造自然和变革制度的历史长河中,认知水平在相当长的时期内是受制于数据积累的。
1546 0
|
新零售 大数据 UED
胖子哥的大数据之路(17):重构-基于商业本质看互联网思维
一、大佬眼中的互联网思维-从一呼百应到烂大街,岁月留声机       如同一千个人眼里有一千个哈姆雷特(There are a thousand Hamlets in a thousand people's eyes)一样,一千个人眼中就有一千种互联网思维。
913 0
|
新零售 大数据
大数据思维与三大陷阱
应用大数据进行精准营销,要注意规避如下三大陷阱: 1,有数不一定有据; 2,大而不全; 3,内生变量模糊了因果关系。 无论基于大数据的精准营销最后谁是赢家,笑到最后的应该是消费者,特别是新一代以网络为家的消费者。
1148 0
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
36 0

热门文章

最新文章