大数据,小数据,哪道才是你的菜?

简介:
0?wx_fmt=jpeg 美国著名科技历史学家梅尔文•克兰兹伯格Melvin Kranzberg曾提出过大名鼎鼎的科技六定律其中第三条定律是这样的[1]“技术是总是配“套”而来的但这个“套”有大有小Technology comes in packages, big and small”。


这个定律用在当下是非常应景的。因为我们正步入一个“大数据big data”时代但对于以往的“小数据small data”我们能做到“事了拂衣去深藏身与名”吗答案显然不是。目前大数据的前途似乎“星光灿烂”但小数据的价值依然“风采无限”。克兰兹伯格的第三定律是告诉我们新技术和老技术的自我革新演变是交织在一起的。大数据和小数据他们“配套而来”共同勾画数据技术Data TechnologyDT时代的未来。


对大数据的“溢美之词”已被舍恩伯格教授、涂子沛先生等先行者及其追随者夸得泛滥成灾。但正如您所知任何事情都有两面性。在众人都赞大数据很好的时候我们也需说道说道大数据可能面临的陷阱只是为了让大数据能走得更稳。在大数据的光晕下当渐行渐远渐无小数据时我们也聊聊小数据之美为的是“大小并行不可偏废”。大有大的好小有小的妙如同一桌菜哪道才是你的爱思量三番再下筷。


下文部分就是供读者“思量”的材料主要分为4个部分1哪个V才是大数据最重要的特征在这一部分里我们聊聊大数据的4V特征中哪个V才是大数据最贴切的特征这是整个文章的行文基础。2大数据的力量与陷阱。在这一部分我们聊聊大数据整体的力量之美及可能面临的3个陷阱。3今日王谢堂前燕暂未飞入百姓家在这一部分我们要说明大数据虽然很火但我们用数据发声用事实说话大数据真的没有那么普及小数据目前还是主流。4你若安好便是晴天。在这一部分我们说说的小数据之美如果用“n=all”来代表大数据那么就可以用“n=me”来说明小数据这里n表示数据大小我们将会看到小数据更是关系到我们的切身利益。


1.哪个V才是大数据最重要的特征


在谈及大数据时人们通常用4V来描述其特征即4个以V为首字母的英文Volume大量、Variety多样、Velocity速快及Value价值。如果 “闲来无事”我们非要对这4个V在“兵器谱”上排排名哪个才是大数据的贴切的特征呢下面我们简要地说道说道力图说出点新意分析的结果或许会出乎您的意料之外。


1.1 “大”有不同——Volume大量


首先我们来说说大数据的第一个V——Volume大量。虽然数据规模巨大且持续保持高速增长通常作为大数据的第一个特征。但事实上早在20年前在当时的IT环境下天文、气象、高能物理、基因工程等领域的科研数据量已是这些领域无法承受的“体积”之痛当时实时计算的难度不比现在小因为那时的存储计算能力差亦没有成熟的云计算架构和充分的计算资源。


况且“大”本身就是一个相对的概念数据的大与小通常都打着很强的时代烙印。为了说明这个观点让我们先回顾一下比尔•盖茨的经典“错误”预测。


0?wx_fmt=png
图1 比尔盖茨于1981年对内存大小的预测


早在1981年作为当时的IT精英比尔盖茨曾预测说“640KB的内存对每个人都应该足够了640KB ought to be enough for anybody”。但30多年后的今天很多人都会笑话盖茨这么聪明的人怎么会预测地如此不靠谱现在随便一个智能手机或笔记本电脑的内存的大小都是4GB、8GB的。


但是需要注意的事实是在1981年当时的个人计算机PC是基于英特尔CPU 8088芯片的这种CPU是基于8/16位bit混合构架的处理器因此640KB已经是这类CPU所能支持的寻址空间的理论极限64KB的10倍[2]换句话说640K在当时是非常非常地庞大了再回到现在当前PC机的CPU基本都是64bit的其理论支持的寻址空间是2^64而现在的4G内存仅仅是理论极限的(2^32)/(2^64)= 1/(2^32)而已。


在这里讲这个小故事的原因在于衡量数据大小不能脱离时代背景不能脱离行业特征。此外大数据布道者舍恩伯格教授在其著作《大数据时代》中指出[3]大数据在某种程度上可理解为“全数据即n=all”。有时,一个所谓的“全”数据库并不需要有以TB/PB计的数据。在有些案例中某个“全”数据库大小可能还不如一张普通的仅有几个兆字节MB数码照片大但相对于以前的“部分”数据这个只有几个兆字节MB大小的“全”数据就是大数据。故此大数据之“大”取义为相对意义而非绝对意义。


这样看来互联网巨头的PB级数据可算是大数据几个MB的全数据也可算是大数据如此一来 大数据之“大”——“大”有不同可大可小如此不“靠谱”反而不能算作大数据最贴切的特征。


1.2 数据共征——“Velocity快速”与“Value价值”


英特尔中国研究院院长吴甘沙先生曾指出大数据的特征“Velocity快速”犹如“天下武功唯快不破”一样要讲究个“快”字。为什么要“快”因为时间就是金钱。如果说价值是分子那么时间就是分母分母越小单位价值就越大。面临同样大的数据“矿山”“挖矿”效率是竞争优势。


不过青年学者周涛教授却认为[4]1秒钟算出来根本就不是大数据的特征因为“算得越快越好”人类自打有计算这件事情以来这个诉求就没有变化过而现在却把它作为一个新时代的主要特征完全是无稽之谈。 笔者也更倾向于这个说法把一个计算上的“通识”要求算作一个新生事物的特征确实欠妥。


类似不妥的还有大数据的另外一个特征——Value价值。事实上“数据即价值”的价值观古来有之。例如在《孙子兵法始计篇》中早就有这样的论断“多算胜少算不胜而况于无算乎”此处 “算”乃算筹也也就是计数用的筹码它讲得就是如何利用数字来估计各种因素从而做出决策。


在马陵之战中孙膑通过编造“齐军入魏地为十万灶明日为五万灶又明日为三万灶史记·孙子吴起列传”的数据利用庞涓的数据分析习惯反其道而用之对庞涓实施诱杀。


话说还有一个关于林彪将军的段子真假不可考在辽沈战役中林大将军通过分析缴获的短枪与长枪比例、缴获和击毁小车与大车比例以及俘虏和击毙的军官与士兵的比例“异常”因此得出结论敌人的指挥所就在附近果不其然通过追击从胡家窝棚逃走的那部分敌人活捉国民党主帅新六军军长廖耀湘。


在战场上数据的价值——就是辅助决策来获胜。还有一点值得注意的是在上面的案例中战场上的数据神机妙算的军师们都能“掐指一算”——这显然属于十足的小数据但网上却流传有很多诸如“林彪也玩大数据”、“跟着林彪学习大数据”等类似的文章这就纯属扯淡了。如果凡是有点数据分析思维的案例都归属于大数据的话那大数据的案例古往今来可真是数不胜数了。


因此Value价值实在不能算是大数据专享的特征“小数据”也是有价值的。在下文第4节的分析中我们可以看到小数据对个人而言“价值”更是不容小觑。这样一来如果大、小数据都有价值何以“价值”成为大数据的特征呢 事实上睿智的IBM在对大数据的特征概括中压根就没有“Value”这个V如图2所示。

0?wx_fmt=png
图2 IBM公司给出的大数据3V特征图片来源disquscdn.com


我们知道所谓“特征”者乃事物异于它物之特点”。打个比方如果我们说“有鼻子有眼是男人的特征”您可能就会觉得不妥“难道女人就没有鼻子没有眼睛吗”是的“有鼻子有眼”是男人和女人的“共征”而非“特征”。同样的道理Velocity 和Value这两个V字头词汇是大、小数据都能有的“共征” 实在也不算不上是大数据最贴切的特征。


1.3五彩缤“纷”——Variety多样


通常认为大数据的多样性Variety是指数据种类多样。其最简单的种类划分莫过于分为两大类结构化的数据和非结构化数据现在“非结构化数据”占到整个数据比例的70%~80%。早期的非结构化数据在企业数据的语境里可以包括诸如电子邮件、文档、健康、医疗记录等非结构化文本。随着互联网和物联网Internet of thingsIoT的快速发展现在的非结构化数据又扩展到诸如网页、社交媒体、音频、视频、图片、感知数据等这诠释了数据的形式多样性。


但倘若深究下去就会发现“非结构化”未必是个成立的概念。在信息中“结构化”是永存的。而所谓的“非结构化”不过是某些结构尚未被人清晰的描述出来而已。IT咨询公司Alta Plana的高级数据分析师Seth Grimes曾在IT领域著名刊物《信息周刊》Information Week撰文指出不存在所谓的非结构化现在所说的“非结构化”应该是非模型化unmodeled结构本在只是人们处理数据的功力未到未建模而已Most unstructured data is merely unmodeled[5]如图3所示。


0?wx_fmt=png
图3 Seth Grimes非结构化乎不应是非建模


大数据的多样性Variety还体现在数据质量的参差不齐上。换句话说这个语境下的多样性就是混杂性Messy即数据里混有杂质或称噪音。大数据的混杂性基本上是不可避免的既可能是数据产生者在产生数据过程出现了问题也可能是采集或存储过程存在问题。如果这些数据噪音是偶然的那么在大数据中它一定会被更多的正确数据淹没掉这样就使得大数据具备一定的容错性如果噪音存在规律性那么在具备足够多的数据后就有机会发现这个规律从而可有规律的“清洗数据”把噪音过滤掉。吴甘沙先生认为[15]多元抑制的数据能够过滤噪声、去伪存真即为辩讹。更多有关混杂性的精彩描述读者还可批判性地参阅舍恩伯格教授的大著《大数据时代》[3]。


事实上大数据的多样性Variety最重要的一面还是表现在数据的来源多和用途多上。每一种数据来源都有其一定的片面性和局限性只有融合、集成多方面的数据才能反映事物的全貌。事物的本质和规律隐藏在各种原始数据的相互关联之中。对同一个问题不同的数据能提供互补信息可对问题有更为深入的理解。因此在大数据分析中汇集尽量多种来源的数据是关键。中国工程院李国杰院士认为[6]这非常类似于钱学森老先生提出的“大成智慧学”“必集大成才能得智慧”。


著名历史学家许倬云先生站在历史的高度也给出了自己的观点他说“大数据”之所以能称之为“大数据”就在于其将各种分散的数据彼此联系由点而线由线而面由面而层次以瞻见更完整的覆盖面也更清楚地理解事物的本质和未来取向。


英国数学家及人类学家托马斯·克伦普Thomas Crump在其著作《数字人类学》(The Anthropology of Numbers指出[7]数据的本质是人分析数据就是在分析人类族群自身数据背后一定要还原为人。东南大学知名哲学教授吕乃基先生认为[8]虽然每个数据来源因其单项而显得模糊然而由“无限的模糊”所带来的聚焦成像会比“有限的精确”更准确。“人是社会关系的总和马克思语”。大数据利用自己的“多样性”比以往任何时候都趋于揭示这样的“总和”。


因此李国杰院士认为[6]数据的开放共享提供了多种来源的数据融合机会它不是锦上添花的事而是决定大数据成败的必要前提。


从上分析可见虽然大数据有很多特征甚至有人整出11个V来但大数据的多样性Variety无疑它是区分以往小数据的最重要特征。


2.大数据的力量与陷阱


大数据的多样性给大数据分析带来了庞大的力量但这个多样性也带来了大数据的陷阱下面我们就聊聊这个话题。


2.1 大数据的力量


很多小概率、大影响的事件即黑天鹅事件在单一的小数据环境下很可能难以发现。但是由“八方来客”汇集而来的大数据却能有机会提供更为深刻的洞察insight。例如癌症属于一类长尾病症经过多少年努力癌症治愈率仅提升了不到8%。其中一个重要原因是单个癌症的诊疗机构的癌症基因组样本都相对有限。“小样本”得出的研究结论得出有关“癌症诊断”的结论极有可能是“盲人摸象化”的[9]。


于是英特尔公司提出的“数据咖啡馆”概念吴甘沙先生做了一个形象的类比他说咖啡馆的好处在于“Let ideas have sex”而大数据产生价值、爆发力量的关键是“Let data have sex”。取意如此数据咖啡馆”的核心理念在于把不同医疗机构的癌症诊疗数据汇聚到一起形成大数据集合但不同机构间的数据“相逢但不相识”。让多源头的“小数据”汇集起来可实现数据之间“1+1>2”的价值。对多数据融合用“have sex”这个比喻是非常有意思的因为倘若你真想要达到“1+1> 2”的效果就不能带着“套子”挡着就要打破“数据流的割据”。难怪李院士一直强调数据的流通性是决定大数据成败的前提还是真的纯属调侃不可较真


类似的2014年美国总统办公室发布了题为“大数据抓住机遇留住价值Big Data:Seizing Opportunities, Preserving Values”的报告[10]文中列举了一个案例


Broad 研究院这是一个由麻省理工学院和哈佛大学联合创办的世界著名的基因研究机构的研究人员发现海量的基因数据在识别遗传变异对疾病的意义中有着及其重要的作用。在这个研究中当样本数量是 3,500 时与精神分裂症有关的遗传变异根本无法检测出来当使用 10,000 个样本时也只能有细微的识别但是当样本达到 35,000 时统计学上的统计显著性statistically significant便突然显示出来。正如一个研究人员所观察到的那样“跨越拐点一切皆变There is aninflection point at which everything changes”[11]如图4所示。从这个案例中大数据把哲学中的“量变引发质变”演绎得淋漓尽致。


0?wx_fmt=png
图4 精神分裂症有关的遗传变异发现——大数据的“汇集”的力量图中loci表示“基因座”又称座位它基因在染色体上所占的位置。在分子水平上是有遗传效应的DNA序列。图片来源MIT


2.2 大数据的陷阱


大数据的多样性带人们来了“兼听则明”的智慧。然而正如英谚所云:“一个硬币有两面Every coin has two sides” 这个多样性也会带来一些不宜察觉的“陷阱”。用“成也萧何败也萧何”来描述大数据的两难再恰当不过了。


2.2.1 DIKW金字塔体系


1989年管理学家罗素·艾可夫Russell .L. Ackoff撰写了《从数据到智慧》From Data to Wisdom系统地构建了DIKW体系[12]即从低到高依次为数据Data、信息Information、知识Knowledge及智慧Wisdom。美国学者泽莱尼Zeleny提出了4个Know知道比喻[12]比较形象地区分了DIKW体系中的元素如图5所示。


0?wx_fmt=png
图5 泽莱尼对DIKW体系中的4个Know比拟


泽莱尼对DIKW体系的注解让人感触最深的可能在于数据如果不实施进一步地处理即使收集数据的容量再“大”也毫无价值因为仅仅就数据本身它们是“一无所知(Know-Nothing)”的。数据最大的价值在于形成信息变成知识乃至升华为智慧。


舍恩伯格教授在其大作《大数据时代》有个核心观点是“要相关不要因果”即知道“是什么”就够了没必要知道“为什么”。但从DIKW体系可知如果放弃“为什么”的追寻事实上就放弃了对金字塔的最顶端——智慧Wisdom的追求——而智慧正是人类和机器最本质的区别。


对此青年学者周涛教授总结得非常精彩“放弃对因果性的追求就是放弃了人类凌驾于计算机之上的智力优势是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界那么这种放弃就是末日之始”。对大数据的因果性和相关性的探讨我们已经在《来自大数据的反思需要你读懂的10个小故事》一文中[14]已有涉及在此不再赘言下面我们想探讨的是事实上对因果关系的追寻是人类惯有的思维在这个惯性思维推动下很容易误把“相关”当“因果”——这是我们需要警惕的大数据陷阱。


2.2.2 误把“相关”当“因果”


所谓“相关性”是指两个或两个以上变量的取值之间存在某种规律性。两个变量A和B有相关性只反映A和B在取值时相互有影响但并不能说明因为有A就一定有B或者反过来因为有B就一定有A。


在上面的论述中似乎我们一直在说“相关性”的不足。而事实上需要说明的是相关性在很多场合是极其有用的。例如在大批量的小决策上相关性就是有用的亚马逊的电子商务个性化推荐就是利用相关性给无数顾客推荐相关的或类似商品这样顾客找起商品方便多了亚马逊也落得个赚得钵满盆满。


然而对于小批量的大决策对因果关系的追求依然是非常重要的。吴甘沙先生用“中西药”药方做类比给出了一个很精彩的例子用来说明相关性和因果性的关系[15]。对于中药处方而言多是“神农尝百草”式的经验处方目前仅仅到达知道“相关性”这一步但它没有可解释性无法得出是那些树皮和虫壳的因为什么就是导致某些病能治愈的果换句话说中药仅仅到了“知其然”阶段追求“是什么”如果我们的国粹止步于“知其所以然”追求“为什么”那么中医想要走出中国面向世界是非常困难的注笔者曾是中医的受益者请不要误判是在黑中医。


而西药则不同在发现相关性后并没有止步而是进一步要做随机对照试验把所有可能导致“治愈的果”的干扰因素排除获得因果性和可解释性。在商业决策上也是类似相关性只是决策的开始它取代了拍脑袋、依靠直觉获得的假设而后面验证因果性的过程仍然是重要。


在大数据时代“相关性”被很多大数据粉丝奉为圭臬。前文也提到“相关性”也的确有用但有时“金刚经”会被唱成“经刚金”差之毫厘谬以千里很多时候人们会不自觉地把“相关性”不自觉地当作“因果性”。


加拿大莱桥大学管理学院鲍勇剑教授指出[16]在大数据时代只要有超大样本和超多变量我们都可能找到无厘头式的相关性。美国政府每年公布4.5万类经济数据。如果你要找失业率和利率受什么变量影响你可以罗列10亿个假设。只要你反复尝试不同的模型上千次后你一定可以找到统计学意义上成立的相关性。下面我们讲几个小故事段子来说明这个观点。


在小数据时代的1992年香港人拍了一个电视连续剧《大时代》其中著名演员郑少秋饰演丁蟹丁蟹是一个资深的股民股海翻腾身心疲惫终无所得。在1992年的随后20多年里只要电视台一播放郑少秋主演的连续剧香港恒生指数都会有不同程度的下跌人称“丁蟹效应或称秋官效应”这是有样本支持的如图6所示。每次郑少秋主演的电视剧播放预告时总有香港股民打电话到电视台希望不要播放因为担心亏钱。


0?wx_fmt=png
图6 丁蟹效应与香港股市图片来源文汇报


更无厘头的是这相关性还扯到中国运动员刘翔身上了下面是个“余温尚存”段子它是这样描述的


2008年8月18日 北京奥运会刘翔因伤退赛当天股市大跌5.3%并且一个月内大跌20%。

2014年9月他宣布结婚一个月后股市就开始狂涨从2300点涨到5178点。

2015年6月26日刘翔离婚股市继续大跌至8%。股市的涨跌原来都是因为刘翔啊

因此网友们强烈要求刘翔尽快宣布再次结婚。

香港的股民为什么不希望郑少秋主演的电视剧播放是因为怕电视剧一播放股市就下跌。大陆的股民为什么希望刘翔再次结婚因为刘翔有喜了所以股市就有喜了。注意到前面描述中体现出来的“因果关系”吗


事实上《大时代》和刘翔和股市之间有何因果关系不过是样本大了变量多了统计上的“相关性”就会冒出来而已。而人们却“潜移默化”地把观察到的“相关”当作事物背后的“因果”。


或许就有人不太认可上述观点认为上面两个小故事都是属于段子级别的案例何以能说明问题那我们就举一个古而有之的案例来说明这个观点。请读者略看下面的文字


黄梅时节家家雨,青草池塘处处蛙。

潮起潮落劲风舞夏夜夏雨听蛙鸣。

荷沐夏雨娇滴滴稻里蛙鸣一片欢。

夏雨凉风蝉噪蛙鸣热浪来袭远处云树晚苍苍。

皇阿玛你还记得当年蛙鸣湖边的夏雨荷吗


我们知道文学虽然高于生活但亦源于生活。从上面的从古至今的“文人墨客”的诗情画意中读者依稀可看出一点点相关性——人类祖先经过长期观察发现蛙鸣与下雨往往是同时发生。这样的长期观察样本也可称得上是“大数据”。于是在久旱无雨的季节不求甚解的古人就会把这个“相关性”当作“因果性”了他们试图通过学蛙鸣来求雨。在多次失灵之后就会走向巫术、献祭和宗教[8]如图7所示。因此同小数据一样在大数据中可解释性因果关系始终是重要的。


0?wx_fmt=png
图7 印度人民以蛙求雨的习俗源远流长至今留存图片来源互联网


博弈论创始人之一、天才计算机科学家诺伊曼(John von Neumann)曾戏言称“如果有四个变量我能画头大象如果再给一个我让大象的鼻子竖起来”大数据的来源多样性变量复杂性为诞生 “新颖”的相关性创造无限可能。而本质上人们对因果关系的追求事实上已经根深蒂固这种思维惯性难以轻易改变而在大数据时代会面临着冒出更多的相关性“乱花渐欲迷人眼”。大数据的拥趸者们说“要相关不要因果”但事实上在很多时候特别是人们在对未来无法把控的时候很容易把“相关”当作“因果”这是大数据时代里一个很大的陷阱特别值得注意。


2.2.3 大数据的其它陷阱


下面我们用另外一个小“故事”来说明大数据的第二个陷阱


假如你是一位出车千次无事故的好司机年关将近酒趣盎然在朋友家喝了点小酒这时估计警察也该下班过年了于是你坚持自己开车回家盘算着这酒后驾车出事故的概率也不过千分之一吧。如果这样算你就犯了一个取样错误因为前一千次出车你没喝酒它们不能和这次“酒后驾车”混在一起计算故事来源参考文献[16]。


这是大数据分析中的第二个容易跳入的陷阱。大数据的多样性里包括了数据质量上的“混杂性”某些低频但很重要的弱信号很容易被当作噪音过滤掉了从而痛失发现“黑天鹅”事件的可能性。


再例如在美国学习飞机驾驶是件“司空见惯”的事在几十万学习飞机驾驶的记录中如果美国有关当局能注意到有那么几位学员只学习“飞机起飞”而不学习“飞机降落”那么9/11事件或许就可以避免世界的格局可能就此发生根本性的变化当然这个事件也为中国赢得了10年的黄金发展期不在本文的讨论范围就不展开说。在大数据时代的分析中很容易放弃对精确的追求而允许对混杂数据的接纳但过多的“混杂放纵”就会形成一个自设的陷阱。因此必需“未雨绸缪”有所提防。


在大数据时代里第三个值得注意的陷阱是大数据的拥趸者认为大数据可以做到“n=all”这里n数据的大小因此无需采样这样做也就不会再有采样偏差的问题因为采样已经包含了所有数据。但事实上“n=all”很难做到统计学家们花了200多年总结出认知数据过程中的种种陷阱如统计偏差等这些陷阱不会随着数据量的增大而自动填平。这在《来自大数据的反思需要你读懂的10个小故事》一文中已有讨论不再赘言。


3.今日王谢堂前燕暂未飞入百姓家——大数据没那么普及


目前虽然大数据被炒得火热甚至连股票交易大厅的大爷大妈都可以聊上几句“大数据”概念股但是大数据真的有那么普及吗


事实上倘若想要充分利用大数据至少要具备3个条件1拥有大数据本身2具备大数据思维3配备大数据技术。这三个高门槛事实上已经把很多公司企业拒之门外套用刘禹锡那句诗今日王谢堂前燕不入寻常百姓家——大数据依然还是那么高大上远远没有那么普及


图8所示的是著名IT咨询公司高德纳Gartner于2014年公布的技术成熟度曲线hype cycle。国内将“hype cycle”翻译成“成熟度曲线”实在是太过文雅了直译为“炒作周期”也毫不为过。从图8可以看出大数据已经过了炒作的高峰期目前处于泡沫化的底谷期 (Trough of Disillusionment)。


在历经前面的科技诞生促动期 (Technology Trigger)和过高期望峰值期Peak of Inflated Expectations这两个阶段泡沫化的底谷期存活下来的科技如大数据需要经过多方历练技术的助推者要么咬牙坚持创新要么无奈淘汰出局能成功存活下来的技术及经营模式将会更加务实地茁壮成长。


李国杰院士在接受《湖北日报》的采访时也表达了类似的观点“大数据刚刚过了炒作的高峰期”[17]。冷静下来的大数据或许可以走得更远。


0?wx_fmt=png
图8 高德纳技术成熟度曲线图片来源Gartner


李国杰院士还表示大数据与其他信息技术一样在一段时间内遵循指数发展规律。指数规律发展的特点是在一段时期衡量内至少30年前期发展慢经过相当长时间可能需要20年以上的积累会出现一个拐点过了拐点以后就会出现爆炸式的增长。但任何技术都不会永远保持“指数性”增长最后的结局要么进入良性发展的稳定状态要么走向消亡。


大数据的布道者们张口闭口言称大数据进入PB时代了。例如《连线》杂志的前主编克里斯·安德森早在2008年说“在PB时代数量庞大的数据会使人们不再需要理论甚至不再需要科学的方法。”但是这个吹捧也是非常不靠谱的亦需要泼冷水还有大数据。


在大数据时代我们要习惯让数据发声。下面的统计数据来自大名鼎鼎的学术期刊《科学》Science。2011年《科学》调查发现[18]在“你科研过程中使用的或产生的最大数据集是多少”的问卷调查中如图9所示48.3%的受访者认为他们日常处理的数据小于1GB只有7.6%的受访者说他们日常用的数据大于1TB1TB=1024GB1PB=1024TB也就是说调查数据显示92.4%用户所用的数据小于1TB一个稍微大点的普通硬盘就能装载得下这让那些动辄言称PB级别的大数据的布道者们情何以堪啊而大数据重度鼓吹手IDC目前正在为业界巨擘摇旗呐喊ZB时代1ZB=1024PB我们一定要冷眼看世界慢慢等着瞧吧


0?wx_fmt=png
图9 在你的科研中你使用的或产生最大数据集是多大图片来源科学期刊


而在“你在哪里存储实验室产生的数据或科研用的数据”问卷调查中50.2%的受访者回答是在自己的实验室电脑里存储38.5%受访者回答是在大学的服务器上存储。由此可见大部分的数据依然处于数据孤岛状态在数据流通性的道路是依然“路漫漫其修远兮”。而数据的流通性和共享性如前文所述是大数据成败的前提。


0?wx_fmt=png
图10 你主要在哪里存储你实验产生的或科研数据图片来源科学期刊


或许也有读者不以为然说我就是属于那部分小于7.6%的人即使用或产生的数据大于1TB。“我小众我自豪”此类信心满满的人大多来自主流的互联网公司如Google、Yahoo、微软、Facebook等而在国内的自然非BAT莫属了。事实上即使来自这类大公司的日常业务其数据集也不是那么大的“触目惊心”。


微软研究院资深研究员Antony Rowstron等人撰文指出[19]根据微软和Yahoo的统计所有Hadoop的作业放一起取个中间值其输入数据集的大小也不过是14GB。即使是在大数据大户Facebook其90%的作业输入数据集也是小于100GB的clusters (at Microsoft and Yahoo) have median job input sizes under 14 GB, and 90% of jobs on a Facebook cluster have input sizes under 100 GB。那些动辄拿某个互联网巨头的数据体积总和来“忽悠”大家的大数据布道者们更应该借给受众们“一双慧眼”让他们“把这纷扰看得清清楚楚明明白白真真切切”。


当然Antony Rowstron的这篇论文“意不在此”文中的主要诉求是既然我们日常处理的数据没有那么大到“不成体统”就没有必要把某台机器的性能指标一味地纵向扩展scale up比如把内存从8G升级为16GB32GB64GB甚至更高而是应该选择更加“经济实惠”的横向扩展Scale out策略比如将若干个8GB低配置的机器连接在一起组成一个廉价的集群cluster然后利用Hadoop将集群用起来所以这篇论文的标题是“没有人会因在集群上使用Hadoop而被解雇Nobody ever got fired for using Hadoop on a cluster”言外之意在目前大数据语境下使用“类HadoopHadoop-like”工具分析大数据是未来主流的趋势之一就业市场一片光明。


从上面的分析可以看出我们不否认大数据是前沿但我们更不能对目前的现状熟视无睹——小数据依然是主流。目前大多数公司、企业其实仍处于“小数据”处理阶段。但只要在纵向上有一定的时间积累在横向上有较丰富的记录细节通过多个源头对同一个对象采集的各种数据有机整合实施合理的数据分析就可能产生大价值。基于此李国杰院士指出在大数据时代我们是不能抛弃“小数据”的[9]。


对精确的追求历来是传统的小数据分析的强项这在一定程度上弥补大数据的“混杂性”缺陷。犹如有句歌词唱得那样“结识新朋友不忘老朋友”。在大数据时代我们也不能忘记小数据。大数据有大数据的力量小数据有小数据的美。下面我们就聊聊这个话题。


4.你若安好便是晴天——小数据之美


小数据其实是大数据的一个有趣侧面是其众多维度的一维。有时我们需要大数据的全维度可视周涛教授甚至把“全息可见”作为大数据的特征而这个特征在对用户数字“画像”时非常有用因为这样做非常有利于商家推广“精准营销”。


在这里我们再次强调托马斯·克伦普的哲学观——数据的本质是人。技术也是为人服务的。对于 “普罗大众”而言有时我们并不希望自己被数字化被全息透明化这就涉及到个人隐私问题了。如果大数据技术侵犯个人的隐私让受众不开心了那这个技术就应该有所限制和规范但这不在本文的讨论范围就不展开说了。


流行的“大数据”定义是“无法通过目前主流软件工具在合理时间内采集、存储、处理的数据集”。我们很容易反其道而用之定义出“小数据small data” “通过目前主流软件工具可以在合理时间内采集、存储、处理的数据集”。这就是传统意义上的小数据经典的数理统计和数据挖掘知识可以较好地解决这类问题。这个范畴的小数据属于老生常谈所以本文不谈。


我们下文讨论的小数据是一类新兴的数据它是围绕个人为中心全方位的数据是我们每个个体的数字化信息因此也有人称之为“iData”。这类小数据跟大数据的根本区别在于小数据主要以单个人为研究对象重点在于深度对个人数据深入的精确的挖掘对比而言大数据则侧重在某个领域方面在大范围、大规模全面数据收集处理分析 侧重在于广度。


小数据是大数据的某个侧面事实上很多时候对于个人而言这个所谓的侧面就有可能是特定个人的全面。当大数据受万人瞩目时创新技术如智能手机、智能手环及智能体育等也让小数据——个人的自我量化Quantified SelfQS “面朝大海春暖花开”。


个人量化可以测量、跟踪、分析我们日常生活中点点滴滴。比如今天的早餐我摄入了多少卡路里围着操场跑一圈我消耗了多少热量在手机的某个App(如微信)上我耗费了多少时间等等诸如此类。在某种程度上是小数据而非大数据才是我们生活的帮手。“小数据”不比大数据那样浩瀚繁杂却对我自己至关重要。下面我们用两个小案例来说明小数据的应用。


先说一个稍微高大上的案例。据科技记者Emily Waltz在IEEE Spectrum的撰文指出[20]目前佩戴在运动员身上生物小配件Biometric gadget通常指传感器正在改变世界精英级运动员的训练方式。这些可穿戴传感器设备提供实时的生理参数而在以前倘若要获取这样的数据需要笨重和昂贵的实验室设备。如同40年前风靡一时的负重训练方案可让运动员更有韧性可穿戴装备能帮助运动员提高成绩并同时避免受伤。一些棒球手、自行车运动员和橄榄球等竞技运动员用新装备寻求优势。


0?wx_fmt=png
图11 运动员利用可穿戴设备训练美式橄榄球图片来源IEEE


例如在如图11所示的装备中运动员身上的传感器能够精确记录在室内外场馆的运动特征。这些自我量化设备可放置于运动员背部的压缩衣中它能够监控运动员的加速、减速、方向改变以及跳跃高度和运动距离等指标。教练员能够通过监控数据来检测每个运动员训练强度并防止过度训练所带来的伤害。这些自我量化设备的工作原理是协同使用很多小设备如加速计、磁力计、陀螺仪、GPS接收仪等——这些设备每秒能够产生100个数据点。通过无线连接计算机可以实时采集这些数据。个人量化分析软件可对运动特征和特定位置实施分析计算机专家系统中的算法可以检测到运动员在做对了什么、做错了什么基于此教练可以给出更加有针对性的训练。目前此类设备的使用者包括一半以上的NFL(橄榄球联盟)、三分之一的NBA运动员、一半以上的英超球队以及世界各地的足球队、橄榄球队和划船运动队等。


自我量化设备可穿戴设备通常是和物联网Internet of thingsIoT是有关联的。而现在还处于炒作巅峰的物联网如图8所示通常是和大数据扯到一起的但是就某个具体的物联网设备而言它一定先是产生少量的甚至是微量的数据也就是说物联网首先是小数据然后才能汇集成大数据。沃顿商学院教授、纽约时报最佳畅销书作者乔纳·伯杰Jonah Berger推测[21]个人的自我量化数据或许将会是大数据革命中下一个演进方向。由此可见大、小数据之间并无明显的界限。再大的数据也是人们一点一滴聚沙成塔、集腋成裘的。没有小数据的积少成多、百川归海大数据也是无源之水、无本之木。


但如同中国那句老话说的“一屋不扫何以扫天下”如果小数据都不能很好地处理如何来很好地处理“汇集”而来的大数据


说完高大上的案例下面我们再聊聊一个“平淡无奇”生活小案例[22]:


故事的主人是美国康奈尔大学教授德波哈尔·艾斯汀Deborah Estrin。Estrin的父亲于2012年去世了而早在父亲去世之前的几个月里这位计算机科学教授就注意到一些“蛛丝马迹” 相比从前父亲在数字社会脉动social pulse中已有些许变化——他不再查阅电子邮件到附近散步的距离也越来越短也不去超市买菜了。


然而这种逐渐衰弱的迹象在他去医院进行的常规心脏病cardiologist体检中不一定能看出来。不管是测脉搏还是查病历这位90岁的老人都没有表现出特别明显的异常。可事实上倘若追踪他每时每刻的个体化数据这些数据虽小但也足够刻画好出老人的生活其实已然明显与之前不同。


这种日常自我量化的小数据带来了生命讯息的警示和洞察启发了这位计算机科学教授促使Estrin在康奈尔大学创建创建了“小数据实验the small data lab @CornellTech访问链接http://smalldata.io/”。在Estrin看来小数据可以看作是一种新的医学证据它仅是“他们的数据中属于你的那一行your row of their data”[23] 。


舍恩伯格教授在其著作《大数据时代》中将大数据定义为全数据即n=Alln为数据的大小其旨在收集和分析与某事物相关的“全部”数据。类似的 Estrin将小数据定义为“small data where n=me”它表示小数据就是全部有关于我me的数据[24]。


如此一来可以看出小数据更加“以人为本”它可以为我们提供更多研究的可能性能不能通过分析年老父母的集成数据进而获得他们的健康信息能不能通过这些集成数据比较不同的医学治疗方案如果这些能实现“你若安好便是晴天”便不再是一句空洞的“文艺腔”而是一席“温情脉脉”的期望。


人是一切数据存在的根本。人的需求是所有科技变革发展的动力。可以预见不远的将来数据革命下一步将进入以人为本的小数据的大时代。当然这并非说大数据就不重要。一般来说从大数据得到规律用小数据去匹配个人。吴甘沙先生用《一代宗师》的台词来比拟大、小数据的区分倒也甚是恰当。他说小数据“见微”作个人刻画可用《一代宗师》中“见自己”形容之而大数据“知著”反映自然和群体的特征和趋势可用《一代宗师》中的 “见天地、见众生”比喻之。


著名科技史学家马尔文·克兰兹伯格(Melvin Kranzberg)提出的“克兰兹伯格第一定律”指出“技术既无好坏亦非中立”即技术确实是一种力量但“与社会生态技术的相互作用使得技术发展经常有问题远远超出了技术设备的直接目的和实践自己的环境人类释放出来的技术力量与人类本身互动的复杂矩阵都是有待探索的问题而非必然命运”。


前面我们说道大数据可能存在数据安全及隐私问题事实上小数据同样存在类似的问题甚至更为严峻。我们应清楚诸如大数据、小数据的科技既可以为公众谋福利也可能对人造成伤害。关键就是如何在机遇与挑战间寻找到最佳的平衡。


5.小结


在数据的江湖里既有波澜壮阔的大数据也有细流涟漪的小数据二者相辅相成才能相映生辉。美国电子电气工程师协会会士IEEE Fellow、中国科学院计算技术研究所研究员闵应骅表示[25]目前大数据流行人们就“言必称大数据”这不是做学问的态度不要碰到大量的数据就给它戴上一顶帽子“大数据”。目前各行各业碰到的数据处理多数还是“小数据”问题。不管是大数据还是小数据我们应该敞开思想研究实际问题切忌空谈精准定位碰到的数据业务问题以应用为导向而非以技术为导向不要哪个技术热追逐哪个。


《Fierce Big Data》编辑Pam Baker表明[26]当你在寻思如何抉择大数据还是小数据时先搁置这事儿。思量一下你的公司是否擅长利用数据创造价值如果你的公司还没有达到这个境界那先把这事解决了再说。


前中信银行行长、中信集团监事长朱小黄也曾说[27]“数据本无大小但运用数据的立场却分大小是谓大数据”。深以为然。

在京剧《沙家浜》有句经典唱词“垒起七星灶铜壶煮三江。摆开八仙桌招待十六方”。如果大数据、小数据是这“八仙桌”上的菜来自“十六方”的您在下口之前一定要先确定哪道才是你的菜不然花了冤枉钱还没有吃好那可就“整个人都不好了”。


原文发布时间为2015-08-16

本文来自云栖社区合作伙伴“大数据文摘”了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
3月前
|
机器学习/深度学习 存储 分布式计算
机器学习PAI关于maxcompute上用protobuf 处理数据,比较方便的方式
机器学习PAI关于maxcompute上用protobuf 处理数据,比较方便的方式
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1
|
4月前
|
存储 SQL 大数据
dataCompare大数据对比之异源数据对比
dataCompare大数据对比之异源数据对比
102 0
|
2月前
|
分布式计算 关系型数据库 数据库连接
MaxCompute数据问题之数据迁移如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
31 0
|
2月前
|
分布式计算 Cloud Native MaxCompute
MaxCompute数据问题之没有访问权限如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
4天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
11 3
|
7天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。