1998年,“大数据”概念首次出现在美国《科学》杂志中。近20年来,大数据浪潮一波波向世人扑面而来。有人形容,大数据就像一片无边无际的大海,海面一浪高过一浪,而浪潮之下深不见底。
大数据的核心口号是量化世界,量化世界为创构世界奠定了基础。在大数据的基础上,物数据化和数据物化构成循环。这是因为,物数据化事实上就是物信息化,数据物化实质上就是信息物化。随着现代信息技术的发展,创构活动及其产物与人的存在方式越来越密切地联系在一起。
这里涉及一个新的重要概念:信息。在控制论创始人维纳看来,“信息就是信息,既不是物质也不是能量”。这个定义看上去像是同义反复,却富有深意。比如,物能复制成本呈正比增加,而信息复制的边际成本递减;物能越分享越少,而信息越共享越多。信息的这些重要性质,在作为样本数据的小数据时,显示不出重要性;而在大数据基础上,则变得非同寻常。在大数据的基础上,信息会对人类的文明发展产生极为重要的影响。
面对大数据打开的这扇大门,我们不能不深入思考:这将是怎样的一扇门,又会把我们带进一个怎样的新世界
■面对一张拍好的平面照片,再要换个角度去观察已不太可能。大数据则几乎保留了全纬度。面对大数据,我们可以从不同的角度进行考察。作为样本数据,小数据是“残缺”的。就像尼采说抽象的概念是“干枯的标本”,样本数据和抽象概念的共同特点都是已经“失活”了。而大数据意味着活数据(动态数据)、全数据。
■对于大数据来说,信息是活的,是随着时间而流动的。高速的数据流更能在时间上与现实过程同步,因而跟人类的生存密切联系在一起。不仅如此,只有高速流动的数据,才能提供无限的可能性。以往受速率限制,人们获得的数据和所要反映的内容往往脱节,而数据流的高速率使我们把握对象的手段越来越完善。
■有人提出,大数据的价值密度低,数据挖掘相当于“沙里淘金”。其实,对于同一个结构开放的大数据,一些人可能视其为一堆垃圾,毫无意义;而在另一些人看来则会是一座宝库,价值连城。大数据的价值和意义,很大程度上取决于人们的理解,取决于人们的眼光。归根结底,取决于对人的需要及其发展的理解和把握。
■信息文明的发展,是一个在大数据基础上的公共信息对称化过程。这就要求,为推动信息文明的发展,必须在公共领域尽可能消除信息不对称。同时,为保持信息文明发展的动力,必须尽可能保护创新专利。这很可能是时代发展的必然趋势。对此,人类社会应当提前进行思考,即如何避免新的社会不公平的出现
关于大数据的特征,可以用4个“V”来描述
在技术定义上,大数据最主要的一个着眼点是规模大。但是,大数据的关键性质不主要是规模大,而是完全不同于作为样本数据的小数据。通常,样本数据的获取总是会先设定明确甚至单一的目的。这种取样,一方面可以更好地实现采样前预设的目标,另一方面也抹去了其他的可能性。
大数据的另一个重要性质是维度全。通常,我们拍照会选取一个角度。角度一取,数据就固定了。面对一张拍好的平面照片,再要换个角度去观察已不太可能。大数据则几乎保留了全纬度。面对大数据,我们可以从不同的角度进行考察。作为样本数据,小数据是“残缺”的。就像尼采说抽象的概念是“干枯的标本”,样本数据和抽象概念的共同特点都是已经“失活”了。而大数据意味着活数据(动态数据)、全数据。
关于大数据的特征,最早是用3个V来概括的。几年前,人们认为“3V”不足以描述大数据的特征,又提出了“4V”的描述,即volume、variety、velocity和value。
“volume”一般理解为大量。大数据首先意味着数据量巨大。小数据时代主要由人工创建数据,大数据时代则由机器、网络和人类相互作用生成。大量是大数据的基本特征,但往往被误以为大数据就是大。事实上,这个特征所表达的是大数据规模的整全性。大数据的“大”不是纯粹量的概念,关键是全,是一个质的概念。
“variety”一般理解为多样。这包括大数据来源的多样性和类型的多样性,也包括数据结构的多样性。由于数据结构的多样性和复杂性,大数据的这一特征还意味着数据结构的开放性。举例来说,大自然可以满足人类的生存需要,但我们面对大自然时的作为很有限。而大数据不一样,在以人类需要为出发点的大数据挖掘中,人类可以在这一个无限空间中进行满足自己需要的创构。
“velocity”一般理解为高速。它不仅仅是指技术设备的数据处理速度,更重要的是指实时数据流。样本数据在取样后就是冻结的,而大数据可以实时获取所需信息。对于大数据来说,信息是活的,是随着时间而流动的。正因为如此,对于实时数据流来说,速率就特别重要。高速的数据流更能在时间上与现实过程同步,因而跟人类的生存更密切地联系在一起。不仅如此,只有高速流动的数据,才能提供无限的可能性。以往受速率限制,人们获得的数据和所要反映的内容往往是脱节的,而数据流的高速率使我们把握对象的手段越来越完善。
“value”用以描述大数据的价值。大数据价值特征的重要性不言自明,但大数据也十分复杂。据此有人提出,大数据的价值密度低,数据挖掘相当于“沙里淘金”。其实,对于同一个结构开放的大数据,一些人可能视其为一堆垃圾,毫无意义;而在另一些人看来则会是一座宝库,价值连城。大数据的价值和意义,很大程度上取决于人们的理解,取决于人们的眼光。归根结底,取决于对人的需要及其发展的理解和把握。
显然,这是一个典型的哲学课题。随着大数据的发展,不仅哲学等各学科会越来越相互融合,而且将迎来哲学与科学、社会和生活一体化发展的时代。
沃尔玛的两个案例,开启大数据应用广阔前景
大数据究竟是垃圾还是宝库,涉及的是大数据的应用问题。换句话说,既然大家都认为大数据是个好东西,是个有用的东西,那它到底该怎么使用呢?
就目前而言,大数据应用仍然是一个重要而前沿的话题。其中,大数据中的相关关系和因果关系,是大数据应用和分析研究中的重要问题。大数据凸显了相关关系的巨大魅力,同时也构成了对传统因果观念的冲击。
跨国零售企业沃尔玛“啤酒和尿布”的故事,就是人们津津乐道的大数据应用的一个经典案例。沃尔玛在大数据基础上,用“购物篮方法”分析消费者购物行为时发现,一些男性顾客在购买婴儿尿布时,常常会同时买几瓶啤酒。原来,美国家庭生了小孩,一般是母亲在家照顾孩子、父亲外出采购。而年轻父亲在购买尿布时,常常会顺便给自己买上几瓶啤酒,既解乏又喜庆。由此,沃尔玛推出啤酒和尿布摆在一起的促销方式,吸引了更多有这种需要的顾客前来购物,尿布和啤酒的销量都得到大幅增加。
大数据相关关系在类似行业的成功应用,使一些人提出还要不要深究因果关系的问题。一些极端的观点甚至认为,大数据是关于“是什么”而不是“为什么”的;大数据会自己说话,因而只要相关关系不要因果关系。这种观点显然是兴奋于大数据令人惊叹的实用性。但理性来看,大数据不仅把握相关关系,而且把握作为其根基的因果关系。
“蛋挞和手电筒”就是一个典型的例子。与“啤酒和尿布”案例一样,沃尔玛的大数据表明,很多人在买手电筒的同时还会购买蛋挞。因而,根据这一消费相关性,沃尔玛决定在货架上把这两种产品摆放在一起。但是,如果知道其背后的因果关系,相关销售效果显然会更好。有人发现,人们同时购买手电筒和蛋挞的因果关系涉及北美飓风。原来,飓风来临前人们既需要准备手电筒,又需要准备食物。不过,北美飓风是季节性风暴,如果只知道相关关系而不知道因果关系,就可能一直把手电筒和蛋挞这两类不同商品放在同一货架上。而知道背后的因果关系后,就可以在飓风来临前把蛋挞和手电筒放在一起,而且还可专设飓风用品区域。这样一来,销量显然会大为增加。
微信公众号代运营
中澳共享链平台,致力于打造与品牌主题高度契合的精品文案,创造产品和服务流行元素,创作有价值、有情怀、引发流量暴增的文案。
现特别推出
微信公众号代运营服务半价优惠,原价$1000/月的套餐,现仅需$500/月(仅限前20位合作商家)。
服务内容包括每月四篇品牌宣传资讯(中英文均可),商家需提供相关资料。
平台将会挑选部分优质资讯,在玩转悉尼公众号上进行同步推广。
中澳共享链平台,意在为澳洲优质中小企业及个人强化品牌影响力,创造商业价值。
最终解释权归中澳共享链平台所有!
免责声明:我们尊重原创,也注重分享。本公众号部分内容摘选自互联网,不代表本平台观点,版权归原作者所有,如有侵犯您的权益请及时联系,我们将第一时间删除。