设为首页收藏本站

小牛社区-大数据学习交流社区|大数据免费学习资源

 找回密码
 立即注册!

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 235|回复: 0

​大数据​的狂妄和南墙 | 方承志

[复制链接]

160

主题

0

帖子

25

积分

吃土小白

Rank: 1

积分
25
发表于 2018-2-13 06:28:10 | 显示全部楼层 |阅读模式
关注风云之声提升思维层次解读科学,洞察本质
戳穿忽悠,粉碎谣言
导读IT业界利用大众的认知差距,把有一定作用的数据分析和相应的渐进改进效果吹成革命性的突破,忽悠其它行业出钱出力,顺带建立IT巨头的核心地位。IT企业为了进入和引诱传统产业,吹得泡泡太大,过多的噱头挟裹下,大数据终将撞上现实的南墙。

“你是电,你是光,你是唯一的神话
我只爱你You are my super star”

这段歌词出自于美少女组合SHE演唱的歌曲《superstar》,本意是形容粉丝追求偶像的疯狂和梦想,但最近几个月来,公众对于大数据的态度庶几近之。

似乎是从上一次领导换届后,大数据这个概念开始在IT业界流行起来。几年前,本人某个在知名企业工作的本科同学,被委任领导大数据方向的研发工作,开口闭口都在宣传大数据的美好前景。而最近一段时间,和人工智能深度学习等时髦词结合后,大数据似乎有席卷天下之势,众多IT大佬不扯几句“大数据”,都不好意思在江湖混了。顺带着,IT业界外慢慢也流行大数据的神话,好像有了大数据,传输中的宝藏大门就有了打开的契机。

到了17年年末,随着国家主。席。的表态,大数据概念的狂热达到了一个新的顶峰,年底的股市爆炒,互联网大会论坛上的喧嚣,新华社的报导,微信上大数据神话视频的传播,鼓吹一波接着一波,似乎在大数据的助力下,第四次技术革命的曙光已经在望。

首先要指出的是,大数据的此番炒作,主要源自于IT业界的扩张需求。为什么大数据概念声势如此喧嚣?因为IT业界天生就和媒体结合得很紧密,在创造噱头方面向来都是和媒体一拍即合。有一句老话说得好,最高明的广告就是洗脑。当IT业内巨头垄断已定时,为了避免内耗,IT业迫切需求进入其它行业。如果大数据概念深入人心,在数据收集上天然便利的IT巨头自然如鱼得水,典型例子就是Google的自动驾驶概念,一个和汽车行业八竿子都搭不上的企业竟然被认为是新时代的汽车标杆。



简而言之,IT业界利用大众的认知差距,把有一定作用的数据分析和相应的渐进改进效果吹成革命性的突破,忽悠其它行业出钱出力,顺带建立IT巨头的核心地位。

事实上,大数据不是新鲜概念,查查Gartner过去20年的技术炒作曲线,按照Michael的说法,大规模数据和内容分析已经在炒作周期中三进三出:数据挖掘(90年代)让位于分析(2000年),分析随后又让位于大数据(2010年)。每次勾起业界兴趣后,都遭遇了不少难题,无法达到预期效果,销声匿迹一阵子,披个新马甲又重出江湖。这次也不例外,大数据和背后的深度学习有一定的用途,但IT企业为了进入和引诱传统产业,吹得泡泡太大,过多的噱头挟裹下,大数据终将撞上现实的南墙。

为什么互联网时代的大数据没有想象中的神奇功能?在详细解释原因之前,先回顾一下历史。

大数据其实是一个古老的概念,在计算机和互联网崛起之前,在很多领域,早就应用了大规模数据分析。很多科学定律都是科学家收集了海量数据后推导出来的,最典型的就是开普勒的行星运动三定律。

德国天文学家开普勒因为以数学方式总结出行星运动三定律,被很多人认为是近代天文学的一位重要奠基人。但事实上,开普勒的成就是建立在其老师第谷的工作之上。第谷在自己的私人小岛上,用自制仪器观察星空,在长达20年的时间内,仔细记录,积累了那个年代堪称海量的天文数据。临死前,第谷把这些数据交给了开普勒。在这些史无前例的数据帮助下,开普勒在天文学的数学化方面取得了关键性的突破。



在这之后,还有很多很多的科学家,借助数据积累取得了在科技方面的贡献,比如卢瑟福的原子模型,再比如双螺旋结构。中学和大学教科书上,这样的例子数不胜数。而在科技之外,在其它领域,也有很多依靠数据分析获得成功,甚至开创新局面的例子,比如按揭买房贷款。

对于从小就浸润在科技氛围的现代人而言,大数据的好处似乎是天经地义的。那么多前辈依靠数据分析而成功,现在移动互联网时代,海量数据能获得的回报应该也不会少。事实上,众多IT企业也有不少成功的例子,因此,大数据的狂妄并不是建立在沙滩上。

但正如数学推导中要区分充分条件和必要条件,大数据的重要性并不意味着大数据的万能性,大数据在某些方面的成功不能推导出大数据在其它方面就一定能得心应手。即使在科学领域,也不是所有的定律都是依靠数据分析得出的。甚至可以说,很多重要科学成就和大规模数据分析无关,最典型的是爱因斯坦的相对论。爱因斯坦的相对论,尤其是广义相对论,是理性思维和大胆假设的结果,在此过程中,并没有海量外部数据来为爱因斯坦提供帮助。

在社会领域,最新大数据失败的例子就是2017年的爆款电影《战狼2》。如果在前两年,咨询来自IT企业的跨界电影制作人,什么样的电影能取得票房成功?这些人会毫不犹豫的说,IP(不是网络IP协议)+小鲜肉明星。在这之前,无数此类的电影已经取得了成功,最典型例子就是《小时代》系列电影,《同桌的你》以及《爵迹》等。这些电影以小搏大,其回报率羡杀《太平轮》这类的传统大片。某IT巨头的电影部门负责人甚至公开宣称,以后不需要专业编剧,IP改编就行了。为什么有这样的自信?因为这些IT企业依据过往的大数据进行分析,IP+小鲜肉明星是一条成功的捷径。但2017年的暑假档给了这类电影一个大耳光,《三生三世十里桃花》,《悟空传》,《鲛珠传》走的都是“大IP+小鲜肉”的模式,但在《战狼2》的巨轮前,统统被碾成碎渣。《战狼2》的空前票房纪录表明,创意+精心制作仍然是电影成功的基本因素,但创意这个东西,是大数据所不能企及的。



为什么大数据不能无往不利?因为建立在计算机技术基础上的大数据,其背后的指导思想本质上还是“量变导致质变”,不涉及,也不可能涉及范式转移。

前面提到开普勒的成功建立在第谷积累的数据基础上。那为什么第谷没有做出相应的发现?因为在中世纪的欧洲,天文学范式是地心说。即使在哥白尼提出日心说以后,第谷依然坚持日心地不动模型。他认为所有行星都绕太阳运动,而太阳率领众行星绕地球运动。他的体系本质上还是属于地心说。在这样的范式模型下,再多的数据积累也不可能给出正确的行星运动定律,只会在错误的道路上越走越远。而开普勒突破了地心说的范式,换一个角度来考虑问题,把地球当成一颗普通行星,第谷在地球上观测到的数据才有意义,才能总结出正确的关于行星运动的数学描述。

康德有句名言,人的理性为自然立法。人类的大脑具备有先天综合的能力,能洞察出纷繁数据后的本质规律。当数据的连续积累效应无法起作用时,莫可名状的人类直觉能实现惊人一跃,实现范式突破。所以,开普勒突破了地心说的窠臼,转而用日心说来考虑问题;化学家凯库勒想到了苯分子结构中,碳原子链可能咬尾;卢瑟福突破了物质均匀分布的框架,提出了原子核模型。

与人类大脑的涌现特性相反,现代计算机体系是彻彻底底的决定论。任意给定一个时刻,在知晓计算机的当前状态和计算机后面的输入数据基础上,计算机内部的任何细节理论上都是线性可预测的。现代计算机是数学家拉普拉斯所推崇的决定论的完美体现。建立在计算机技术上的大数据分析,代码赋予其能力,也束缚了其范围。



举一个关于曲线拟合的例子。一台理想中的计算机,其附带的曲线拟合程序代码中,已经内嵌了关于多项式函数,指数函数,正弦函数等无数的经典数学函数。对于绝大部分曲线拟合,在不知道数据点背后产生原因的情况下,程序拟合出来的曲线,在一定范围内,其外推性也是足够精确的。而且,数据越多,精确性越高,这体现了程序背后的微分原理----在某个点附近,导数乘以自变量的微小变化约等于函数值的微小变化。但如果现在碰到类似x(i+1)=k*x(i)*(1-x(i))这样的迭代方程给出的数据点,程序要抓狂了,原因很简单,这类数据点对于参数k和初始值是极度敏感的,其混沌效应不是任何经典数学知识所能预测的。在这种情况下,再多的数据也无法帮助程序来拟合这类曲线,因为这涉及到代码之外的东西。面对这种数据,需要的是人类的大脑的创新和抽象思维能力。



现在流行的大数据,缺乏的就是这种能力。收集了数据,并不意味着数据能自动告诉使用者怎么做。数据必须借着程序的威力来展现自身,而程序是由人编写的。代码是编程者对世界的认知模型,从输入计算机的那一刻开始,这个认知模型就已经固定了,除非手动修改。而现有的各种认知模型本质上都是从某些侧面对复杂世界所做的局部剪影,这种模式建立在已有范式上。相应的计算机程序帮助人类在有限范围内活动。但由于计算机的决定论特性,程序无法跳出代码的框架,程序完成后,如果想追求范式之外的发现,只会缘木求鱼。所以数据分析给出了“大IP+鲜肉”的电影票房成功模型,但程序不会知道,观众已经厌烦了这一个固定套路,后来者只会落得东施效颦的下场。反而是人类大脑能够敏锐的发现,市场已经起了变化!《战狼2》的硬汉模式正当其时!

事实上,网络上到处都有这种僵化的数据分析结果。本人曾经在百度上搜索过“果汁机”,结果一段时间内,到许多网站访问时,弹窗广告都给我推荐"果汁机”,问题是我搜索“果汁机”,只是想看看果汁机怎么用,而我早已经买过果汁机了。

如果说,大数据分析在科学定律的发现过程中有着重要作用,具体到人类的技术领域,大数据起的作用可能会更小。因为科学定律有着时空上的稳恒性,众多的数据或多或少会反映定律的某个侧面,因此数据积累总体而言是有意义的。但技术的核心是实践,技术与现实世界相互依赖,相互反馈。任何革命性技术的普及,不仅要考虑到技术本身的优劣,更重要的是能与现实世界成功互动,受制于世界,但更能超脱世界。

现有的大数据概念,为了吸引金主,提出了各种各样的口号,其中最具有蛊惑性的就是“大数据能帮你更好的了解用户和问题”。这口号有问题吗?貌似没有问题。有很多例子表明,基于消费者的数据积累能帮助企业更好的了解产品的缺陷,进而通过技术融合和扩展制造出更好的产品。消费者(或者使用者)的意见肯定很重要,但问题是消费者真正明白自己需要什么吗?消费者现有的需求是建立在企业现有产品上,分析数据的人员也是为企业服务的。大数据分析能够帮助企业了解消费者的表层需求,进而改进现有技术,但这一过程不能无限推进,数据分析并不是万能的。大约十年前,移动运营商的短信服务曾经风靡一时,运营商做了大量市场调研和数据分析,推出了各种各样的短信服务套餐(如10元包300条短信),力图满足各层次消费者的需求。“拇指一族”在某个时候肯定是感激涕零,运营商也是志得意满。但微信的降维打击来临时,运营商突然发现,所谓的消费者大数据分析很大程度上是自欺欺人。

和需求导向不同,世界上有一个被称为供给学派的经济学支派,他们更推崇的是“供给创造需求”,好产品自动会引发新需求。因为很多时候,消费者(或使用者)往往会处于既有范式之中,所谓的需求会局限于老产品的逐步改良上。在19世纪末到20世纪初这一段时间内,西方城市交通的主力是马车,城市里塞满了马,随之而来的牲畜排泄甚至导致各国召开了一次国际会议来讨论处理城市马粪问题。



在这个时候,如果咨询消费者,你需要什么样的交通工具。消费者肯定是围绕马来进行改进,亨利福特有一句名言:他们会说需要更快的马!最终,城市交通问题的解决不是依靠马,而是更高层次的汽车!亨利福特以其勇气和智慧给世界带来了海量的便宜汽车,彻底改变了城市交通面貌。

这样的例子举不胜举,最近的例子就是风靡整个中国的共享单车。历史已经一再证明,能改变或创造一个产业的大创新,更需要的是突破现有范式的洞察力。这种洞察力不是大数据和背后的计算机程序能够提供的,只有人的大脑才能胜任这样的工作!

因此,在大数据沸反盈天之时,我想问一声,大浪退去之时,谁来给大数据概念穿上泳衣?

背景简介本文作者为南京邮电大学电子与光学工程学院副教授方承志。文章于2018年1月5日发表于个人微信公众号 东流看技术 (http://mp.weixin.qq.com/s?__biz=MzI1NDk5Nzk0Ng==&mid=2247483651&idx=1&sn=550a12c8b00e2bdd96d508bc82e24f20),风云之声获授权转载。责任编辑:孙远



欢迎关注风云之声
知乎专栏:
一点资讯:
http://www.yidianzixun.com/home?page=channel&id=m107089

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册!

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册!

本版积分规则

快速回复 返回顶部 返回列表