一年多前听说了“大数据”这个词,以为就是“数据大”的意思,随着媒体不断地曝光,以及今年阿尔法狗升级版横扫当今围棋第一人年轻的柯洁之后,对“大数据”的好奇油然而生。
于是从书橱里翻出来这本由舍恩伯格写的“大数据时代”,不指望自己能够读懂读通,但是读总比不读要强,遵循“开卷有益”的传统吧。
今天读的是引言部分。这本书号称“一场生活、工作与思维的大变革”。本书开门见山地说明,大数据在变革公共卫生,变革商业以及变革思维方面,已经出现在我们的生活当中了。大数据开启时代转型。
“大数据时代”举了一个在流行疾病防控的例子。说谷歌公司通过5000万条最频繁检索的词条,与流行病流行传播时期的数据进行了比较,通过分析人们搜索的记录来判断这些人是否患上了流感。
谷歌的研究人员去找到这些特定的检索词条,至于这些词条是否必须是“咳嗽”“发热药物”不是关注重点,这同我们寻找事发原因的常用手法不同,他们关心的是这些特定检索词条的被使用频率与流感在时间与空间上的传播之间的联系。
谷歌公司正好是一个其他公司都无法具备拥有的庞大数据源以及处理能力和统计技术的公司,他们找到了这45个检索词条组合,他们的预测结果的相关性高达97%,同疾控中心一样也能判断它从哪里传播出来,关键是相当及时,可比疾控中心早一两周,这一两周时间的金贵可想而知。
另一个是在商业运用的例子。一位计算机工程师在网上预订机票,坐上飞机后,他发现他的左邻右舍机票都比他订的晚,却比他便宜。
颠覆了他的“机票订的愈早愈便宜”的概念。下了飞机后,他开发了一个预测机票价格的系统。这个系统不需要知道哪些因素导致了机票价格的波动。
比如“周六晚上不出门”之类的原因,比如季节性原因,比如还有很多座位没卖掉的原因。这个系统只是通过其他航班的数据来预测未来机票价格的趋势。
帮助消费者抓住最佳购买时机。它拥有每一条航线每一架飞机内的每一个座位一年内的综合票价的记录的数据,海量的数据支持,为消费者节省了一大笔钱。
这些例子告诉我们都需要海量的数据支持以及存储与处理能力,在五年前或十年前“这都是不可能的”,从这个角度讲,我的理解大数据就是数据大。
大数据的意义并不仅在于此,它是有生命力的。通常数据使用之后就结束了他的使命,比如,飞机降落后,票价数据就没有用了。
但它被收集起来,用于机票预测系统。死了的,没用的数据,可以被巧妙地用来激发新产品和新型服务。
可见只要你改变思维,了解数据的奥秘,而数据只为那些愿意聆听的人所掌握。所以,大数据真正的含义,就是从那些从“静止的,陈旧的”数据中获得新的认知,并创造出新价值。
从信息爆炸的二十世纪以来,随着数据处理能力的爆发式增长,大数据时代的到来已经无可回避。
大数据的核心是什么?作者告诉我们是预测。它有点类似人工智能(机器学习),在书中,预测被定义为把算法运用到海量的数据上来预测事情发生的可能性。
好吧,在之后的章节或许会解释得更清楚。但从人机大战的情况来看,阿尔法狗每一步棋的海量运算后都会给出一个胜率,自动找出一个最好的下法。
没读这本书前,我会把大数据与人工智能当做两个事情,现在看来人工智能只是大数据这顶王冠上的一颗明珠,二而一。
引言的最后一部分讲的是“大数据是大挑战”。大挑战,挑战的是什么?我看就是挑战我们过去的传统思维,固有思维,只有变革思维才能适应大数据时代的到来。
书中说到三个转变,第一个转变随机采样趋于死亡;第二个转变数据之大追求精确度失去意义;第三个转变不再热衷寻找因果关系。
前两个转变依赖于高度发展的数据储存能力与处理能力,我们尚能理解并主动地去适应,但第三个转变却想当头棒喝,我脑海里只有一个词“第三只眼看世界”,已经不是换角度看世界那么简单了。
书中举了两个例子来说明,大数据只告诉我们“是什么”而不是“为什么”。比如机票的例子,你只要知道什么时候买最便宜,无须知道价格涨跌背后的原因;比如有几百万条医疗记录显示“橙汁+阿司匹林”的组合能治疗癌症,找出具体的药理机制就没有这种治疗方法本身来得重要。
可怕就在于不必知道现象背后的原因,只要让数据发声。让数据发声,意味着数据成了主导,然而我们不一定了解自己的数据,即便有了数据,有了数据商业资本,它还会让我们陷入一种寻宝的游戏。