一,新时代来临
1890年,美国统计学家赫尔曼·霍尔瑞斯为统计这一年的人口普查数据,发明了一台电动器来读取卡片上的数据,该设备让美国用一年的时间就完成了原本需要8年的人口普查活动,由此在全球范围内引发了数据处理的新纪元,也拉开了一个大规模生产、分享和应用数据的新时代的序幕。
大数据(big data)一词由著名未来学家阿尔法·托夫勒在《第三次浪潮》(1980年)一书中首先提出。最初,许多科学家并不认可“大数据”,认为这只不过是一个营销术语。直到2011年麦肯锡公司发布报告《大数据:创新、竞争力和生产力的下一个前沿》,才开始引起社会各界的广泛关注。
到目前为止,大数据仍然没有权威统一的定义,广义的理解是代表了一种新的认识世界的工具,蕴含了一种“数据化”的思维方式的变革,通过对其分析可以获得对现实世界的立体化的认识。因此有人将大数据与电、计算机、互联网等并称为“通用目的的技术”。就技术和应用而言,大数据是在互联网快速发展中诞生的。这个起点可以追溯到2000年前后,随着全球网络规模的暴增,存储和分析技术的发展,为大数据的发展提供了技术上的支持。
大数据给我们的生活、工作带来了急剧的变革。移动互联网的发展、手持设备的兴起、智能终端的普及、新型传感的应用都快速渗透到了地球上的每个角落。这是一个人人有终端、物物可传感、处处可上网、时时能链接的时代,从科学研究到电子商务、从医疗卫生到社交娱乐,数据信息都呈爆发式的增长。
很多国家把大数据提升到国家战略的高度,将其与自然资源、人力资源同视为战略资源。美国政府更是把大数据看作“未来的石油”。2012年3月22日,奥巴马宣布美国政府投资2亿美元启动“大数据研究和发展计划”。这不仅是一个推动美国继续在高科技领域领先世界的战略计划,更是推动美国社会经济进一步发展的宏远蓝图。
可以说,实物的积累、货物的积累代表着过去时代的国力,而在信息时代,数据的积累、加工和利用能力将成为一个国家综合国力的标志。
二、不凡的改变
我们先看一下,大数据是如何改变我们生活的吧。
奥伦·埃齐奥尼是美国著名的计算机专家,哈佛大学首届计算机专业的毕业生,他创立了许多大数据公司。2003年,他乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚礼。他提前几个月在网上就买了自认为便宜的“打折”机票,但当他坐上飞机后,和周围的乘客交谈时发现,他们的机票比他买的晚,但居然都比他的便宜。这让他既疑惑又恼怒,于是他决定开发一个系统,用来推测当前各航空公司网站上的机票价格是否合理。他认为,不需要解开机票价格差异的原因,因为这只有航空公司自己清楚。他要做的仅仅是预测当前的机票价格在未来一段时间内的趋势,以帮助客户决定是否购买。即开发一个机票信息预测系统,这是一个浩大的计算机项目。埃齐奥尼在41天之内,获取了12000个价格样本,在此基础上建立了一个新的预测系统,他给这个研究项目取名“哈姆雷特”。这个小项目就是后来的Farecast公司,Farecast被微软公司以1.1亿美元收购。Farecast票价预测的准确度高达75﹪,平均每张机票可为旅客节省50美元。
在中国,阿里巴巴公司不是最早利用大数据解决问题的,但却是成功实现技术转型的公司。马云在很多场合都说过,阿里巴巴是一个大数据公司,我们只是借卖东西来搜集数据。阿里集团以用户数据为中心来重构供需关系,以大数据平台支撑个性化服务。其平台上覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条,阿里云已成为中国重要的云计算服务平台。如今,淘宝和天猫几乎提供了衣食住行的所有选择。
Farecast和阿里巴巴是诸多大数据公司的一个缩影,也代表着一种新型的能力:通过对海量的数据分析,获得巨大的价值。
关于大数据最经典的应用案例是美国塔吉特公司对一名17岁女孩怀孕的预测。塔吉特公司的分析团队经过分析女顾客的消费记录,发现怀孕妇女会在怀孕三个月的时候买很多无香乳液,手霜,几个月后还会买一些营养品,补充镁、钙、锌的保健品。公司最终找出了20余种关联物,通过这些关联物可以给顾客进行“怀孕趋势”评测,可以在最小误差内实现预测,甚至能比较准确的预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券。《纽约时报》报道称,一位父亲拿着带有婴儿用品优惠券的广告邮件怒气冲冲的来到位于明尼阿波利斯市的塔吉特商店,质问经理,为什么给他正在上高中的女儿邮寄婴儿服和婴儿床的优惠券。经理连连致歉。过几天,当经理打电话给这个男人再次道歉时,这个男人的语气变得平和起来。他说,女儿和他沟通过了,她的预产期是8月份。
三、角色与定位
根据所提供的价值不同,大数据公司一般分为三种:数据本身,技术和技能。大数据不断的转移和加工表明数据在不同领域创造着价值与利润。
第一种是基于数据本身的公司。数据本身就是价值,这些公司拥有大量数据或者可以收集到大量数据,再授权给其他公司。ITA Software公司就是为Farecast公司提供所需的数据,它们不考虑这些数据的额外价值。再如,像VISA和MasterCard这样的信用卡公司和其他银行就站在了信息价值链的最好位置。通过为商家提供服务,它们能够获取交易信息和顾客的消费信息。它们的商业模式也从单纯的支付行为变成了数据收集,再授权给第三方使用,或者将分析结果出售。
第二种是拥有技术和专业技能的公司。通常是咨询公司、技术供应商或者分析公司,掌握技能但不一定拥有数据(可理解为数据中间层)。 Planalytics是一家全球领先的天气分析的公司,服务来自美国、欧洲及南美的200多家客户。该公司在天气分析上积累了大量经验,特别在细节上,在多家大型零售和制造商都有成功案例。目前为止,这家公司已分析了上万亿的交易数据及8500个类目,基于这些分析再将天气数据转化为有助于企业决策的指针,进而优化业务结果。
第三种是有着大数据思维思维,虽不拥有专业技能,但能通过想法获得价值的创新公司和个人。所谓的大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人解决问题。2011年布拉德福德·克罗斯创立了科技创新公司Prismatic,收集网上资源并排序,这种排序建立在文本分析、用户喜好、社交网络普及和数据分析基础之上,排名根据点击率和转发率来体现。
数据的重大价值在于能把决策前置,如果通过数据能够早一步做出准确预判,就比对手更有优势。准确的预判加上快速的行动,就是现在人们所讲的行动智能(actionable intelligence)。在这点上,一些大型互联网公司有着“天然”的优势。
谷歌在2008年曾经开发了一个产品GFT(Google Flu Trends)②做流感趋势预测。作为一个互联网公司“跨界”到医学领域做预测并不被认可,所以当时并没有引起注意。在2009年美国爆发了一场禽流感,当时这种禽流感第一次被发现,全世界没有疫苗,当时美国死了29个人。因为无法预测病毒将会向哪个方向传播,引起了恐慌。谷歌公司把5000万条和感冒相关的检索词条进行分析,处理了4.5亿个不同的数学模型,并比较了2007年、2008年实际流感病例。最后成功预测出爆发点,公布在谷歌首页上,而且这个预测比美国疾病预防中心要提前七到十四天。
阿里巴巴也有过成功预测的例子。我们在淘宝网页的首页上浏览过的,点开看详情的和卖家询价的,这三个数据被称为询盘数据。询盘数据不等于交易数据,但具有相关性,这两个数据存在时间上的先后和一定的比例关系。在2008年阿里巴巴就是通过发现询盘数据急剧下降,推测出交易量不久也会下降,继而预测出金融危机的到来。
数据的另一个价值是改变了传统的商业模式,以外卖物流配送为例。
外卖行业连接着线上线下的订餐需求,将传统的到店消费模式改造成更加灵活便捷的到家消费模式,极大降低了用户的消费成本和商户的固定成本。基于城市道路交通状况的物流配送能力是决定外卖平台商业模式成败的关键,即运用城市交通大数据相关的云计算、深度学习和可视化技术的能力。因此,智能调度系统是外卖物流的最核心环节,依托海量历史订单数据、骑士定位数据、商户数据、针对骑士实时情况(任务量、配送距离、并单),对订单进行智能匹配,实现全局最优配置。
然而在真实场景中,用户点了餐就希望能按时送到,骑士上了路就希望能一起多送几单,商家接了餐就希望尽快取餐,平台则关心如何以最小的运力承接最大的配送量。更重要的是,这些目标有时又是相互矛盾的。每个订单不是孤立存在的,要想得到最优方案,还必须考虑到这一时间段其他订单的配送情况,尽可能合并订单。还要考虑到天气、节假日、工作日等临时情况。智能调度系统需要将以上所有因素都考虑在内,实时采集整个商圈里各方的动态数据,在1ms内做出时间跨度和空间范围内的最优分配序列,让骑士轨迹能无缝衔接起整个配送流程,让每个环节耗费的时间降到最低,配送成本最低,配送效率最高。
实践证明,在智能物流调度系统实施之前,订单需要由调度员手工分配,每个骑士每天最多配送10单。实施之后,经智能调度系统配送后,每个骑士的配送效率翻倍、收入翻数倍,每单配送时长节省50%,目前该系统已覆盖全国100多个城市。
百度依靠强大的云计算能力和技术优势,设计了分布式、高并式、大容量的流式计算框架,以得到最优的计算效果。以百度目前的计算框架完全可以支撑未来每天千万级订单、秒级10亿次计算的动态调度,而现在百度外卖每天的订单为百万级。
对于传统的制造业,大数据也产生了巨大的改变。这方面的典型代表是美国通用公司(GE),该公司于2012年提出“工业互联网和数字平台”的概念,推出了Predix平台。这是全球第一个专为工业数据与分析开发的云服务平台,负责将各种工业资产设备和供应商相互连接并接入云端,以提供应用性能管理(APM)和运营优化服务。APM(Application Performance Management应用性能管理)是新的网络管理方向,主要对企业的关键任务进行监测、优化,以提高企业应用的可靠性和质量。一个企业的关键业务应用的性能决定了企业竞争力,因此,加强应用性能管理可以产生巨大的商业利益。通用公司将10000个传感器安置在发电厂内,用以搜集运行数据,通过数据了解电厂的运行状态。对燃料和空气的比例进行微小调整,将发电厂效率提高一个百分点。看似很小的调整,在同等处理状态下,每年就可以减少67000吨煤炭消耗。
①在Farecast被微软公司以1.1亿美元收购两年后,谷歌以7亿美元收购了ITA Software公司。
②在2011年,这个产品下架,这里要提到一个悖论,就是预测悖论。当预测流感要来了,公众要提前做预防,减少了流感传播的可能性,即预测被干扰。
(未完待续)