关于作者

 一个毕业于北京大学数学力学系,在中国科学院计算所、计算中心和网络中心工作过,在澳大利亚科工组织DMS、香港浸会学院数学系和中国21世纪议程管理中心等处工作过,多次获国家和中科院科技奖并享受政府特殊津贴的退休老头。现在在【中国科普博览】网“科学新语林”栏目里开设一个《数学与计算机》的个人专栏,愿和爱好数学与计算机的各界网友和青少年朋友,谈谈对数学与计算机的看法、想法。

大数据(2)

张建中
2012年12月14日
3、大数据的争论
对于“大数据”,不仅仅有多种不同的定义,更有各种各样不同的认知和看法,争论颇多。下面列出部分,供参考。

“数”中自有黄金屋? 大数据,大影响

那一个个关于大数据的传奇故事,一桩桩争夺大数据制高点而展开的并购案,一个接一个轮流发布大数据战略的IT厂商,还有那一场场以大数据为主题的各种研讨会,无一不在宣告,IT界又迎来了新的兴奋点、新的机遇,同时,也是新的挑战。
但是大数据并非单指数据量之大。对于大数据,IDC的定义是:“为了更经济地从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。”人们普遍将该定义概括为四个V,即更大的容量(Volume,从TB级跃升至PB级,甚至EB级)、更高的多样性(Variety,包括结构化、半结构化和非结构化数据),以及更快的生成速度(Velocity)。前面三个“V”的组合推动了第四个因素——价值(Value)。

(单位:百万美元)

麦肯锡全球研究机构在2011年5月发布的《大数据:创新、竞争和生产力的下一个前沿领域》中表示,充分利用大数据可帮助全球个人定位服务提供商增加1000亿美元收入、帮助欧洲公共部门的管理每年提升2500亿美元产值、帮助美国医疗保健行业每年提升3000亿美元产值,并可帮助美国零售业获得 60%以上的净利润增长。
在今年年初的瑞士达沃斯论坛上,一份题为《大数据,大影响》(Big Data,Big Impact)的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。
而《华尔街日报》在文章《科技变革即将引领新的经济繁荣》中更是大胆预测:“我们再次处于三场宏大技术变革的开端,他们可能足以匹敌20世纪的那场变革,这三场变革的震中都在美国,他们分别是大数据、智能制造和无线网络革命。”
更加值得关注的则是,美国已经把大数据上升到了国家战略的层面。根据美国白宫2012年3月29日新闻,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,希望增强收集海量数据、分析萃取信息的能力。
在我国,大数据作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持。不过,在工信部发布的物联网“十二五”规划上,信息处理技术作为四项关键技术创新工程之一已经被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外三项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与大数据密切相关。
大数据的价值和重要性已经毋庸置疑,但大数据究竟带来了哪些新的技术趋势,它对当前IT产业的势力格局会造成何种影响,更关键的是,每个企业如何才能获取大数据中的“宝藏”?则是我们真正关注的焦点。

大数据可能是一场骗局

大数据风暴来袭,存储厂商动作频频,力争在大数据潮流的竞争中拔得头筹。什么是大数据(Big Data) ? 简单一点可以理解为超出传统数据管理工具处理能力的大规模、复杂的数据集合。判断是否数据大数据的范畴,要从三个维度来衡量:数据量(Volume)、处理速度( Velocity)以及数据种类(Variety)。
大数据是 2012 年信息技术领域最时髦的词汇。当然,跟所有曾经的时髦技术热词一样,最后可能是一场骗局。为什么?
大数据是个相对的概念,新瓶装旧酒 有些人所说的大数据处理方式,不过是在既有的方案上包装了一下,新瓶装旧酒,只为赶时髦。今天的大数据可能到了明天算不上大数据。过去我们也曾经对“海量数据”望而生畏。但海量数据时代并没有给多少企业带来革命性的变化,在 Map Reduce 以及 Hadoop 出现之前,没有多少企业能够轻松的对数据进行大规模并行计算(奇怪的是,那时候没有多少人提大数据)。而 No SQL 的出现也为处理数据的方式带来了更多可能性。我们突然发现,处理数据能力已经悄然增强。
大数据是机会,但不是所有人的机会 大数据的商业前景被过分夸大了。从目前来看,只有为数不多的企业真正拥有大数据,而且这些数据的管理、处理、分析并没有带来所谓空前大的挑战。因为新的工具、新的计算方式已经具备处理这些数据的能力。大数据是机会,但只是少数人的机会,更多是巨头们的商业障眼法,比如 IBM 、Oracle、微软,他们提倡甚至夸大大数据的目的还是为了向你兜售他们的工具,兜售他们的解决方案,确切的说,从你身上赚钱。中小型公司应该绕道走,别唯大佬们马首是瞻,别总去凑热闹。你所需要的东西,通过开源社区就可以获取到,参加各种大佬们口沫横飞的会议还不如和工程师聊聊可以运用什么工具来具体操练一下。
大数据的确会有价值,但没有那么大 必须要承认从某些大数据中会挖掘出新的价值,但这个价值只是附加价值,没有理由去夸大他,更没有理由去无端的想象。你可以说这片沙漠可能有金子,但并不是说沙漠中一定就能挖掘出金子。从现在业界一些公司拿出来的所谓的大数据应用实例来看,依然只是在利用传统意义上的数据价值,只是巧妙地把这笔帐记在了大数据上而已。
没有大数据,只有数据 大数据不会是什么“商业模式的变革”,重视大数据,但没必要抱着大数据的大腿,尤其是在业界对于“数据”还不够重视的时候,就更别说大数据了。相信随着时间的推移,大数据这个词会和信息爆炸、网格计算、云计算等逐渐被淡忘,当然,到时候可能出现新的时髦词汇了。没有大数据,只有数据;没有蓝海,只有大海;没有先知,只有忽悠。

大数据不是大谎言

“数据量巨大”只是大数据的一个标签。除此以外,数据的多样化、管理的复杂度、实时分析等也是用户在处理大数据时必须面对的挑战。BI(商业智能)已经有30多年的历史。借助BI工具,企业可以对某一时间段内产生的数据进行分析,从而为商业决策提供支持。在大数据时代,企业需要面对的是不断变化的数据,因此需要实时对数据进行处理和分析,这无疑增加了数据分析的难度,但同时也提高了企业预测未来市场变化的准确度。企业是否应该采用大数据分析工具,不是以企业拥有的数据量大小决定的,只要企业有商业预测的需求,就应该尽快使用大数据分析工具。
很多人认为,大数据就是指非结构化的数据。其实,这是一个“谎言”。事实上,全球产生的数据中85%以上的确是非结构化的数据。但是在当前的大数据应用中,企业主要处理的还是结构化的数据。如今,许多拥有结构化数据处理工具的厂商纷纷转向Hadoop,目的就是要寻找一个处理非结构化数据的好办法。尽管如此,大多数厂商的非结构化数据分析工具,也是先把非结构化数据转换成结构化数据之后再进行处理。
云计算带来了IT基础架构的变革,大数据则有力地推动了企业业务的转型。从这个角度讲,大数据对企业来说是一个挑战,更是一个实现业务转型的契机。伴随着大数据应用的兴起,企业对数据科学家、数据分析师这些新型的专业人才的需求也会变得更加迫切。如今,国外企业的管理层已经出现了一个新的职位——首席数据官(Chief Data Officer),其职责是在实现数据治理的同时保证数据的可操作性。
大数据的挑战真实存在。企业应该变压力为动力,应该让大数据为商业决策服务,而不要成为大数据的奴隶。

大数据带来大难题、大内涵、大价值

何谓“大数据”,不能简单以大量数据来概括,通常,大数据主要有三个特征:量大(PB级别的数据)、实时性(更短的时间处理数据)、多样性(非结构的文档数据为主)。
也正是它的这些独具特点,给我们主要带来了“存”、“管”、“用”这三个方面的难题。
1. “存”———如何解决 PB 级别大数据的存储问题?
2. “管”———如何解决非结构化数据的管理问题?
3. “用”———如何解决这种大规模复杂结构下的实时应用问题?
大数据有着大内涵,它颠覆了传统的IT世界,挑战着企业的存储架构、数据中心的基础设施,数据仓库、数据挖掘、商业智能等各个应用环节。
事实上,全球互联网巨头都已意识到了“大数据”时代,数据的重要意义。国泰君安证券研究所整理了自2010 年以来各大IT 巨头在大数据领域的产品推出进度,包括EMC、惠普、IBM、微软、Oracle、SAP、Teradata在内的全球IT 巨头纷纷通过收购大数据相关厂商来实现技术整合,亦可见其对大数据的重视。其中最大的要数惠普宣布的以103 亿美元收购英国非结构化信息处理软件公司Autonomy(交易完成时金额达到120 亿美元)。包括IBM、EMC、Teradata 等公司也相继进行了数亿至几十亿美元的收购。
虽然企业的决策者已经意识到“大数据”中蕴含的价值,但对于大多数企业来说,真正实现其中的价值还难以做到。这时候IT就派上了用场,它可以帮助决策者在储存的海量信息中挖掘出需要的信息,并且对这些信息进行分析,从而发现重要的趋势信息。换句话讲,IT已经成为“大数据”发挥作用的催化剂。
在服务领域,“大数据”的重要性和价值越发明显地得到证明。与美国海洋和大气局(NOAA)、美国宇航局(NASA)这些机构一样,一些制药企业和众多能源企业同样累积了大量的数据信息,现在这些企业想要将这些日常积累下来的数据转化为一种“大数据科技”,希望这些数据能够带来额外的价值。
美国海洋和大气局尝试利用大数据业务协助进行对气候、环境、天气的研究和商业性探索,美国宇航局利用大数据业务进行航天和其他领域的探索。制药企业和能源企业则借助大数据业务进行更多实实在在的研发,例如药品实验和地球物理分析。《纽约时报》将“大数据”作为一种工具,进行文本分析和网络开发。迪斯尼公司利用它对店面、主题公园和网络资产中的数据进行分析,研究消费习惯的相关性。
大数据业务有很多专有的和开放性的资源作为工具,通常情况下,这些资源可以通过启动一个程序获得,也可以通过与提供云技术的公司合作获得,例如亚马逊和谷歌——实际上,云技术不但能够帮助你解决大数据的延展问题,还能解决数据存储和计算能力的问题。不管怎么说,使用大数据业务不必由你亲自“扮演角色”。像IBM和EMC这样的供货商可以提供大数据项目所需的工具,尽管使用这些公司提供的业务成本可能很高,而且难以衡量。