关于作者

 一个毕业于北京大学数学力学系,在中国科学院计算所、计算中心和网络中心工作过,在澳大利亚科工组织DMS、香港浸会学院数学系和中国21世纪议程管理中心等处工作过,多次获国家和中科院科技奖并享受政府特殊津贴的退休老头。现在在【中国科普博览】网“科学新语林”栏目里开设一个《数学与计算机》的个人专栏,愿和爱好数学与计算机的各界网友和青少年朋友,谈谈对数学与计算机的看法、想法。

大数据(1)

张建中
2012年11月26日
1、什么是大数据?
2、大数据的特点

1. 什么是大数据?

大数据

大数据(Big Data)是近来信息技术领域中的热点之一,但从名字就能判断它并不是什么新词。毕竟,大是一个相对概念。历史上,数据库、数据仓库、数据集市等信息管理领域的技术,在很大程度上也是为了解决大规模数据的问题。然而,大数据作为一个专有名词成为热点,主要应归功于近年来互联网、云计算和物联网的迅猛发展。无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据,数以亿计用户的互联网服务时时刻刻在产生巨量的交互数据,要处理的数据量实在是太大、增长又太快,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的常规技术手段根本无法应付。在这种情况下,才重新提出了大数据问题并受到了高度重视。
何谓大数据,目前还没有统一的说法,常见的定义有如下几种:
定义一:大数据 = 海量数据 + 复杂类型的数据
大数据是由三项主要技术趋势汇聚组成:
① 海量交易数据:在从 ERP 应用程序到数据仓库应用程序的在线交易处理(OLTP)与分析系统中,传统的关系数据以及非结构化和半结构化信息仍在继续增长。随着企业将更多的数据和业务流程移向公共和私有云,这一局面变得更加复杂。
② 海量交互数据:包括呼叫详细记录(CDR)、设备和传感器信息、GPS 和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web 文本和点击流数据、科学信息、电子邮件等等。
③ 海量数据处理:大数据的涌现已经催生出了用于数据密集型处理的架构,例如具有开放源码、在商品硬件群中运行的 Apache Hadoop。对于企业来说,难题在于要以具备成本效益的方式快速可靠地存取、管理和处理数据。
大数据包含了海量数据的含义,而且在内容上超越了海量数据,简而言之,大数据是海量数据+复杂类型的数据。
大数据包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。

定义二:大数据可以用三个V来总结,即Variety、Volume和Velocity(多样性、数量、速度)
大数据的概念同我们能否有效管理并挖掘利用这些数据和我们比较熟悉海量数据有所区别,它可以用三个V来总结,即Variety、Volume和Velocity(多样性、数量、速度)。
多样性是指数据应包含结构化的、半结构化的和非结构化的数据;数量是指聚合在一起供分析的数据量必须非常庞大;速度则是指数据处理的时间必须很短。大数据并非总是说有数百个TB(1012,万亿级)才算得上。根据实际使用情况,有时候数百个GB(109,十亿级)的数据也可称为大数据,这主要要看它的第三个维度,也就是速度或者时间维度。假如我能在1秒之内分析处理300GB的数据,而通常情况下却需要花费1个小时的话,那么这种巨大变化所带来的结果就会增加很大的价值。所谓大数据技术,就是至少实现这三个判据中的两个、且可承担得起的一种应用。

.

定义三:大数据包括A、B、C三个要素
基于应用要求,大数据包括A、B、C三个要素:分析(Analytic),带宽(Bandwidth)和内容(Content)。
1. 大分析(Big Analytics),帮助获得真知----指的是对巨大数据集进行实时分析的要求,它能带来新的业务模式,更好的客户服务,并实现更好的结果。
2. 高带宽(Big Bandwidth),帮助走得更快----指的是处理极端高速的关键数据的要求。它支持快速有效地消化和处理大型数据集。
3. 大内容(Big Content),不丢失任何信息----指的是对于安全性要求极高的高可扩展的数据存储,并能够轻松实现恢复。它支持可管理的信息内容存储库、而不只是存放过久的数据,并且能够跨越不同的大陆板块。
大数据是一股突破性的经济和技术力量,它为 IT 支持引入了新的基础架构。大数据解决方案消除了传统的计算和存储的局限。借助于不断增长的私密和公开数据,一种划时代的新商业模式正在兴起,有望为大数据客户带来新的实质性的收入增长点以及富于竞争力的优势。

2、大数据的特点

要理解大数据,首先要从“大”入手,“大”是指数据规模,大数据一般指在10TB(1012B,万亿级数据)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Volume、Variety、Value和Velocity),即体量大、多样性、价值密度低、速度快。主要特点有:
① 数据体量巨大。从 TB级别,跃升到 PB(1015B,千万亿级数据)级别。
② 数据类型繁多,多为非结构型数据,如网络日志、视频、图片、地理位置信息,等等。
③ 价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
④ 新的数据处理技术。大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的“大数据”不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发的目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。
⑤ 处理速度快,秒级定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式,多要求在秒级时间范围内给出分析结果。