6、大数据与云计算
7、大数据与Hadoop
6、大数据与云计算
据分析,到2020年,全球以电子形式存储的数据量将达到35ZB(10
21,十万亿亿级),是2009年全球存储量的40倍。而在2010年底,根据IDC的统计,全球数据量已经达到了120万PB,或1.2ZB。如果将这些数据都刻录在DVD上,那么光把这些DVD盘片堆叠起来就可以从地球垒到月球一个来回(单程约24万英里)。
为了解决大数据的挑战,人们自然而然的想起了云计算,云计算遭遇大数据,这是时代的发展必然趋势。云计算技术可以实现IT资源的自动化管理和配置,降低IT管理的复杂性,提高资源利用效率。对企业来说,云计算的主要形态是私有云,其主要的业务由私有云支撑,而非关键的业务或者突发性的业务可以采用公共云资源。私有云与公共云需要无缝连接,从而形成混合云的环境。
云计算与大数据的关系是两个方向,云计算可以承载大数据,大数据也是可以通过云计算架构和模型来提供解决方案。这样我们就可以清晰的知道,大数据在管理和应用的方向上,可以通过云计算的资源共享、高可扩展性、服务特性来搭建和运营。
如果说大数据与云计算的交集是外部交集,那么大数据内部的关联、挖掘,则是大数据的大内涵,这个调整远远超过云计算的应用难度,数据与数据的复杂关系,比如跨应用系统的结构化数据与非结构化数据的关联;海量数据的存储以及数据在人之间的分享;数据(结构化与非结构化)与业务和决策间的关联。
云计算与大数据有所不同,不同之处在于应用的不同,主要表现在两个方面:① 在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营;② 大数据和云计算的目标受众不同,云计算是卖给CIO的技术和产品,是一个进阶的IT解决方案。而大数据是卖给CEO、卖给业务层的产品,大数据的决策者是业务层。由于他们能直接感受到来自市场竞争的压力,必须在业务上以更有竞争力的方式战胜对手。
对于大数据时代,无论是企业还是厂商,策略、规划和思想是核心,与云计算一样,大数据的大内涵,需要有大思维和高规划。计算时代成就了Wintel为代表的一批厂商,那个时代的旋律是摩尔定律;网络互通时代正在成就包括GOOGLE、FACEBOOK、腾讯为代表的网络新贵,这个时代的主旋律是互通;大数据时代的到来,为更多的厂商带来了机会,而这个时代的主基调,无可厚非,智能必将当道。正所谓,数据之道,智取未来。
7、大数据与Hadoop
随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个大数据的时代,对这些大数据的分析已经成为一个非常重要且紧迫的需求。多维分析和数据挖掘平台架构Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。
Hadoop是Apache基金会的一个项目,也是一组软件的总称,是目前业界公认的开放平台之一,起源于作者Doug Cutting儿子的一只玩具大象的名字Hadoop 。
以Hadoop为代表的分布式系统,是大数据系统必要组成部分。必要性体现在现在的大数据中很多数据是机器产生的数据,或者是物联网各种各样的探测器、电脑产生的日志,这些是人为产生的,而且数量巨大,不适合把它直接放到数据库中去,而Hadoop就提供了全新的方式,可以轻松进行平面扩展,把这些数据放在库里进行任意的数据分析。Hadoop成功的建立了这个环境,使得围绕Hadoop的软件能够提供各种各样的功能,完成智能分析工作。
然而,大数据不仅仅是Hadoop,在对数据进行分析时,用户可以把数据放池子里,Hadoop则把这些数据分成几百个、几千个节点,这是在特定的某些应用场景必须进行的部分。但是更多的应用场景是需要实时的反应,互动的反应,这时候就需要其他技术,包括内存类检索技术,甚至在数据产生时要进行实时反应的技术。这些技术都结合在一起,才是一个完整的大数据处理系统。
简而言之,Hadoop提供了一个分布式系统基础架构,让用户可以在不了解分布式底层细节的情况下,开发分布式程序,以充分利用集群的威力高速运算和存储。Hadoop主要包括HDFS、MapReduce和HBase等组成部分。HDFS是一个分布式文件系统,具有高容错性的特点,设计用来部署在通用硬件上,同时,它还能提供高传输率来访问数据,因此非常适合那些有着超大数据集的应用程序;HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase可在通用硬件上搭建起大规模结构化存储集群;MapReduce是一个编程规范,分别由Map和Reduce组成。
在Hadoop的构成中,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和故障恢复机制。此外,Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变得非常简单。
Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。例如,如果您要 grep 一个 10TB 的巨型文件,会出现什么情况?在传统的系统上,这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题,采用并行执行机制,因此能大大提高效率。
Hadoop 是一个能够对大量数据进行分布式处理的
软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
1. 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖;
2. 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
3. 高 效 性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
4. 高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5. 价格优势。其一Hadoop是开源软件,尽管开源并不意味着免费,但和商业软件相比,其采购成本要低得多;其二Hadoop是为普通的硬件设备设计的,本身已经充分考虑这些硬件的不可靠性,而不是专用硬件,这就大幅降低了硬件投入成本。
Hadoop带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的
应用程序也可以使用其他语言编写,比如 C++。
由于具备低成本和前所未有的高扩展性,Hadoop已被公认为是新一代的大数据处理平台。就像30年前SQL(Structured Query Language)出现一样,Hadoop正带来了新一轮的数据革命。如今Hadoop已从初出茅庐的小象变成了行业的巨人,但Hadoop仍需继续完善。