什么是Hadoop?

时间:2012-12-09 19:09:23  来源:快乐IT  作者:Eric
Hadoop是一个用于运行应用程序在大型集群的廉价硬件设备上的框架。Hadoop为应用程序透明的提供了一组稳定/可靠的接口和数据运动。在 Hadoop中实现了Google的MapReduce算法,它能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执行。 此外,Hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据,并提供了对数据读写的高吞吐率。由于应用了map/reduce和分布式文件 系统使得Hadoop框架具有高容错性,它会自动处理失败节点。已经在具有600个节点的集群测试过Hadoop框架。

一、Hadoop是什么?

答:是google的核心算法MapReduce的一个开源实现。用于海量数据的并行处理。

hadoop的核心主要包含:HDFS和MapReduce
      HDFS是分布式文件系统,用于分布式存储海量数据。
      MapReduce是分布式数据处理模型,本质是并行处理。


二、多少数据算海量数据?

答:个人认为,TB(1024GB)级别往上就可以算海量数据。


三、谁在使用hadoop?

N多大型互联网公司,这里列的比较全:
http://wiki.apache.org/hadoop/PoweredBy

在国内,包括中国移动、百度、网易、淘宝、腾讯、金山和华为等众多公司都在研究和使用它


四、用它来做什么?

答:海量数据处理。。。似乎有点虚呵呵,我能想到的用hadoop的地方:
1、最简单的,做个数据备份/文件归档的地方,这利用了hadoop海量数据的存储能力
2、数据仓库/数据挖掘:分析web日志,分析用户的行为(如:用户使用搜索时,在搜索结果中点击第2页的概率有多大)
3、搜索引擎:设计hadoop的初衷,就是为了快速建立索引。
4、云计算:据说,中国移动的大云,就是基于hadoop的
5、研究:hadoop的本质就是分布式计算,又是开源的。有很多思想值得借鉴。


总之,你可以把hadoop看成是:分布式计算框架(或系统、或平台),可以说是用来做云计算的,呵呵。(云计算的本质就是:海量数据存储/并行处理,即hadoop中的HDFS和MapReduce)

相关文章

    无相关信息

文章评论

共有  0  位网友发表了评论 此处只显示部分留言 点击查看完整评论页面