设为首页收藏本站

小牛社区-大数据学习交流社区|大数据免费学习资源

 找回密码
 立即注册!

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 133|回复: 0

Hadoop大数据为什么这么火?

[复制链接]

86

主题

0

帖子

36

积分

吃土小白

Rank: 1

积分
36
发表于 2017-11-16 04:50:07 | 显示全部楼层 |阅读模式
[img=270,76.0pt]http://bbs.edu360.cn/source/plugin/csdn123_news/display_picture.php?url=http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FHlRO27yxlcAQ1Sp77hRlNiaAxCxWpyQzgCHibfIwxK2TBZtQcM571Ve4Fm9e5CGZ4F2vnWvWibdSdUneH8p8N9iavQ%2F0%3Fwx_fmt%3Djpeg[/img]



Hadoop创始人


hadoop的创始人是Doug Cutting,他是 Lucene、Nutch 、Hadoop 等项目的发起人。这个人很厉害的。他有个女儿,而女儿有个布娃娃,它的名字就叫hadoop,这也是hadoop名字的由来。
hadoop的版本介绍
hadoop分为两个版本,一个是1.x,另外一个是2.x,这两个的变化较大,主要是并行计算框架的变化,1.x是MapReduce,2.x是YARN框架。


区别从进程上来说:


1. MapReduce分布式计算框架的进程
JobTracker守护进程
TaskTracker守护进程
2.YARN的进程
ResourceManager进程
NodeManager进程
同时YARN拓展了MapReduce。而且也减轻了JobTracker进程的压力。


hadoop的两大模块


Hadoop是一个开源的框架,也是Apache的一个顶级项目。Hadoop框架中由两大模块组成,一个HDFS(Hadoop Distributed File System),是用来存储需要处理的数据,另外一个是MapReduce,是Hadoop的处理数据的计算模型。


a. HDFS介绍
[img=551,131.25pt]http://bbs.edu360.cn/source/plugin/csdn123_news/display_picture.php?url=http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FHlRO27yxlcAQ1Sp77hRlNiaAxCxWpyQzg3tLXbLv0a5g1Tib7hibQcGDL2VZewDo3LohxhMT650JTdolqAlOE3N2A%2F0%3Fwx_fmt%3Djpeg[/img]



HDFS


HDFS是Hadoop的一个存储模块。在HDFS上有一个副本机制,也就是一个数据文件默认是3份,这就使得它的容错性提高。HDFS能够吐量GB、TB级别的数据且它是通过流式读取数据文件的,优势也主要体现在这一方面上。HDFS一般有一个主节点,也就是Namenode(master),若觉得不安全,可以采用高可用性的HA来弥补,还有许多个从节点,也就是Datanodes(salve)。Namenode节点俗称名称节点,主要负责管理文件系统的元数据(主要包括权限、副本、修改日期、大小、校验和等)信息,客户端要访问数据也要经过Namenode来控制。Datanode管理它本节点上数据的信息和存储,并每隔一段时间就会与Namenode之间通信来验证信息的正确性。一个大于数据块大小(通常是128M,也可以按需配置)的文件会被HDFS分成一个或多个数据块来存储在Datanode上。在Namenode节点上,还可以对文件系统进行操作,比如上传(put命令)、下载(get命令)文件、创建新文件(mkdir命令)、复制、删除文件或目录、给文件进行重命名等操作。如果客户端要读取HDFS上的数据,就需要先请求Namenode,Namenode根据请求找到相应的数据块返回给客服端,之后客户端就可以直接从Datanode读取数据,操作完后会向Namenode发送一个结果请求。HDFS一般运行在linux系统上,从而大大提高了其稳定性,它对NameNode的硬件要求(主要是内存)相对来说要高,因为要保存许多数据的元数据。为了增加系统的稳定性,一般系统中都还存在Namenode的一个备份,SecondaryNamenode,它的主要功能是合成镜像文件并发给Namenode节点。


b. MapReduce介绍


[img=461,122.25pt]http://bbs.edu360.cn/source/plugin/csdn123_news/display_picture.php?url=http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FHlRO27yxlcAQ1Sp77hRlNiaAxCxWpyQzgibm0SP5Xf29kdgHBENUibp6tRwvwyjbiaJ7ZmmiafO1cediabkPMg4L5K0A%2F0%3Fwx_fmt%3Djpeg[/img]



YARN


MapReduce框架是一种简单的计算模型,它由map和reduce两个阶段组成,用于大规模数据集的并行运算。map函数通常是用来读取数据(现在已经支持许多格式)的,它把文件中数据变成键值对的方式来进行读,读取之后就可以进行数据处理,reduce函数是用来将map处理完的数据拉取过来,再对数据进行键值对处理和合并,最后也是通过键值对的方式保存到文件。MapReduce可以有多个并行的不同的map,他们之间可以处理不同的文件,最后通过键值对方式来进来保存,也可以有多个相同的reduce来进行处理复杂的数据。


Hadoop的好处在于:


(1)可扩展:如果集群现在的能力不能满足现有的需求,可以增加数据节点来实现集群的扩展,但需要具体情况具体对待。


(2)经济:Hadoop集群能够在普通、廉价的硬件设备上运行,节约开支。


(3)可靠:HDFS上提供副本机制,可以使得数据不会丢失,MapReduce若发现计算的数据块损坏,它会自动寻找没有 损坏的数据块重新计算。


(4)高效:充分利用本地数据来提高性能。





好程序员特训营自2014年开班至今,一直立志培养高薪,高能,高职的程序员人才,截至目前,好程序员学员就业均薪1万3以上,学员薪资最高达到2万9千元。现开设Html5、JavaEE、大数据、Android等高端精品课程,40人小班教学保证高品质,坚持100%全程面授。
好程序员大数据三期班11月6日开班

好程序员,为高端而生!



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册!

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册!

本版积分规则

快速回复 返回顶部 返回列表