设为首页收藏本站

小牛社区-大数据学习交流社区|大数据免费学习资源

 找回密码
 立即注册!

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 158|回复: 0

基于Docker搭建本地Hadoop集群

[复制链接]

167

主题

0

帖子

5

积分

吃土小白

Rank: 1

积分
5
发表于 2018-2-13 08:41:35 | 显示全部楼层 |阅读模式
一. 项目介绍

将Hadoop打包到Docker镜像中,就可以快速地在单个机器上搭建Hadoop集群,这样可以方便新手测试和学习。

如下图所示,Hadoop的master和slave分别运行在不同的Docker容器中,其中hadoop-master容器中运行NameNode和ResourceManager,hadoop-slave容器中运行DataNode和NodeManager。NameNode和DataNode是Hadoop分布式文件系统HDFS的组件,负责储存输入以及输出数据,而ResourceManager和NodeManager是Hadoop集群资源管理系统YARN的组件,负责CPU和内存资源的调度。

之前的版本使用serf/dnsmasq为Hadoop集群提供DNS服务,由于Docker网络功能更新,现在并不需要了。更新的版本中,使用以下命令为Hadoop集群创建单独的网络:
sudo docker network create --driver=bridge hadoop然后在运行Hadoop容器时,使用"--net=hadoop"选项,这时所有容器将运行在hadoop网络中,它们可以通过容器名称进行通信。
项目更新要点:

  • 去除serf/dnsmasq
  • 合并Master和Slave镜像
  • 使用kiwenlau/compile-hadoop项目编译的Hadoo进行安装
  • 优化Hadoop配置
二. 3节点Hadoop集群搭建步骤
1. 下载Docker镜像
sudo docker pull kiwenlau/hadoop:1.02. 下载GitHub仓库
git clone http://github.com/kiwenlau/hadoop-cluster-docker3. 创建Hadoop网络
sudo docker network create --driver=bridge hadoop4. 运行Docker容器
cd hadoop-cluster-docker./start-container.sh运行结果
start hadoop-master container...start hadoop-slave1 container...start hadoop-slave2 container...root@hadoop-master:~#

  • 启动了3个容器,1个master, 2个slave
  • 运行后就进入了hadoop-master容器的/root目录
5. 启动hadoop
./start-hadoop.sh6. 运行wordcount
./run-wordcount.sh运行结果
input file1.txt:Hello Hadoopinput file2.txt:Hello Dockerwordcount output:Docker 1Hadoop 1Hello 2Hadoop网页管理地址:

  • NameNode: http://192.168.59.1:50070/
  • ResourceManager: http://192.168.59.1:8088/
192.168.59.1为运行容器的主机的IP。
三. N节点Hadoop集群搭建步骤
1. 准备

  • 参考第二部分1~3:下载Docker镜像,下载GitHub仓库,以及创建Hadoop网络
2. 重新构建Docker镜像
./resize-cluster.sh 5

  • 可以指定任意N(N>1)
3. 启动Docker容器
./start-container.sh 5

  • 与第2步中的N保持一致。
4. 运行Hadoop

  • 参考第二部分5~6:启动Hadoop,并运行wordcount。
参考

  • 基于Docker搭建多节点Hadoop集群
  • How to Install Hadoop on Ubuntu 13.10

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册!

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册!

本版积分规则

快速回复 返回顶部 返回列表