设为首页收藏本站

小牛社区-大数据学习交流社区|大数据免费学习资源

 找回密码
 立即注册!

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 892|回复: 0

Hadoop使用(一)

[复制链接]

3205

主题

3588

帖子

1万

积分

管理员

Rank: 18Rank: 18Rank: 18Rank: 18Rank: 18

积分
15125
发表于 2016-6-4 12:20:57 | 显示全部楼层 |阅读模式
hadoop框架
Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成。
其中NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上。

1,NameNode
NameNode是HDFS的守护程序,负责记录文件是如何分割成数据块的,以及这些数据块被存储到哪些数据节点上。它的功能是对内存及I/O进行集中管理。
2,DataNode
集群中每个从服务器都运行一个DataNode后台程序,后台程序负责把HDFS数据块读写到本地文件系统。需要读写数据时,由NameNode告诉客户端去哪个DataNode进行具体的读写操作。
3,Secondary NameNode
Secondary NameNode是一个用来监控HDFS状态的辅助后台程序,如果NameNode发生问题,可以使用Secondary NameNode作为备用的NameNode。
4,JobTracker
JobTracker后台程序用来连接应用程序与Hadoop,用户应用提交到集群后,由JobTracker决定哪个文件处理哪个task执行,一旦某个task失败,JobTracker会自动开启这个task。
4,TaskTracker
TaskTracker负责存储数据的DataNode相结合,位于从节点,负责各自的task。

hadoop的安装
1)安装SSH
sudo apt-get install ssh
2)安装java

3)安装hadoop
下载并解压缩

tar -zxvf hadoop-0.21.0.tar.gz
4)改变配置
指定java安装路径
使用vi
vi conf/hadoop-env.sh
添加
export JAVA_HOME = /usr/java/jdk1.7.0_01
可以使用三种模式安装,测试阶段可以使用单机模式。
在启动的时候可能会遇到很多问题,比如 22 connection refused
可以安装openssh,使用apt-get
sudo apt-get install openssh-client
sudo apt-get install openssh-server
sudo apt-get install chkconfig
使用chkconfig --list | grep sshd查看服务是否启动

使用ssh localhost
出现如下提示

输入密码后
出现欢迎页面,配置成功

免密码登录
ssh-keygen -t rsa

进入.ssh目录
执行
cp id_rsa.pub authorized_keys
重新ssh localhost,可以不输入密码

单机伪分布式:
进入目录/hadoop/conf
编辑 ~/hadoop/conf/core-site.xml
  1. <configuration><property><name>fs.default.name</name><value>hdfs://localhost:9000</value></property><property><name>hadoop.tmp.dir</name><value>/tmp/hadoop/hadoop-${user.name}</value></property></configuration>
复制代码
  1. 编辑  ~/hadoop/conf/hdfs-site.xml
复制代码
  1. <configuration><property><name>dfs.replication</name><value>1</value></property></configuration>
复制代码
  1. 编辑 ~/hadoop/conf/mapred-site.xml
复制代码
  1. <configuration><property><name>mapred.job.tracker</name><value>localhost:9001</value></property></configuration>
复制代码
然后进入hadoop/bin目录
执行 ./hadoop namenode -format

执行start-all.sh

启动完成
打开浏览器,输入http://localhost:50030
就可以看到如下界面

运行示例 bin/hadoop jar hadoop-mapred-examples-0.21.0.jar wordcount in out
得到输出结果,配置成功!

安装eclipse插件
插件的路径在0.21下有所更改,路径如下

将插件拷到eclipse pluglin目录下
重启eclipse
启动后多出一个目录
就可以使用eclipse进行编程了。


hadoop使用:hbase实战:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册!

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册!

本版积分规则

快速回复 返回顶部 返回列表