设为首页收藏本站

小牛社区-大数据学习交流社区|大数据免费学习资源

 找回密码
 立即注册!

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 42|回复: 0

Hadoop学习笔记之基本环境搭建(本地模式及伪分布模式) ...

[复制链接]

135

主题

0

帖子

4

积分

吃土小白

Rank: 1

积分
4
发表于 7 天前 | 显示全部楼层 |阅读模式
声明:本文参考:史上最详细的Hadoop环境搭建、Hadoop(二)搭建伪分布式集群这两篇文章
前段时间和大家分享了一些zookeeper的学习笔记,今天开始要和大家分享一下hadoop的知识。我也是在学习,希望大家一起进步。
还是来简单看一下hadoop的介绍:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。(来自百度百科)
接下来进行hadoop基本环境的搭建,本文先介绍单机模式和伪分布模式的搭建,本文使用的基本环境:vmware12.5.6+centos7+jdk1.8+hadoop2.8.1
一、单机模式(本地模式)

  • 本地模式是最简单的模式,所有模块都运行与一个JVM进程中,使用的本地文件系统,而不是HDFS,本地模式主要是用于本地开发过程中的运行调试用。下载hadoop安装包后不用任何设置,默认的就是本地模式。

  • 前期准备,学习环境,为了减少不必要的问题,暂时先把防火墙关闭,关闭selinux


2.安装jdk,前面文章已经介绍过,在此就不多赘述
3.下载hadoop安装包,这里我们使用wget在线下载:wget http://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.8.1/hadoop-2.8.1.tar.gz

3.解压缩:tar -zxvf hadoop-1.2.1.tar.gz
4.至此,其实本地环境就已经搭建完成了,下面我们运行hadoop自带的wordcount例子来在本地模式下测试跑mapreduce。
5.准备mapreduce输入文件


6.运行hadoop自带的mapreduce Demo,执行: bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.1.jar wordcount /opt/data/wordcount.input output,结果分析以后讨论


二、伪分布环境搭建


  • 伪分布模式介绍:Hadoop的守护进程运行在本机机器,模拟一个小规模的集群;在一台主机模拟多主机;Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行,是相互独立的Java进程;在这种模式下,Hadoop使用的是分布式文件系统,各个作业也是由JobTraker服务,来管理的独立进程。在单机模式之上增加了代码调试功能,允许检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。类似于完全分布式模式,因此,这种模式常用来开发测试Hadoop程序的执行是否正确。
  • 解压缩hadoop安装包
3.配置环境变量: vi /etc/profile,配置完成之后重新引用:source /etc/profile

4.测试配置是否成功:hadoop version

5.配置hadoop: cd ${HADOOP_HOME}/etc/hadoop






6.创建相关目录
mkdir -p /data/hadoop/hdfs/nn
mkdir -p /data/hadoop/hdfs/dn
mkdir -p /data/hadoop/hdfs/snn
mkdir -p /data/hadoop/yarn/nm
7.格式化HDFS分布式文件系统:hadoop namenode -format

8.启动,使用jps查看是否启动成功
hadoop-daemon.sh start namenode 启动主节点
hadoop-daemon.sh start datanode 启动从节点
yarn-daemon.sh start resourcemanager
yarn-daemon.sh start nodemanager
mr-jobhistory-daemon.sh start historyserver 启动作业历史服务器

9.访问web监控页面:
HDFS:http://ip:50070
YARN:http://ip:8088

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册!

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册!

本版积分规则

快速回复 返回顶部 返回列表