1. 默认配置文件: 存放于Hadoop对应的jar包中
core-default.xml
hdfs-default.xml
yarn-default.xml
mapred-default.xml
2. 自定义配置文件: $HADOOP_HOME/etc/hadoop
core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml
2.1 core-site.xml
fs.defaultFS hdfs://localhost:9000 hadoop.tmp.dir /(自定义路径)/hadoop-2.8.5/data/tmp
2.2 hadoop-env.sh
export JAVA_HOME=服务器java环境变量
2.3 hdfs-site.xml
dfs.replication 1 dfs.namenode.rpc-bind-host 0.0.0.0
2.4 yarn-site.xml
yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.hostname 0.0.0.0 yarn.resourcemanager.webapp.address ${yarn.resourcemanager.hostname}:8090 yarn.log-aggregation-enable true yarn.log-aggregation.retain-seconds 604800
2.5 yarn-env.sh
配置
export JAVA_HOME=服务器java环境变量
2.6 mapred-site.xml
mapreduce.framework.name yarn mapreduce.jobhistory.address localhost:10020 mapreduce.jobhistory.webapp.address 0.0.0.0:8091
2.7 mapred-env.sh
配置
export JAVA_HOME=服务器java环境变量
3. Hadoop 集群配置
3.1 节点内容预览
HDFS | NameNodeDataNode | DataNode | SecondaryNameNodeDataNode |
YARN | NodeManager | ResourceManagerNodeManager | NodeManager |
3.2 core-site.xml
配置
fs.defaultFS hdfs://节点1:9000 hadoop.tmp.dir /(自定义路径)/hadoop-2.8.5/data/tmp
3.3 hadoop-env.sh
配置
export JAVA_HOME=服务器java环境变量
3.4 hdfs-site.xml
配置
dfs.replication 3 dfs.namenode.secondary.http-address 节点3主机名称:端口号
3.5 yarn-env.sh
配置
export JAVA_HOME=服务器java环境变量
3.6 yarn-site.xml
配置
yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.hostname 节点2 yarn.resourcemanager.webapp.address ${yarn.resourcemanager.hostname}:8090 yarn.log-aggregation-enable true yarn.log-aggregation.retain-seconds 604800
3.7 mapred-env.sh
配置
export JAVA_HOME=服务器java环境变量
3.8 mapred-site.xml
配置
mapreduce.framework.name yarn
3.9 slaves
配置
节点1节点2节点3
4. 常用命令
bin/hdfs namenode -format
: 格式化命令;执行命令前,需要将单节点(或集群)中的/data
,/logs
目录删除。 bin/hdfs dfs -put 待上传文件 上传的目的地
:将本地文件上传至hdfs中。 sbin/hadoop-daemon.sh start(stop) namenode
: 启动(或停止)单节点NameNode。 sbin/hadoop-daemon.sh start(stop) datanode
: 启动(或停止)单节点DataNode。 sbin/yarn-daemon.sh start(stop) resourcemanager
: 启动(或停止)单节点ResourceManager。 sbin/yarn-daemon.sh start(stop) nodemanager
: 启动(或停止)单节点NodeManager。 sbin/mr-jobhistory-daemon.sh start(stop) historyserver
: 启动(或停止)单节点History记录。 sbin/start-dfs.sh
: 启动HDFS集群(注意:所有节点均已配置"Hadoop目录/etc/hadoop/slaves")。 sbin/start-yarn.sh
: 启动YARN集群(注意:所有节点均已配置"Hadoop目录/etc/hadoop/slaves"; 另外,需要在ResourceManager服务器启动)。 sbin/stop-dfs.sh
: 停止HDFS集群。 sbin/stop-yarn.sh
: 停止YARN集群。
5. 集群时间同步
- 时间同步的方式:找一个机器, 作为时间服务器,所有机器与这台集群时间进行定时的同步;
- 检查
ntp
是否安装rpm -qa|grep ntp
; - 修改
ntp
配置文件/etc/ntp.conf
; - 修改
/etc/sysconfig/ntpd
文件; - 重启
ntpd
服务; - 设置
ntpd
服务开机启动;
参考资料: