一、集群规划
实验基础环境需要四台节点(一台主节点,三台从节点),所以需要提前规划好虚拟机的主机名、IP地址、节点类型、用户名、密码等相关信息
二、伪分布式->完全分布式搭建修改
修改workers文件
打开Hadoop的workers配置文件,路径为/opt/hadoop/etc/hadoop/workers。确保文件中仅包含从节点(slave)的主机名,删除master或localhost(若存在)。添加以下内容:
master slave1 slave2 slave3配置主机名与IP映射
hosts文件配置的是主机名与IP地址的映射。配置主机名与IP地址的映射即可通过主机名对各主机进行访问,简化访问操作。
vim /etc/hosts添加节点主机名及IP地址如下
192.168.128.131 slave1 192.168.128.132 slave2 192.168.128.133 slave3三、克隆虚拟机
准备要克隆的虚拟机
克隆虚拟机向导
克隆源选择虚拟机当前状态
重复以上操作,只需要在第5步设置虚拟机名称和存储位置的时候进行对应修改, 分别再克隆slave1、slave2、slave3三台虚拟机。
四、修改从节点IP地址并重启网络服务
修改Slave节点IP地址
Slave1配置
编辑网络配置文件:vi /etc/sysconfig/network-scripts/ifcfg-ens33
修改以下参数:
IPADDR=192.168.128.131保存后重启网络服务:service network restart
Slave2配置
编辑网络配置文件:vi /etc/sysconfig/network-scripts/ifcfg-ens33
修改以下参数:
IPADDR=192.168.128.132保存后重启网络服务:service network restart
Slave3配置
编辑网络配置文件:vi /etc/sysconfig/network-scripts/ifcfg-ens33
修改以下参数:
IPADDR=192.168.128.133保存后重启网络服务:service network restart
五、修改各自节点主机名
修改节点主机名并验证
slave1节点操作
执行命令修改主机名为slave1: hostnamectl set-hostname slave1 重启虚拟机使更改生效: reboot
验证修改是否成功:hostname或cat /etc/hostname
slave2节点操作
执行命令修改主机名为slave2: hostnamectl set-hostname slave2 重启虚拟机使更改生效: reboot
验证命令同上
slave3节点操作
执行命令修改主机名为slave3: hostnamectl set-hostname slave3 重启虚拟机使更改生效: reboot
验证命令同上
六、Hadoop启动
只需要在master节点执行启动
将 NameNode 上的数据清零,第一次启动 HDFS 时要进行格式化,以后启动无需再格式化,否则会缺失 DataNode 进程。另外,只要运行过 HDFS,Hadoop 的工作目录(/opt/hadoop/tmp)就会有数据,如果需要重新格式化,则在格式化之前一定要先删除工作目录下的数据,否则格式化时会出问题
hdfs namenode -format启动HDFS,第一次启动过程中需要输入yes
start-dfs.sh启动yarn
start-yarn.sh七、集群测试
查看进程数
正常启动集群后,分别使用在三台虚拟机上执行jps,查看服务进程,master有6个进程,slave1和slave2都是三个进程
Web UI查看
访问HDFS的web界面,master主机IP地址:9870
访问MapReduce执行任务情况Web界面,master主机IP地址:8088