概述
Hadoop 介绍
Hadoop 主要包含两个部分:
- HDFS,即 Hadoop Distributed File System,一个分布式的文件系统,为大量数据的存储提供了解决方案
- YARN,即 Yet Another Resource Negotiator,一个资源管理器,负责管理分配全局资源与任务生命周期内的所有事宜
基础环境
- 硬件 VMware Workstation 虚拟机, 4核CPU 6G RAM
- 操作系统: CentOS 7.4.1708
下载安装
环境搭建:
按照自己的喜好建立一个用户名,这里使用 hadoop 作为用户名
- 新建用户 hadoop 与用户组
建立新用户可以方便的进行权限管理并避免使用 root 用户带来的安全问题
|
|
建立用户后,以 hadoop 用户登录
- 配置 SSH 密钥免密码登录
|
|
配置完成后执行 ssh localhost
验证是否配置成功
- 下载配置 hadoop
从Hadoop官网下载 hadoop 压缩包之后解压
|
|
编辑几个配置文件:
etc/hadoop/core-site.xml
|
|
etc/hadoop/hdfs-site.xml:
这里添加 dfs.namenode.rpc-address
IP 为 0.0.0.0 以支持远程访问 HDFS
|
|
etc/hadoop/yarn-site.xml
|
|
etc/hadoop/maperd-site.xml
这里配置内存参数防止 oom
|
|
修改主机名
|
|
配置 hosts
如需在局域网内其他机器上访问,还需在其他机器上也配置 hosts
|
|
格式化 hdfs
···bash
./bin/hdfs namenode -format
···
启动 hdfs
|
|
启动 yarn
|
|
至此 hadoop 伪分布式已经搭建成功