HDFS与YARN如何协同配置

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

编程语言

HDFS与YARN如何协同配置

热心网友时间：2026-04-25

转载

HDFS与YARN协同配置：让数据存储与资源管理无缝对接在Hadoop生态里，HDFS和YARN堪称黄金搭档，一个管数据存储，一个管资源调度。想让它们默契配合，高效运转，关键就在于正确的协同配置。下面这份配置指南，可以说是搭建稳定Hadoop集群的必经之路。 1 配置HDFS：打好数据地基 HD

HDFS与YARN协同配置：让数据存储与资源管理无缝对接

在Hadoop生态里，HDFS和YARN堪称黄金搭档，一个管数据存储，一个管资源调度。想让它们默契配合，高效运转，关键就在于正确的协同配置。下面这份配置指南，可以说是搭建稳定Hadoop集群的必经之路。

HDFS与YARN如何协同配置

HDFS是数据仓库，配置得当才能保证数据安全和高可用。

这个文件定义了Hadoop的核心属性，其中最关键的是告诉系统默认文件系统在哪。

fs.defaultFS：这是HDFS的“门牌号”，所有客户端都通过这个URI访问。通常设置为NameNode的主机名和端口。
```
  fs.defaultFS
  hdfs://namenode:8020
```

这里配置的是HDFS服务本身的详细参数，直接关系到数据可靠性和存储路径。

dfs.replication：数据块的副本数。设为3意味着每个数据块会在集群中存3份，这是兼顾可靠性与存储开销的常用值。
```
  dfs.replication
  3
```
dfs.namenode.name.dir：NameNode存储元数据（如文件目录树）的本地目录路径。务必确保这个目录所在磁盘可靠且空间充足。
```
  dfs.namenode.name.dir
  /path/to/namenode/data
```
dfs.datanode.data.dir：DataNode存储实际数据块的本地目录路径。可以配置多个目录，用逗号分隔，以利用多块磁盘。
```
  dfs.datanode.data.dir
  /path/to/datanode/data
```

YARN是集群的“大脑”，负责给各种计算任务分配CPU和内存。

YARN的核心配置都在这里，重点是定义资源管理器和节点管理器的行为。

yarn.resourcemanager.hostname：指定ResourceManager运行在哪台机器上。集群中的所有节点都需要知道这个地址。
```
  yarn.resourcemanager.hostname
  resourcemanager
```
yarn.nodemanager.aux-services：NodeManager需要提供的辅助服务。对于运行MapReduce任务而言，“mapreduce_shuffle”是必须的，它负责在Map和Reduce阶段之间传输数据。
```
  yarn.nodemanager.aux-services
  mapreduce_shuffle
```
yarn.nodemanager.resource.memory-mb：定义该NodeManager节点可以分配给容器的物理内存总量（单位MB）。这个值需要根据机器实际内存扣除系统和其他服务所需后谨慎设定。
```
  yarn.nodemanager.resource.memory-mb
  8192
```
yarn.nodemanager.resource.cpu-vcores：定义该NodeManager节点可分配给容器的虚拟CPU核心总数。同样，需要根据物理核心数合理规划。
```
  yarn.nodemanager.resource.cpu-vcores
  4
```

虽然YARN可以支持多种计算框架，但MapReduce依然是经典。要让MapReduce跑在YARN上，只需一个关键配置。

mapreduce.framework.name：这个参数必须设为“yarn”，告诉MapReduce作业使用YARN作为资源管理框架，而不是旧的本地或经典模式。
```
  mapreduce.framework.name
  yarn
```

配置完成后，就可以按顺序启动服务了。通常先启动存储层，再启动资源管理层。

在NameNode节点上执行以下命令，它会按顺序启动NameNode、DataNode和SecondaryNameNode。

start-dfs.sh

在ResourceManager节点上执行以下命令，启动ResourceManager和各个NodeManager。

start-yarn.sh

启动之后，千万别忘了验证服务是否真的正常。最直观的方法就是访问它们的Web管理界面。

打开浏览器，访问 http://resourcemanager:8088。如果能看到YARN的ResourceManager Web界面，上面显示着集群概况和节点列表，那就说明YARN启动成功了。
再访问 http://namenode:50070。这是HDFS的NameNode Web界面，在这里可以查看文件系统状态、数据节点存活情况等，是验证HDFS健康度的最佳窗口。