进击大数据系列(四):Hadoop 架构基石分布式文件系统 HDFS

前面介绍了 Hadoop 基本概念与生态、安装(HDFS+YARN+MapReduce)实战操作、常用命令等相关的知识点,今天我将详细的为大家介绍 大数据 Hadoop 架构基石分布式文件系统 HDFS 相关知识。 HDFS...

前面介绍了 Hadoop 基本概念与生态安装(HDFS+YARN+MapReduce)实战操作常用命令等相关的知识点,今天我将详细的为大家介绍 大数据 Hadoop 架构基石分布式文件系统 HDFS 相关知识。

HDFS 产出背景及定义

HDFS 产生背景

随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统

HDFS 只是分布式文件管理系统中的一种。

attachments-2023-07-h8ZEXsa564bf79e3a7c51,png

HDFS 定义

HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

HDFS 的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

HDFS 优缺点

优点

高容错性

  • 数据自动保存多个副本。它通过增加副本的形式,提高容错性。

    attachments-2023-07-Y7oFpFhT64bf79f41d2e2,png

    某一个副本丢失以后,它可以自动恢复。

    attachments-2023-07-G7rTIO7e64bf79ff63eb3,png

    适合处理大数据
    • 数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据;
    • 文件规模:能够处理百万规模以上的文件数量,数量相当之大。
    可构建在廉价机器上,通过多副本机制,提高可靠性。

    缺点

    不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。无法高效的对大量小文件进行存储。
    • 存储大量小文件的话,它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的,因为NameNode的内存总是有限的;
    • 小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。
    不支持并发写入、文件随机修改。
    • 一个文件只能有一个写,不允许多个线程同时写;
    • 仅支持数据append(追加),不支持文件的随机修改。
    • attachments-2023-07-gt2EnATC64bf7a0b26457,png

    • HDFS 组成架构

      attachments-2023-07-KvE75LeH64bf7a19f2986,png

      NameNode(nn)

      就是Master,它是一个主管、管理者。

      • (1)管理HDFS的名称空间;
      • (2)配置副本策略;
      • (3)管理数据块(Block)映射信息;
      • (4)处理客户端读写请求。
      NameNode数据结构
      • NameNode负责管理分布式文件系统的Namespace命名空间,保存了两个核心数据结构:FsImage和EditLog
      • FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据;
      • 操作日志文件EditLog中记录了所有针对文件的创建、删除、重命名等操作;
      • attachments-2023-07-QQ6ZBv8564bf7a25c81b3,png

      NameNode 工作原理
        • 在名称节点启动的时候,它会将FsImage文件中的内容加载到内存中,之后再执行EditLog文件中的各项操作,使得内存中的元数据和实际的同步,存在内存中的元数据支持客户端的读操作。
        • 一旦在内存中成功建立文件系统元数据的映射,则创建一个新的FsImage文件和一个空的EditLog文件
        • 在名称节点运行期间,HDFS的所有更新操作都是直接写到EditLog中,久而久之, EditLog文件将会变得很大。当EditLog文件非常大的时候,会导致名称节点启动操作非常慢,而在这段时间内HDFS系统处于安全模式,一直无法对外提供写操作,影响了用户的使用。

      DataNode

      • 就是Slave。NameNode下达命令,DataNode执行实际的操作。

        • (1)存储实际的数据块;
        • (2)执行数据块的读/写操作。

      Client

      • 就是客户端

        • (1)文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行上传;
        • (2)与NameNode交互,获取文件的位置信息;
        • (3)与DataNode交互,读取或者写入数据;
        • (4)Client提供一些命令来管理HDFS,比如NameNode格式化;
        • (5)Client可以通过一些命令来访问HDFS,比如对HDFS增删查改操作;

      Secondary NameNode

      • 并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务。

        • (1)辅助NameNode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode ;
        • (2)在紧急情况下,可辅助恢复NameNode。
        • attachments-2023-07-qYxefiId64bf7a32cc342,png


HDFS 文件块大小

HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在Hadoop2.x/3.x版本中是128M,1.x版本中是64M。

attachments-2023-07-tCLFcd6b64bf7a3e39f75,png

思考:为什么块的大小不能设置太小,也不能设置太大?

  • HDFS的块设置太小,会增加寻址时间,程序一直在找块的开始位置;
  • 如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时,会非常慢。

总结:HDFS 块的大小设置主要取决于磁盘传输速率。

HDFS 读写操作详解

HDFS 写操作

  • 客户端写一个文件并不是直接写到HDFS上;
  • HDFS客户端接收用户数据,并把内容缓存在本地;
  • 当本地缓存收集足够一个HDFS块大小的时候,客户端同NameNode通讯注册一个新的块;
  • 注册块成功后,NameNode给客户端返回一个DataNode的列表; – 列表中是该块需要存放的位置,包括冗余备份
  • 客户端向列表中的第一个DataNode写入块; 当完成时,第一个DataNode 向列表中的下个DataNode发送写操作,并把数据已收到的确认信息给客户端,同时发送确认信息给NameNode 之后的DataNode重复之上的步骤。当列表中所有DataNode都接收到数据并且由最后一个DataNode校验数据正确性完成后,返回确认信息给客户端
  • 收到所有DN的确认信息后,客户端删除本地缓存;
  • 客户端继续发送下一个块,重复以上步骤;
  • 当所有数据发送完成后,写操作完成。
  • attachments-2023-07-D5Y0ypj764bf7a4a49884,png

    HDFS 读操作

    • 客户端与NameNode通讯获取文件的块位置信息,其中包括了块的所有冗余备份的位置信息:DataNode的列表;
    • 客户端获取文件位置信息后直接同有文件块的DataNode通讯,读取文件;
    • 如果第一个DataNode无法连接,客户端将自动联系下一个DataNode;
    • 如果块数据的校验值出错,则客户端需要向NameNode报告,并自动联系下一个DataNode。
    • attachments-2023-07-Wxev1zyk64bf7a5622945,png

      HDFS追加写操作

      • 客户端与NameNode通讯,获得文件的写保护锁及文件最后一个块的位置(DataNode列表)
      • 客户端挑选一个DataNode作为主写入节点,并对其余节点上的该数据块加锁
      • 开始写入数据。与普通写入流程类似,依次更新各个DataNode上的数据。更新时间戳和校验和
      • 最后一个块写满,并且所有备份块都完成写入后,向NameNode申请下一个数据块。

      HDFS 搭建(3.0.0 单机版)

      根据官网的说明,选择的是最新的文抵挡版本hadoop-3.3.0.tar.gz。

      免密登录

      举例A机器要免密登录B机器。则首先需要把A机器的公钥id_rsa.pub 传送给B机器,B机器将A机器的公钥内容放置本机的文件authorized_keys中。然后就可以在A机器上使用命令 “ssh 机器名”进行访问了。

      涉及到的命令如下:

      #hostname用于显示或者设置该主机的名字
      [root@cuiyaonan2000 soft] hostname 机器名字
       
      #生成本机的公钥与私钥
      [root@cuiyaonan2000 soft] ssh-keygen -t rsa
       
      #转移到公钥私钥目录
      [root@cuiyaonan2000 soft] cd ~/.ssh/
       
      #生成authorized_keys 文件用于存储公钥内容
      [root@cuiyaonan2000 soft] touch authorized_keys
       
      #修改权限
      [root@cuiyaonan2000 soft] chmod 600 authorized_keys
       
      #将其它主机的公钥内容 追加到authorized_keys 中
      [root@cuiyaonan2000 soft] cat id_rsa.pub >> authorized_keys

      提前的准备

      根据官网:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html 的要求我们可以看到起详细的需求。

      attachments-2023-07-gsvUi73E64bf7a96d3e16,png

      如下是为Hadoop配置环境变量,jdk就不包含在内了。

      #下载hadoop,建议使用迅雷下载,比较大有500m左右
      [root@cuiyaonan2000 soft] wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/stable/hadoop-3.3.0.tar.gz
       
      #解压hadoop
      [root@cuiyaonan2000 soft] tar -zxvf hadoop-3.3.0.tar.gz
       
      #编辑profile文件
      [root@cuiyaonan2000 soft] vi /etc/profile
       
      #增加如下的内容
      export HADOOP_HOME=/soft/hadoop/hadoop-3.3.0
      export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
      export HADOOP_MAPRED_HOME=$HADOOP_HOME
      export HADOOP_COMMON_HOME=$HADOOP_HOME
      export HADOOP_HDFS_HOME=$HADOOP_HOME
      export YARN_HOME=$HADOOP_HOME
      export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
      export HADOOP_OPTS="-DJava.library.path=$HADOOP_HOME/lib"
      export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH
       
      [root@cuiyaonan2000 soft] source /etc/profile
       
      #查看hadoop 是否配置成功
      [root@cuiyaonan2000 soft] hadoop version

      修改配置文件(这些配置文件全都在etc/hadoop 中)

      hadoop-env.sh

      进入目录:hadoop-3.3.0/etc/hadoop 修改 hadoop-env.sh 文件 ,增加内容 export JAVA_HOME=/soft/jdk/jdk1.8.0_271。

      core-site.xml

      进入目录:hadoop-3.3.0/etc/hadoop 修改 core-site.xml 文件,并在<configuration>中增加如下的内容。

      如下的hadoop.tmp.dir的配置要注意。

      <!--
      1.配置默认采用的文件系统。
      (由于存储层和运算层松耦合,要为它们指定使用hadoop原生的分布式文件系统hdfs。
      value填入的是uri,参数是 分布式集群中主节点的地址 : 指定端口号)
      2.其中localhost可以换成机器名称
       -->

      <property>
      <name>fs.defaultFS</name>
      <value>hdfs://localhost:9000/</value>
      </property>
       
      <!-- 
      配置hadoop的公共目录
      (指定hadoop进程运行中产生的数据存放的工作目录,NameNode、DataNode等就在本地工作目录下建子目录存放数据。但事实上在生产系统里,NameNode、DataNode等进程都应单独配置目录,而且配置的应该是磁盘挂载点,以方便挂载更多的磁盘扩展容量)
      -->

      <property>
      <name>hadoop.tmp.dir</name>
      <value>/soft/data_hadoop</value>
      </property>
      hdfs-site.xml
      ##设置文件拆分成blocks副本备份的数量
      <property>
      <name>dfs.replication</name>
      <value>2</value>
      </property>
       
        #设置NameNode数据存储目录
        <property>
          <name>dfs.namenode.name.dir</name>
          <value>file:/soft/namenode</value>
        </property>
       
       #设置DataNode数据存储目录
         <property>
          <name>dfs.datanode.data.dir</name>
          <value>file:/soft/datanode</value>
         </property>
       
       #这里在不加的话 hdfs的网站访问不了
         <property>
          <name>dfs.http.address</name>
          <value>0.0.0.0:50070</value>
         </property>
       
      #这里可以考虑取消写入权限限制否则只能通过命令hadoop fs -chmod 777 /soft/hadoop/warehouse/student 来增加针对某个目录的写权限
       
      <property>
             <name>dfs.permissions</name>
              <value>false</value>
         </property>
      mapred-site.xml
      <!--
      指定MapReduce程序应该放在哪个资源调度集群上运行。若不指定为yarn,那么MapReduce程序就只会在本地运行而非在整个集群中运行。
      -->

       
      <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
      </property>
      yarn-site.xml
      <!-- 1.指定yarn集群中的老大(就是本机) -->
      <property>
      <name>yarn.resourcemanager.hostname</name>
      <value>localhost</value>
      </property>
       
      <!-- 2.配置yarn集群中的重节点,指定map产生的中间结果传递给reduce采用的机制是shuffle
      -->

      <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
      </property>
       
      <!-- 这个就是配置yarn的管理界面 -->
      <property>
      <name>yarn.resourcemanager.webapp.address</name>
      <value>mzdapip:8088</value>
      <description>配置外网只需要替换外网ip为真实ip,否则默认为 localhost:8088</description>
      </property>

      启动Hadoop(命令都在sbin文件夹下)

      格式化HDFS中的数据(从命令上看是清除namenode上存储的数据)

      必须在启动的时候先执行namenode 的格式化。否则会有问题。

      [root@cuiyaonan2000 soft] hadoop namenode -format
      启动hdfs和yarn
      start-dfs.sh
      #启动dfs,对应的关闭是stop-dfs.sh   

      启动后可以访问管理界面:http://10.1.80.187:50070/dfshealth.html#tab-overview

      start-yarn.sh 
      #启动yarn,对应的关闭是stop-yarn.sh   

      启动后可以访问管理界面:http://10.1.80.187:8088/cluster

      yarn-daemon.sh start resourcemanager 
      #启动yarn管理节点
      yarn-daemon.sh start nodemanager
      #启动yarn运算节点
      start-all.sh 
      #一键全部启动

      如果遇到如下的问题

attachments-2023-07-1hRTV66164bf7ac82385e,png


对于start-dfs.sh和stop-dfs.sh文件,添加下列参数:

HDFS_DATANODE_USER=rootHADOOP_SECURE_DN_USER=hdfsHDFS_NAMENODE_USER=rootHDFS_SECONDARYNAMENODE_USER=root

对于start-yarn.sh和stop-yarn.sh文件,添加下列参数:

#!/usr/bin/env bashYARN_RESOURCEMANAGER_USER=rootHADOOP_SECURE_DN_USER=yarnYARN_NODEMANAGER_USER=root

成功启动dfs的进程截图如下所示:

attachments-2023-07-iy85sODx64bf7adc763bf,png

成功启动yarn的进程截图如下所示:

attachments-2023-07-ESPnrqaI64bf7aec161b0,png

HDFS 分布式集群(3.0.0 搭建)

修改配置文件(这些配置文件全都在etc/hadoop 中)

core-site.xml

<!--
1.配置默认采用的文件系统。
(由于存储层和运算层松耦合,要为它们指定使用hadoop原生的分布式文件系统hdfs。
value填入的是uri,参数是 分布式集群中主节点的地址 : 指定端口号)
2.其中localhost可以换成机器名称
 -->

<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000/</value>
</property>
 
<!-- 
配置hadoop的公共目录
(指定hadoop进程运行中产生的数据存放的工作目录,NameNode、DataNode等就在本地工作目录下建子目录存放数据。但事实上在生产系统里,NameNode、DataNode等进程都应单独配置目录,而且配置的应该是磁盘挂载点,以方便挂载更多的磁盘扩展容量)
-->

<property>
<name>hadoop.tmp.dir</name>
<value>/soft/data_hadoop</value>
</property>

hdfs-site.xm

这里就是将原来的内容进行增删,单机的话是同时存在 DataNode 和 NameNode 的.现在是多机。所以现在2者并不需要并存,那是否预示着如果存在dfs.datanode.data.dir就表示有datanode,没有就不会创建datanode????

<property>
    <!-- 主节点地址 -->
    <name>dfs.namenode.http-address</name>
    <value>mzdapip:50070</value>
</property>
 
##设置文件拆分成blocks副本备份的数量
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
 
  #设置NameNode数据存储目录
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/soft/namenode</value>
  </property>
 
 #设置DataNode数据存储目录
   <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/soft/datanode</value>
   </property>
 
 #这里在不加的话 hdfs的网站访问不了
   <property>
    <name>dfs.http.address</name>
    <value>0.0.0.0:50070</value>
   </property>

mapred-site.xml----注意这里增加主机的指向

<!--
指定MapReduce程序应该放在哪个资源调度集群上运行。若不指定为yarn,那么MapReduce程序就只会在本地运行而非在整个集群中运行。
-->

 
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
 
<property>
 <name>mapred.job.tracker</name>
    <value>mzdapip:54311</value>
</property>
 
<property>
          <name>mapreduce.jobhistory.address</name>
          <value>mzdapip:10020</value>
  </property>
 
  <property>
          <name>mapreduce.jobhistory.address</name>
          <value>mzdapip:19888</value>
</property>

yarn-site.xml

#指定yarn的ResourceManager管理界面的地址,不配的话,Active Node始终为0 
#这里必须添加
<property>
     <name>yarn.resourcemanager.hostname</name> 
     <value>mzdapip</value>
</property>
 
<!-- 2.配置yarn集群中的重节点,指定map产生的中间结果传递给reduce采用的机制是shuffle
-->

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
 
<!-- 这个就是配置yarn的管理界面 -->
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>mzdapip:8088</value>
<description>配置外网只需要替换外网ip为真实ip,否则默认为 localhost:8088</description>
</property>

workers

从主节点上启动,会去启动这里面包含的子节点。这里增加工作节点的ip或者机器名,如:

attachments-2023-07-wU15gCS864bf7b2148ee9,png

并且主节点上只会启动如下的服务:

attachments-2023-07-xUzqDifJ64bf7b3b1b526,png

子节点上启动的服务如下所示:只有DataNode,NodeManager

attachments-2023-07-luBVkX0m64bf7b5f2aa12,png

启动

无论有多少台服务器,他们的hadoop存放的绝对路径必须一致,否则不能从主节点上去启动其它的服务。

HDFS 命令行

cat

  • 用途:显示一个或多个文件内容到控制台
  • 使用方法:hadoop fs -cat URI [URI …]
  • 例子:
− hadoop fs -cat hdfs://host1:port1/file1
hdfs://host2:port2/file2 
− hadoop fs -cat file:///file3
/user/hadoop/file4

put/copyFromLocal

  • 用途:将本地一个或多个文件导入HDFS。以上两个命令唯一的不同时copyFromLocal的源只能是本地文件,而put可以读取stdin的数据
  • 使用方法:hadoop fs -put/copyFromLocal UR
  • 例子:
− hadoop fs -put localfile.txt /user/hadoop/hadoopfile.txt 
− hadoop fs -put localfile1 localfile2 /user/hadoop/hadoopdir 
− hadoop fs -put localfile hdfs://host:port/hadoop

get/copyToLocal

  • 用途:将HDFS中的一个或多个文件导出到本地文件系统
  • 使用方法: hadoop fs -get/copyToLocal [-ignorecrc] [-crc] URI < localsrc>
  • 例子:
− hadoop fs -get /user/hadoop/hadoopfile localfile 
− hadoop fs -get hdfs://host:port/user/hadoop/file localfile

ls

  • 用途:列出文件夹目录信息,lsr 递归显示文件
  • 使用方法: hadoop fs -ls/lsr -h UR

fsck

  • 用途:检查dfs的文件的健康状况; 只能运行在 master 上
  • 使用方法:hadoop fsck [GENERIC_OPTIONS] [- move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]



  • 发表于 2023-07-25 15:22
  • 阅读 ( 465 )

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
每天惠23
每天惠23

33 篇文章

作家榜 »

  1. shitian 662 文章
  2. 石天 437 文章
  3. 每天惠23 33 文章
  4. 小A 29 文章