HDFS是什么?HDFS的组成

更新时间:2021-04-15 来源:黑马程序员浏览量:

1577370495235_学IT就到黑马程序员.gif

HDFS( Hadoop Distributed File System)是一个易于扩展的分布式文件系统，运行在网百上千台低成本的机器上。它与现有的分布式文件系统有许多相似之处，都是用来存值据的系统工具，而区别在于HDFS具有高度容错能力,旨在部署在低成本机器上。HDFS提供对应用程序数据的高吞吐量访问，主要用于对海量文件信息进行存储和管理，也就是解决大数据文件(如TB乃至PB级)的存储问题。

HDFS的组成部分

1、 NameNode(名称节点)

NameNode是HDFS集群的主服务器，通常称为名称节点或者主节点。一但NameNode关闭，就无法访问Hadoop集群。NameNode主要以元数据的形式进行管理和存储，用于维护文件系统名称并管理客户端对文件的访问;NameNode记录对文件系统名称空间或其属性的任何更改操作;HDFS负责整个数据集群的管理，并且在配置文件中可以设置备份数量，这些信息都由NameNode存储。

2、DataNode(数据节点)

DataNode是HDFS集群中的从服务器，通常称为数据节点。文件系统存储文件的方式是将文件切分成多个数据块，这些数据块实际上是存储在DataNode节点中的，因此DataNode机器需要配置大量磁盘空间。它与NameNode保持不断的通信，DataNode在客户端或者NameNode的调度下，存储并检索数据块，对数据块进行创建、删除等操作，并且定期向NameNode发送所存储的数据块列表，每当DataNode启动时，它将负责把持有的数据块列表发送到NameNode机器中。

3、Block( 数据块)

每个磁盘都有默认的数据块大小，这是磁盘进行数据读/写的最小单位，HDFS同样也有块(block)的概念,它是抽象的块，而非整个文件作为存储单元，在Hadoop2. x版本中，默认大小是128M，且备份3份，每个块尽可能地存储于不同的DataNode中。按块存储的好处主要是屏蔽了文件的大小(在这种情况下，可以将一个文件分成N个数据块，存储到各个磁盘，就简化了存储系统的设计。为了数据的安全，必须要进行备份，而数据块非常适合数

据的备份)，提供数据的容错性和可用性。

4. Rack(机架)

Rack是用来存放部署Hadoop集群服务器的机架，不同机架之间的节点通过交换机通信,HDFS通过机架感知策略，使NameNode能够确定每个DataNode所属的机架ID，使用副本存放策略,来改进数据的可靠性、可用性和网络带宽的利用率。

5. Metadata(元数据)

元数据从类型上可分为三种信息形式，一是维护HDFS中文件和目录的信息，如文件名、目录名、父目录信息、文件大小、创建时间、修改时间等;二是记录文件内容,存储相关信息，如文件分块情况、副本个数、每个副本所在的DataNode信息等;三是用来记录HDFS中所有DataNode的信息，用于DataNode管理。

小提示：具体文件内容不是元数据，元数据是用于描述和组织具体的文件内容，如果没有元数据，具体的文件内容将变得没有意义。元数据的作用十分重要，它们的可用性直接决定了HDFS的可用性。

原文：HDFS是什么?有什么作用?

猜你喜欢：

零基础入门必看，大数据 Hadoop 3.0教程

Hadoop有几种运行模式？各种模式都有哪些特性？

HDFS读数据和写数据的原理分别是什么？

HDFS分布式文件系统的优点缺点有哪些？

黑马程序员大数据培训课程