首页技术文章正文

Hadoop中的Sequence File文件是什么?【大数据面试题】

更新时间:2021-03-11 来源:黑马程序员 浏览量:

1577370495235_学IT就到黑马程序员.gif


问题分析

Hadoop可以存储多种文件格式。Sequence File这个格式需要知道。

核心答案讲解

1.sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。

2.可以把SequenceFile当做是一个容器,把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。

3.SequenceFile文件并不按照其存储的Key进行排序存储,SequenceFile的内部类Writer提供了append功能。SequenceFile中的Key和Value可以是任意类型Writable或者是自定义Writable。

4.在存储结构上,SequenceFile主要由一个Header后跟多条Record组成,Header主要包含了Key classname,value classname,存储压缩算法,用户自定义元数据等信息,此外,还包含了一些同步标识,用于快速定位到记录的边界。每条Record以键值对的方式进行存储,用来表示它的字符数组可以一次解析成:记录的长度、Key的长度、Key值和value值,并且Value值的结构取决于该记录是否被压缩。

问题扩展

HDFS文件存储格式


1.TEXTFILE

Hive数据表的默认格式,存储方式:行存储。可以使用Gzip压缩算法,但压缩后的文件不支持split。在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此反序列化开销会比SequenceFile高几十倍。

2.SEQUENCEFILE

压缩数据文件可以节省磁盘空间,但Hadoop中有些原生压缩文件的缺点之一就是不支持分割。支持分割的文件可以并行的有多个mapper程序处理大数据文件,大多数文件不支持可分割是因为这些文件只能从头开始读。Sequence File是可分割的文件格式,支持Hadoop的block级压缩。
Hadoop API提供的一种二进制文件,以key-value的形式序列化到文件中。存储方式:行存储。
sequencefile支持三种压缩选择:NONE,RECORD,BLOCK。Record压缩率低,RECORD是默认选项,通常BLOCK会带来较RECORD更好的压缩性能。
优势是文件和hadoop api中的MapFile是相互兼容的。

3.RCFILE

存储方式:数据按行分块,每块按列存储。结合了行存储和列存储的优点,RCFile 保证同一行的数据位于同一节点,因此元组重构的开销很低,像列存储一样,RCFile 能够利用列维度的数据压缩,并且能跳过不必要的列读取。
数据追加:RCFile不支持任意方式的数据写操作,仅提供一种追加接口,这是因为底层的 HDFS当前仅仅支持数据追加写文件尾部。
行组大小:行组变大有助于提高数据压缩的效率,但是可能会损害数据的读取性能,因为这样增加了 Lazy 解压性能的消耗。而且行组变大会占用更多的内存,这会影响并发执行的其他MR作业。 考虑到存储空间和查询效率两个方面,Facebook 选择 4MB 作为默认的行组大小,当然也允许用户自行选择参数进行配置。

4.ORCFILE

存储方式:数据按行分块,每块按照列存储。压缩快,快速列存取。效率比rcfile高,是rcfile的改良版本。

结合项目中使用

SequenceFile压缩率最低,查询速度一般。项目中存储小的二进制文件,用Sequence File这个格式。


猜你喜欢:

Hadoop生态体系有哪些子系统?

Hadoop实现join的几种方法【大数据开发面试】

Hadoop格式化文件需要执行哪些操作?

黑马程序员大数据开发培训

分享到:
在线咨询 我要报名
和我们在线交谈!