Hadoop - 小文件问题的解决方案1（SequeceFile、MapFile文件的读写）

作者：hangge | 2024-08-14 08:38

1，小文件问题说明

（1）Hadoop 的 HDFS 和 MapReduce 都是针对大数据文件来设计的，在小文件的处理上不但效率低下，而且十分消耗内存资源。

针对 HDFS 而言，每一个小文件在 namenode 中都会占用 150 字节的内存空间，最终会导致集群中虽然存储了很多个文件，但是文件的体积并不大，这样就没有意义了。

（2）针对 MapReduce 而言，每一个小文件都是一个 Block，都会产生一个 InputSplit。最终每一个小文件都会产生一个 map 任务，这样会导致同时启动太多的 Map 任务。Map 任务的启动是非常消耗性能的，但是启动后执行了很短时间就又停止了，因为小文件的数据量太小了，这样就会造成任务执行消耗的时间还没有启动任务消耗的时间多，这样也会影响 MapReduce 执行的效率。

（3）解决办法通常是选择一个容器，将这些小文件组织起来统一存储，HDFS 提供了两种类型的容器，分别是SequenceFile 和 MapFile。

2，SequenceFile 的介绍与使用

（1）SequeceFile 是 Hadoop 提供的一种二进制文件，这种二进制文件直接将 <key, value> 对序列化到文件中。

一般对小文件可以使用这种文件合并，即将小文件的文件名作为 key，文件内容作为 value 序列化到大文件中。
但是这个文件有一个缺点，就是它需要一个合并文件的过程，最终合并的文件会比较大，并且合并后的文件查看起来不方便，必须通过遍历才能查看里面的每一个小文件。
所以这个 SequenceFile 其实可以理解为把很多小文件压缩成一个大的压缩包了。

（2）下面代码演示如何将本地指定目录下的所有文件生成为一个 SequenceFile 文件到 HDFS 上，并且再从这个 SequenceFile 文件中读取内容：

public class SmallFileSeq {

  public static void main(String[] args) throws Exception{
    //指定用户
    System.setProperty("HADOOP_USER_NAME", "root");
    //生成SequenceFile文件
    System.out.println("---- 开始生成SequenceFile文件 ----");
    write("/Volumes/BOOTCAMP/test","/seqFile");
    //读取SequenceFile文件
    System.out.println("---- 开始读取SequenceFile文件 ----");
    read("/seqFile");
  }

  /**
   * 生成SequenceFile文件
   * @param inputDir 输入目录-windows目录
   * @param outputFile 输出文件-hdfs文件
   * @throws Exception
   */
  private static void write(String inputDir,String outputFile)
          throws Exception{
    //创建一个配置对象
    Configuration conf = new Configuration();
    //指定HDFS的地址
    conf.set("fs.defaultFS", "hdfs://192.168.60.9:9000");
    SequenceFile.Writer.Option[] opts = new SequenceFile.Writer.Option[]{
            SequenceFile.Writer.file(new Path(outputFile)),
            SequenceFile.Writer.keyClass(Text.class),
            SequenceFile.Writer.valueClass(Text.class)};

    //创建一个writer实例
    SequenceFile.Writer writer = SequenceFile.createWriter(conf, opts);
    //指定要压缩的文件的目录
    File inputDirPath = new File(inputDir);
    if(inputDirPath.isDirectory()){
      File[] files = inputDirPath.listFiles();
      for (File file : files) {
        //获取文件全部内容
        String content = FileUtils.readFileToString(file, "UTF-8");
        //文件名作为key
        Text key = new Text(file.getName());
        //文件内容作为value
        Text value = new Text(content);
        writer.append(key,value);
      }
    }
    writer.close();
  }

  /**
   * 读取SequenceFile文件
   * @param inputFile SequenceFile文件路径
   * @throws Exception
   */
  private static void read(String inputFile)
          throws Exception{
    //创建一个配置对象
    Configuration conf = new Configuration();
    //指定HDFS的地址
    conf.set("fs.defaultFS","hdfs://192.168.60.9:9000");
    //创建阅读器
    SequenceFile.Reader reader = new SequenceFile.Reader(conf,
            SequenceFile.Reader.file(new Path(inputFile)));
    Text key = new Text();
    Text value = new Text();
    //循环读取数据
    while(reader.next(key,value)){
      //输出文件名称
      System.out.print("文件名:"+key.toString()+",");
      //输出文件的内容
      System.out.println("文件内容:\n"+value.toString());
    }
    reader.close();
  }
}

（3）测试一下，假设我们本地目录有如下三个文件：

上面代码运行后可以看到 HDFS 上已经成功生成 SequenceFile 文件：

同时查看控制台日志，可以发现从这个 SequenceFile 文件中读取内容也是成功的：

3，MapFile 的介绍和使用

（1）MapFile 是排序后的 SequenceFile，MapFile 由两部分组成，分别是 index 和 data。

index 作为文件的数据索引，主要记录了每个 Record 的 key 值，以及该 Record 在文件中的偏移位置。
在 MapFile 被访问的时候,索引文件会被加载到内存，通过索引映射关系可迅速定位到指定 Record 所在文件位置。
因此，相对 SequenceFile 而言，MapFile 的检索效率是高效的，缺点是会消耗一部分内存来存储 index 数据。

（2）下面代码演示如何将本地指定目录下的所有文件生成为 MapFile 文件到 HDFS 上，并且再从这个 MapFile 文件中读取内容：

/**
 * 小文件解决方案之MapFile
 */
public class SmallFileMap {

  public static void main(String[] args) throws Exception{
    //指定用户
    System.setProperty("HADOOP_USER_NAME", "root");
    //生成MapFile文件
    System.out.println("---- 开始生成MapFile文件 ----");
    write("/Volumes/BOOTCAMP/test","/mapFile");
    //读取MapFile文件
    System.out.println("---- 开始读取MapFile文件 ----");
    read("/mapFile");
  }

  /**
   * 生成MapFile文件
   * @param inputDir 输入目录-windows目录
   * @param outputDir 输出目录-hdfs目录
   * @throws Exception
   */
  private static void write(String inputDir,String outputDir)
          throws Exception{
    //创建一个配置对象
    Configuration conf = new Configuration();
    //指定HDFS的地址
    conf.set("fs.defaultFS","hdfs://192.168.60.9:9000");

    //构造opts数组，有两个元素（第一个是key类型、第二个是value类型）
    SequenceFile.Writer.Option[] opts = new SequenceFile.Writer.Option[]{
            MapFile.Writer.keyClass(Text.class),
            MapFile.Writer.valueClass(Text.class)};

    //创建一个writer实例
    MapFile.Writer writer = new MapFile.Writer(conf,new Path(outputDir),opts);
    //指定要压缩的文件的目录
    File inputDirPath = new File(inputDir);
    if(inputDirPath.isDirectory()){
      //获取目录中的文件
      File[] files = inputDirPath.listFiles();
      //对获取到的文件进行排序[如果文件默认无序的情况下，需要先进行排序]
      List<File> fileList = Arrays.asList(files);
      Collections.sort(fileList, new Comparator<File>() {
        @Override
        public int compare(File f1, File f2) {
          return f1.getName().compareTo(f2.getName());
        }
      });
      for (File file : fileList) {
        //获取文件全部内容
        String content = FileUtils.readFileToString(file, "UTF-8");
        //文件名作为key
        Text key = new Text(file.getName());
        //文件内容作为value
        Text value = new Text(content);
        writer.append(key,value);
      }
    }
    writer.close();
  }

  /**
   * 读取MapFile文件
   * @param inputDir MapFile文件路径
   * @throws Exception
   */
  private static void read(String inputDir)
          throws Exception{
    //创建一个配置对象
    Configuration conf = new Configuration();
    //指定HDFS的地址
    conf.set("fs.defaultFS","hdfs://192.168.60.9:9000");
    //创建阅读器
    MapFile.Reader reader = new MapFile.Reader(new Path(inputDir),conf);
    Text key = new Text();
    Text value = new Text();
    //循环读取数据
    while(reader.next(key,value)){
      //输出文件名称
      System.out.print("文件名:"+key.toString()+",");
      //输出文件的内容
      System.out.println("文件内容:"+value.toString());
    }
    reader.close();
  }
}

（3）测试一下，假设我们本地目录有如下三个文件：

上面代码运行后可以看到在 HDFS 上会产生一个 /mapFile 目录，这个目录里面有两个文件，一个 index 索引文件，一个 data 数据文件：

同时查看控制台日志，可以发现从这个 MapFile 文件中读取内容也是成功的：

Hadoop - 小文件问题的解决方案1（SequeceFile、MapFile文件的读写）

1，小文件问题说明

2，SequenceFile 的介绍与使用

3，MapFile 的介绍和使用

全部评论（0）