怎么保证从 HDFS 拷贝到 JuiceFS 的数据是正确的？

怎么保证从 HDFS 拷贝到 JuiceFS 的数据是正确的？

从 HDFS 迁移数据到 JuiceFS，一般是使用 DistCp 来拷贝数据，它支持数据校验 (Checksum) 来保证数据的正确性。

DistCp 是使用 HDFS 的 getFileChecksum() 接口来获得文件的校验码，然后对比拷贝后的文件的校验码来确保数据是一样的。

Hadoop 默认使用的 Checksum 算法是 MD5-MD5-CRC32, 严重依赖 HDFS 的实现细节。它是根据文件目前的分块形式，使用 MD5-CRC32 算法汇总每一个数据块的 Checksum（把每一个 64K 的 block 的 CRC32 校验码汇总，再算一个 MD5），然后再用 MD5 计算校验码。如果 HDFS 集群的分块大小不同，就没法用这个算法进行比较。

为了兼容 HDFS，JuiceFS 也实现了该 MD5-MD5-CRC32 算法，它会将文件的数据读一遍，用同样的算法计算得到一个 checksum，用于比较。

因为 JuiceFS 是基于对象存储实现的，后者已经通过多种 Checksum 机制保证了数据完整性，JuiceFS 默认没有启用上面的 Checksum 算法，需要通过参数 juicefs.file.checksum 来启用。

因为该算法依赖于相同的分块大小，需要通过参数 juicefs.block.size 将分块大小设置为跟 HDFS 一样（默认值是 dfs.blocksize，它的默认值是 128MB）。

另外， HDFS 里支持给每一个文件设置不同的分块大小，而 JuiceFS 不支持，如果启用 Checksum 校验的话会导致拷贝部分文件失败（因为分块大小不同），JuiceFS 的 SDK 对 DistCp 打了一个热补丁（需要 tools.jar）来跳过这些分块不同的文件（不做比较，而不是抛异常）。

在使用 DistCp 做增量拷贝时，默认只是通过文件的修改时间和大小来判断文件内容是否相同，这对于 HDFS 是足够的（因为 HDFS 不允许修改文件内容）。如果想进一步确保两边的数据是相同的，可以通过 -update 参数来启用 Checksum 比较。