OSS Filesystem

这个页面描述了如何让你的Hudi spark任务使用Aliyun OSS存储。

Aliyun OSS 部署

为了让Hudi使用OSS,需要增加两部分的配置:

  • 为Hidi增加Aliyun OSS的相关配置
  • 增加Jar包的MVN依赖

Aliyun OSS 相关的配置

新增下面的配置到你的Hudi能访问的core-site.xml文件。使用你的OSS bucket name替换掉fs.defaultFS,使用OSS endpoint地址替换fs.oss.endpoint,使用OSS的key和secret分别替换fs.oss.accessKeyIdfs.oss.accessKeySecret。主要Hudi就能读写相应的bucket。

  1. <property>
  2. <name>fs.defaultFS</name>
  3. <value>oss://bucketname/</value>
  4. </property>
  5. <property>
  6. <name>fs.oss.endpoint</name>
  7. <value>oss-endpoint-address</value>
  8. <description>Aliyun OSS endpoint to connect to.</description>
  9. </property>
  10. <property>
  11. <name>fs.oss.accessKeyId</name>
  12. <value>oss_key</value>
  13. <description>Aliyun access key ID</description>
  14. </property>
  15. <property>
  16. <name>fs.oss.accessKeySecret</name>
  17. <value>oss-secret</value>
  18. <description>Aliyun access key secret</description>
  19. </property>
  20. <property>
  21. <name>fs.oss.impl</name>
  22. <value>org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem</value>
  23. </property>

Aliyun OSS Libs

新增Aliyun hadoop的jar包的MVN依赖到pom.xml文件。由于hadoop-aliyun依赖hadoop 2.9.1+,因此你需要使用hadoop 2.9.1或更新的版本。

  1. <dependency>
  2. <groupId>org.apache.hadoop</groupId>
  3. <artifactId>hadoop-aliyun</artifactId>
  4. <version>3.2.1</version>
  5. </dependency>
  6. <dependency>
  7. <groupId>com.aliyun.oss</groupId>
  8. <artifactId>aliyun-sdk-oss</artifactId>
  9. <version>3.8.1</version>
  10. </dependency>
  11. <dependency>
  12. <groupId>org.jdom</groupId>
  13. <artifactId>jdom</artifactId>
  14. <version>1.1</version>
  15. </dependency>