1. 如何使用自定义版本或与集群安装版本不一致的框架执行作业?

在XLearning客户端提交作业时,可通过—file—cacheFile—cacheArchive指定框架对应版本、依赖库等文件,并根据需求在运行脚本中指定PYTHONPATH环境变量,如export PYTHONPATH=./:$PYTHONPATH。用户可以此来使用自己所需的框架版本或依赖库,而不受限于计算机器所提供的依赖环境。例如,若集群未事先装有tensorflow模块,可利用cacheArchive参数特性进行配置,方法如下:

  • 进入本地tensorflow模块安装所在的目录,如:/usr/lib/python2.7/site-packages/tensorflow/
  • 将路径内的所有文件记性打包,如:tar -zcvf tensorflow.tgz ./*
  • 上传该压缩包至hdfs,如放置在hdfs的/tmp/tensorflow.tgz
  • xlearning提交脚本中,添加cacheArchive参数,如: —cacheArchive /tmp/tensorflow.tgz#tensorflow
  • 在launch-cmd中所执行的脚本中,添加环境变量设置:export PYTHONPATH=./:$PYTHONPATH