异常诊断与调试

异常诊断与调试

本页面主要是关于Alluxio使用过程中的一些指导和提示，方便用户能够更快的解决使用过程遇到的问题。

注意: 本页面的定位并不是指导解决Alluxio使用过程中遇到的所有问题。用户可随时向Alluxio邮件列表或其镜像提交问题。

Alluxio日志地址

Alluxio运行过程中可产生master、worker和client日志，这些日志存储在{ALLUXIO_HOME}/logs文件夹中，日志名称分别为 master.log,master.out, worker.log, worker.out 和user_${USER}.log。其中log后缀的文件是log4j生成的，out后缀的文件是标准输出流和标准错误流重定向的文件。

master和worker日志对于理解Alluxio master节点和worker节点的运行过程是非常有帮助的，当Alluxio运行出现问题时，可以查阅日志发现问题产生原因。如果不清楚错误日志信息，可在邮件列表查找，错误日志信息有可能之前已经讨论过。

Alluxio远程调试

Alluxio一般不在开发机上运行,这使得Alluxio的调试变得困难,我们通常会用”增加日志-编译-部署运行-查看日志”的方法来定位问题,而这种定位问题的效率比较低而且需要修改代码从新部署,这在有些时候是不允许的。

使用java远程调试技术可以简单、不修改源码的方式，进行源码级调试。你需要增加jvm 远程调试参数，启动调试服务。增加远程调试参数的方法有很多，比较方便的一种方法是，你可以在需要调试的节点上，在命令行中或alluxio-env.sh中配置环境变量，增加如下配置属性。

$ export ALLUXIO_WORKER_JAVA_OPTS="$ALLUXIO_JAVA_OPTS -agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=6606"
$ export ALLUXIO_MASTER_JAVA_OPTS="$ALLUXIO_JAVA_OPTS -agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=6607"
$ export ALLUXIO_USER_DEBUG_JAVA_OPTS="-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=6609"

特别的，如果你想调试shell命令，可以通过加上-debug标志来加上jvm调试参数ALLUXIO_USER_DEBUG_JAVA_OPTS来开启调试服务。例如alluxio fs -debug ls /。

suspend = y/n 会决定JVM进程是否等待直至调试器连接。如果你希望在命令行中进行调试，设置suspend = y。否则，设置 suspend = n ，这样就可以避免不必要的等待时间。

这样启动该节点上的master或者worker后，使用eclipse或intellij IDE等java开发环境，新建java远程调试配置，设置调试主机名和端口号，然后启动调试连接。如果你设置了断点并且到达了断点处，开发环境会进入调试模式，可以读写当前现场的变量、调用栈、线程列表、表达式评估，也可以执行单步进入、单步跳过、恢复执行、挂起等调试控制。掌握这个技术使得日后的定位问题事半功倍，也会对调试过的代码上下文印象深刻。

Alluxio部署常见问题

问题: 在本地机器上初次安装使用Alluxio失败，应该怎么办？

解决办法: 首先检查目录{ALLUXIO_HOME}/logs下是否存在master和worker日志，然后按照日志提示的错误信息进行操作。否则，再次检查是否遗漏了本地运行Alluxio里的配置步骤

典型问题:

ALLUXIO_MASTER_MOUNT_TABLE_ROOT_UFS配置不正确
如果 ssh localhost 失败, 请确认~/.ssh/authorized_keys文件中包含主机的ssh公钥

问题: 打算在Spark/HDFS集群中部署Alluxio，有什么建议？

解决办法: 按照集群环境运行Alluxio, Alluxio配置HDFS提示操作。

提示:

通常情况下, 当Alluxio workers和计算框架的节点部署在一起的时候，性能可达到最优
如果你正在使用Mesos或者Yarn管理集群,也可以将Mesos和Yarn集成到Alluxio中，使用Mesos和Yarn可方便集群管理
如果底层存储是远程的，比如说S3或者远程HDFS,这种情况下，使用Alluxio会非常有帮助

问题: 在EC2上安装Alluxio遇到问题，有什么建议？

解决办法: 可按照EC2上运行Alluxio提示操作。

典型问题:

请确定 AWS access keys 和 Key Pairs 已安装
如果底层文件存储系统是S3，检查 ufs.yml文件中的S3 bucket名称是否为已存在的bucket的名称，不包括s3:// 、s3a://或者s3n://前缀
如果不能访问UI，检查安全组是否限制了端口19999

ALLuxio使用常见问题

问题：出现“No FileSystem for scheme: alluxio”这种错误信息是什么原因？

解决办法：当你的应用（例如MapReduce、Spark）尝试以HDFS兼容文件系统接口访问Alluxio，而又无法解析alluxio://模式时会产生该异常。要确保HDFS配置文件core-site.xml（默认在hadoop安装目录，如果为Spark自定义了该文件则在spark/conf/目录下）包含以下配置：

<configuration>
  <property>
    <name>fs.alluxio.impl</name>
    <value>alluxio.hadoop.FileSystem</value>
  </property>
</configuration>

问题：出现“java.lang.RuntimeException: java.lang.ClassNotFoundException: Class alluxio.hadoop.FileSystem not found”这种错误信息是什么原因？

解决办法：当你的应用（例如MapReduce、Spark）尝试以HDFS兼容文件系统接口访问Alluxio，并且alluxio://模式也已配置正确，但应用的classpath未包含Alluxio客户端jar包时会产生该异常。用户通常需要通过设置环境变量或者属性的方式将Alluxio客户端jar包添加到所有节点上的应用的classpath中，这取决于具体的计算框架。以下是一些示例：

对于MapReduce应用，可以将客户端jar包添加到$HADOOP_CLASSPATH：

$ export HADOOP_CLASSPATH=/<PATH_TO_ALLUXIO>/client/alluxio-2.0.1-client.jar:${HADOOP_CLASSPATH}

对于Spark应用，可以将客户端jar包添加到$SPARK_CLASSPATH：

$ export SPARK_CLASSPATH=/<PATH_TO_ALLUXIO>/client/alluxio-2.0.1-client.jar:${SPARK_CLASSPATH}

除了上述方法，还可以将以下配置添加到spark/conf/spark-defaults.conf中：

spark.driver.extraClassPath /<PATH_TO_ALLUXIO>/client/alluxio-2.0.1-client.jar
spark.executor.extraClassPath /<PATH_TO_ALLUXIO>/client/alluxio-2.0.1-client.jar

如果已经设置相关的classpath，但是异常仍然存在，用户可以这样检测路径是否有效：

$ ls /<PATH_TO_ALLUXIO>/client/alluxio-2.0.1-client.jar

问题: 出现类似如下的错误信息: “Frame size (67108864) larger than max length (16777216)”,这种类型错误信息出现的原因是什么?

解决办法: 多种可能的原因会导致这种错误信息的出现。

请仔细检查Alluxio的master节点的端口(port)是否正确，Alluxio的master节点默认的监听端口号为19998。通常情况下master地址的端口号错误会导致这种错误提示的出现(例如端口号写成了19999,而19999是Alluxio的master节点的web用户界面的端口号)
请确保Alluxio的master节点和client节点的安全设置保持一致. Alluxio通过配置alluxio.security.authentication.type来提供不同的用户身份验证(Security.html#authentication)的方法。如果客户端和服务器的这项配置属性不一致，这种错误将会发生。(例如，客户端的属性为默认值NOSASL,而服务器端设为SIMPLE) 有关如何设定Alluxio的集群和应用的问题，用户请参照Configuration-Settings
Spark调用Alluxio-1.3.0文件时报错，如果是直接下载编译好的alluxio文件进行安装的，一般会出现该错误。解决办法：需要Alluxio client需要在编译时指定Spark选项，具体参考Running-Spark-on-Alluxio；编译好的依赖包也可以直接下载，下载地址：依赖包下载。

问题: 向Alluxio拷贝数据或者写数据时出现如下问题 “Failed to cache: Not enough space to store block on worker”,为什么？

解决办法: 这种错误说明alluxio空间不足，无法完成用户写请求。

检查一下内存中是否有多余的文件并从内存中释放这些文件。查看Command-Line-Interface获取更多信息。
通过改变alluxio.worker.memory.size属性值增加worker节点可用内存的容量，查看Configuration 获取更多信息。

问题：当我正在写一个新的文件/目录，我的应用程序中出现日志错误。

解决办法：当你看见类似”Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being avilabe to try”。这是因为Alluxio master还没有根据alluxio.master.journal.folder属性来更新HDFS目录下的日志文件。有多种原因可以导致这种类型的错误，其中典型的原因是：一些用来管理日志文件的HDFS datanode处于高负载状态或者磁盘空间已经用完。当日志目录设置在HDFS中时，请确保HDFS部署处于连接状态并且能够让Alluxio正常存储日志文件。

Alluxio性能常见问题

问题: 在Alluxio/Spark上进行测试（对大小为GBs的文件运行单词统计），相对于HDFS/Spark，性能并无明显差异。为什么?

解决办法: Alluxio通过使用分布式的内存存储（以及分层存储）和时间或空间的本地化来实现性能加速。如果数据集没有任何本地化, 性能加速效果并不明显。

环境

Alluxio在不同的生产环境下可配置不同的运行模式。请确定当前Alluxio版本是最新的并且是支持的版本。

在邮件列表提交问题时请附上完整的环境信息,包括

Alluxio版本
操作系统版本
Java版本
底层文件系统类型和版本
计算框架类型和版本
集群信息, 如节点个数, 每个节点内存, 数据中心内部还是跨数据中心运行

异常诊断与调试

异常诊断与调试

Alluxio日志地址

Alluxio远程调试

Alluxio部署常见问题

问题: 在本地机器上初次安装使用Alluxio失败，应该怎么办？

问题: 打算在Spark/HDFS集群中部署Alluxio，有什么建议？

问题: 在EC2上安装Alluxio遇到问题，有什么建议？

ALLuxio使用常见问题

问题：出现“No FileSystem for scheme: alluxio”这种错误信息是什么原因？

问题：出现“java.lang.RuntimeException: java.lang.ClassNotFoundException: Class alluxio.hadoop.FileSystem not found”这种错误信息是什么原因？

问题: 出现类似如下的错误信息: “Frame size (67108864) larger than max length (16777216)”,这种类型错误信息出现的原因是什么?

问题: 向Alluxio拷贝数据或者写数据时出现如下问题 “Failed to cache: Not enough space to store block on worker”,为什么？

问题： 当我正在写一个新的文件/目录，我的应用程序中出现日志错误。

Alluxio性能常见问题

问题: 在Alluxio/Spark上进行测试（对大小为GBs的文件运行单词统计），相对于HDFS/Spark，性能并无明显差异。为什么?

环境

问题：当我正在写一个新的文件/目录，我的应用程序中出现日志错误。