算法 - Algorithm Parameter Description - 《Angel v3.0 全栈机器学习平台文档》

任务类型，worker，network配置
数据参数
- 数据格式
模型参数
- 模型类型
优化器配置
层，模型等参数配置
评估指标

任务类型，worker，network配置

配置项名称	默认值	配置项含义
train	train	Angel 任务类型，表示模型训练
predict	predict	使用模型进行预测
inctrain	inctrain	对已有模型进行增量训练
ml.matrix.dot.use.parallel.executor	false	稠密矩阵Dot运算是否使用并行
angel.worker.thread.num	1	一个worker使用的线程数
angel.compress.bytes	8	低精度压缩，每个浮点数的大小，可设为[1,8]

数据参数

配置项名称	默认值	配置项含义
ml.data.type	libsvm	Angel 模型输入数据格式，支持libsvm，dense，dummy；默认值为libsvm
ml.data.splitor	\s+	输入数据分隔符，可定制分隔符
ml.data.has.label	true	输入数据是否有标签，默认有标签
ml.data.label.trans.class	NoTrans	输入数据标签转换，支持NoTrans<不转换>,PosNegTrans(threshold)<利用阈值将标签转换成+1，-1，即大于阈值为1，小于阈值为-1>,ZeroOneTrans(threshold)<利用阈值将标签转换成0, 1，即大于阈值为1，小于阈值为0>,AddOneTrans<所有标签+1>,SubOneTrans<所有标签-1>
ml.data.label.trans.threshold	0	输入数据标签转换阈值，与ml.data.label.trans.class中的PosNegTrans，ZeroOneTrans搭配使用
ml.data.validate.ratio	0.05	验证集采样率
ml.feature.index.range	-1	输入数据维度，由于特征hash时, 不能充满整个hash空间, 其中有大量空隙, 该项配置就是hash空间的大小. 最大的featureID值+1，当选择-1时表示特征维度可以映射到(0, long.max)
ml.block.size	1000000	划分矩阵后每个块的的大小，行数*列数<=block.size，目的是使得矩阵划分的均匀
ml.data.use.shuffle	false	数据是否使用随机打乱
ml.data.posneg.ratio	-1	正负样本采样比例，-1表示关闭采样功能, 正常值为正实数（0~1），对于正负样本相差较大的情况有用(如5倍以上)

数据格式

名称	说明
libsvm	每行文本表示一个样本，每个样本的格式为”y index1:value1 index2:value2 index3:value3 …”。其中：index为特征的ID,value为对应的特征值；训练数据的y为样本的类别，可以取1、-1两个值；预测数据的y为样本的ID值。比如，属于正类的样本[2.0, 3.1, 0.0, 0.0, -1, 2.2]的文本表示为“1 0:2.0 1:3.1 4:-1 5:2.2”，其中“1”为类别，”0:2.0”表示第0个特征的值为2.0。同理，属于负类的样本[2.0, 0.0, 0.1, 0.0, 0.0, 0.0]被表示为“-1 0:2.0 2：0.1”
dense	每行文本表示一个样本，每个样本的格式为”y value1 value2 value3 …”。训练数据的y为样本的类别，可以取1、-1两个值；预测数据的y为样本的ID值。比如，属于正类的样本[2.0, 3.1, 0.0, 0.0, -1, 2.2]的文本表示为“1 2.0 3.1 -1 2.2”，其中“1”为类别，”2.0”表示第0个特征的值为2.0。同理，属于负类的样本[2.0, 0.0, 0.1, 0.0, 0.0, 0.0]被表示为“-1 2.0 0.1”
dummy	每行文本表示一个样本，每个样本的格式为”y index1 index2 index3 …”。其中：index特征的ID；训练数据的y为样本的类别，可以取1、-1两个值；预测数据的y为样本的ID值。比如，属于正类的样本[2.0, 3.1, 0.0, 0.0, -1, 2.2]的文本表示为“1 0 1 4 5”，其中“1”为类别，“0 1 4 5”表示特征向量的第0、1、4、5个维度的值不为0。同理，属于负类的样本[2.0, 0.0, 0.1, 0.0, 0.0, 0.0]被表示为“-1 0 2”

模型参数

配置项名称	默认值	配置项含义
ml.model.class.name	“”	Angel模型类名称
ml.model.size	-1	模型的大小，当选择-1时范围在(0, +long.max)
ml.model.type	RowType.T_FLOAT_DENSE.toString	Angel模型类型，支持28种类型
ml.model.is.classification	true	模型是否属于分类模型
ml.epoch.num	30	迭代次数
ml.batch.sample.ratio	1.0	表示每个batch占整体数据的百分比
ml.learn.rate	0.5	初始学习率
ml.num.update.per.epoch	10	一个epoch中更新参数的次数
ml.opt.decay.class.name	StandardDecay	衰减类名称，可选项：StandardDecay<标准衰减，与alpha一起使用>，WarmRestarts<热启动衰减，与alpha一起使用>，CorrectionDecay<更正衰减，与alpha和beta一起使用>，ConstantLearningRate<常数衰减>
ml.opt.decay.on.batch	false	是否在批量上进行衰减
ml.opt.decay.intervals	100	衰减间隔
ml.opt.decay.alpha	0.001	衰减系数alpha
ml.opt.decay.beta	0.001	衰减系数beta

模型类型

名称	默认值	配置项含义
RowType.T_DOUBLE_DENSE	0	表示模型数据行的类型是索引值在Int范围的稠密Double类型
RowType.T_DOUBLE_DENSE_COMPONENT	1	表示模型数据行的类型是索引值在Int范围的组合稠密Double类型
RowType.T_DOUBLE_DENSE_LONGKEY_COMPONENT	2	表示模型数据行的类型是索引值在Long范围的组合稠密Double类型
RowType.T_DOUBLE_SPARSE	3	表示模型数据行的类型是索引值在Int范围的稀疏Double类型
RowType.T_DOUBLE_SPARSE_COMPONENT	4	表示模型数据行的类型是索引值在Int范围的组合稀疏Double类型
RowType.T_DOUBLE_SPARSE_LONGKEY	5	表示模型数据行的类型是索引值在Long范围的稀疏Double类型
RowType.T_DOUBLE_SPARSE_LONGKEY_COMPONENT	6	表示模型数据行的类型是索引值在Int范围的组合稀疏Double类型
RowType.T_FLOAT_DENSE	7	表示模型数据行的类型是索引值在Int范围的稠密Float类型
RowType.T_FLOAT_DENSE_COMPONENT	8	表示模型数据行的类型是索引值在Int范围的组合稠密Float类型
RowType.T_FLOAT_DENSE_LONGKEY_COMPONENT	9	表示模型数据行的类型是索引值在Long范围的组合稠密Float类型
RowType.T_FLOAT_SPARSE	10	表示模型数据行的类型是索引值在Int范围的稀疏Float类型
RowType.T_FLOAT_SPARSE_COMPONENT	11	表示模型数据行的类型是索引值在Int范围的组合稀疏Float类型
RowType.T_FLOAT_SPARSE_LONGKEY	12	表示模型数据行的类型是索引值在Long范围的稀疏Float类型
RowType.T_FLOAT_SPARSE_LONGKEY_COMPONENT	13	表示模型数据行的类型是索引值在Long范围的组合稀疏Float类型
RowType.T_LONG_DENSE	14	表示模型数据行的类型是索引值在Int范围的稠密Long类型
RowType.T_LONG_DENSE_COMPONENT	15	表示模型数据行的类型是索引值在Int范围的组合稠密Long类型
RowType.T_LONG_DENSE_LONGKEY_COMPONENT	16	表示模型数据行的类型是索引值在Long范围的组合稠密Long类型
RowType.T_LONG_SPARSE	17	表示模型数据行的类型是索引值在Long范围的稀疏Long类型
RowType.T_LONG_SPARSE_COMPONENT	18	表示模型数据行的类型是索引值在Int范围的组合稀疏Long类型
RowType.T_LONG_SPARSE_LONGKEY	19	表示模型数据行的类型是索引值在Long范围的稀疏Long类型
RowType.T_LONG_SPARSE_LONGKEY_COMPONENT	20	表示模型数据行的类型是索引值在Long范围的组合稀疏Long类型
RowType.T_INT_DENSE	21	表示模型数据行的类型是索引值在Int范围的稠密Int类型
RowType.T_INT_DENSE_COMPONENT	22	表示模型数据行的类型是索引值在Int范围的组合稠密Int类型
RowType.T_INT_DENSE_LONGKEY_COMPONENT	23	表示模型数据行的类型是索引值在Long范围的组合稠密Int类型
RowType.T_INT_SPARSE	24	表示模型数据行的类型是索引值在Int范围的稀疏Int类型
RowType.T_INT_SPARSE_COMPONENT	25	表示模型数据行的类型是索引值在Int范围的稀疏Int类型
RowType.T_INT_SPARSE_LONGKEY	26	表示模型数据行的类型是索引值在Long范围的稀疏Int类型
RowType.T_INT_SPARSE_LONGKEY_COMPONENT	27	表示模型数据行的类型是索引值在Long范围的组合稀疏Int类型

优化器配置

配置项名称	默认值	配置项含义
ml.fclayer.optimizer	Momentum	全连接层优化器，可选优化器：Momentum，AdaDelta，AdaGrad，Adam，FTRL
ml.embedding.optimizer	Momentum	embedding层优化器，可选优化器：Momentum，AdaDelta，AdaGrad，Adam，FTRL
ml.inputlayer.optimizer	Momentum	输入层优化器，可选优化器：Momentum，AdaDelta，AdaGrad，Adam，FTRL
ml.fclayer.matrix.output.format	classOf[RowIdColIdValueTextRowFormat].getCanonicalName	全连接层输出矩阵格式
ml.embedding.matrix.output.format	classOf[TextColumnFormat].getCanonicalName	embedding层输出矩阵格式
ml.simpleinputlayer.matrix.output.format	classOf[ColIdValueTextRowFormat].getCanonicalName	简单输入层输出矩阵格式
ml.reg.l2	0.0	L2惩罚项系数
ml.reg.l1	0.0	L1惩罚项系数

Momentum

配置项名称	默认值	配置项含义
ml.opt.momentum.momentum	0.9	动量系数

AdaDelta

配置项名称	默认值	配置项含义
ml.opt.adadelta.alpha	0.9	alpha系数
ml.opt.adadelta.beta	0.9	beta系数

AdaGrad

配置项名称	默认值	配置项含义
ml.opt.adagrad.beta	0.9	beta系数

Adam

配置项名称	默认值	配置项含义
ml.opt.adam.gamma	0.99	gamma系数
ml.opt.adam.beta	0.9	beta系数

FTRL

配置项名称	默认值	配置项含义
ml.opt.ftrl.alpha	0.1	alpha系数
ml.opt.ftrl.beta	1.0	beta系数

层，模型等参数配置

Embedding 参数配置

配置项名称	默认值	配置项含义
ml.fm.field.num	-1	输入数据特征维数，-1表示全部特征，范围可以映射到(0, +long.max)
ml.fm.rank	8	embedding中vector的长度

(MLP) Layer 参数配置

配置项名称	默认值	配置项含义
ml.num.class	2	类别数目

(MLR) Layer 参数配置

配置项名称	默认值	配置项含义
ml.mlr.rank	5	区域个数

RobustRegression 参数配置

配置项名称	默认值	配置项含义
ml.robustregression.loss.delta	1.0	残差分段点

Kmeans 参数配置

配置项名称	默认值	配置项含义
ml.kmeans.center.num	5	K值，即簇的个数
ml.kmeans.c	0.1	学习速率参数

GBDT 参数配置

配置项名称	默认值	配置项含义
ml.gbdt.task.type	classification	任务类型，可选项：classification, regression
ml.gbdt.class.num	2	类别个数
ml.gbdt.tree.num	10	树的数量
ml.gbdt.tree.depth	5	树的最大高度
ml.gbdt.max.node.num	无	最大的节点个数
ml.gbdt.split.num	5	每个特征的梯度直方图的大小
ml.gbdt.sample.ratio	1	特征下采样的比率
ml.gbdt.min.child.weight	0.01	最小的子节点权重
ml.gbdt.reg.alpha	0	L1正则
ml.gbdt.reg.lambda	1.0	L2正则
ml.gbdt.thread.num	20	线程个数
ml.gbdt.batch.size	10000	批量大小
ml.gbdt.server.split	false	两阶段分裂算法开关
ml.gbdt.cate.feat	none	离散特征，”特征id:特征数量”的格式，以逗号分隔，例如”0:2,1:3”。设为”none”表示没有离散特征，设为”all”表示全部为离散特征。

评估指标

配置项名称	默认值	配置项含义
train.loss	无	训练损失
validate.loss	无	验证损失
log.likelihood	无	对数似然
train.error	无	训练错误
validate.error	无	验证错误