ssd_loss

ssd_loss

paddle.fluid.layers. ssd_loss ( location, confidence, gt_box, gt_label, prior_box, prior_box_var=None, background_label=0, overlap_threshold=0.5, neg_pos_ratio=3.0, neg_overlap=0.5, loc_loss_weight=1.0, conf_loss_weight=1.0, match_type=’per_prediction’, mining_type=’max_negative’, normalize=True, sample_size=None ) [源代码]

该OP用于SSD物体检测算法的多窗口损失层

该层用于计算SSD的损失，给定位置偏移预测，置信度预测，候选框和真实框标签，以及难样本挖掘的类型。通过执行以下步骤，返回的损失是本地化损失（或回归损失）和置信度损失（或分类损失）的加权和：

1、通过二分匹配算法查找匹配的边界框。

1.1、计算真实框与先验框之间的IOU相似度。

1.2、通过二分匹配算法计算匹配的边界框。

2、计算难分样本的置信度

2.1、根据匹配的索引获取目标标签。

2.2、计算置信度损失。

3、应用难样本挖掘算法来获取负样本索引并更新匹配的索引。

4、分配分类和回归目标

4.1、根据生成的候选框bbox进行编码。

4.2、分配回归目标。

4.3、分配分类目标。

5、计算总体的物体损失。

5.1计算置信度(confidence)损失。

5.1计算回归(location)损失。

5.3计算总体加权损失。

参数：

location （Variable）- 位置预测，具有形状[N，Np，4]的3D-Tensor，N是batch大小，Np是每个实例的预测总数。 4是坐标的维数，布局是[xmin，ymin，xmax，ymax]，xmin，ymin代表box左上坐标，xmax，ymax代表box右下坐标，数据类型为float32或float64。
confidence (Variable) - 置信度(分类)预测，具有形状[N，Np，C]的3D-Tensor，N是batch大小，Np是每个实例的预测总数，C是类别数量，数据类型为float32或float64。
gt_box （Variable）- 真实框(bbox),具有形状[Ng，4]的2D LoDTensor，Ng是mini-batch输入的真实框（bbox）的总数,4是坐标的维数，布局是[xmin，ymin，xmax，ymax]，xmin，ymin代表box左上坐标，xmax，ymax代表box右下坐标，数据类型为float32或float64。
gt_label （Variable）- ground-truth标签, 具有形状[Ng，1]的2D LoDTensor,Ng是mini-batch输入的真实框（bbox）的总数,1表示类别号，数据类型为float32或float64。
prior_box （Variable）- 检测网络生成的候选框, 具有形状[Np，4]的2D-Tensor，Np是生成的候选框总数，4是坐标的维数，布局是[xmin，ymin，xmax，ymax]，xmin，ymin代表box左上坐标，xmax，ymax代表box右下坐标，数据类型为float32或float64。。
prior_box_var （Variable）- 候选框的方差, 具有形状[Np，4]的2D张量，形状及数据类型同 prior_box 。
background_label （int）- background标签的索引，默认为0。
overlap_threshold （float）- 额外匹配的bbox阈值，当找到匹配的框，如果 match_type 为’per_prediction’，使用 overlap_threshold 确定额外匹配的bbox。默认为0.5。
neg_pos_ratio （float）- 负框与正框的比率，仅在 mining_type 为’max_negative’时使用，默认为3.0。
neg_overlap （float）- 不匹配预测的负重叠上限。仅当 mining_type 为’max_negative’时使用，默认为0.5。
loc_loss_weight （float）- 回归损失的权重，默认为1.0。
conf_loss_weight （float）- 置信度损失的权重，默认为1.0。
match_type （str）- 训练期间匹配方法的类型应为’bipartite’或’per_prediction’，默认为’per_prediction’。
mining_type （str）- 难样本挖掘类型，分为’hard_example’或’max_negative’，目前只支持’max_negative’。
normalize （bool）- 是否通过输出位置的总数将SSD损失标准化，默认为True。
sample_size （int）- 负样本框的最大样本大小，仅在 mining_type 为’hard_example’时使用。

返回： Variable(Tensor) 定位损失和置信度损失的加权和, 具有形状[N * Np，1], N是batch大小，Np是每个实例的预测总数，数据类型为float32或float64。

抛出异常： ValueError - 如果 mining_type 是’hard_example’，目前只支持 max_negative 的挖掘类型。

代码示例

import paddle.fluid as fluid
pb = fluid.layers.data(
                  name='prior_box',
                  shape=[10, 4],
                  append_batch_size=False,
                  dtype='float32')
pbv = fluid.layers.data(
                  name='prior_box_var',
                  shape=[10, 4],
                  append_batch_size=False,
                  dtype='float32')
loc = fluid.layers.data(name='target_box', shape=[10, 4], dtype='float32')
scores = fluid.layers.data(name='scores', shape=[10, 21], dtype='float32')
gt_box = fluid.layers.data(
        name='gt_box', shape=[4], lod_level=1, dtype='float32')
gt_label = fluid.layers.data(
        name='gt_label', shape=[1], lod_level=1, dtype='float32')
loss = fluid.layers.ssd_loss(loc, scores, gt_box, gt_label, pb, pbv)