PaddlePaddle Models

PaddleCV

图像分类

图像分类是根据图像的语义信息对不同类别图像进行区分,是计算机视觉中重要的基础问题,是物体检测、图像分割、物体跟踪、行为分析、人脸识别等其他高层视觉任务的基础,在许多领域都有着广泛的应用。如:安防领域的人脸识别和智能视频分析等,交通领域的交通场景识别,互联网领域基于内容的图像检索和相册自动归类,医学领域的图像识别等。

模型名称模型简介数据集评估指标**top-1/top-5 accuracy(CV2)*
AlexNet首次在CNN中成功的应用了ReLU、Dropout和LRN,并使用GPU进行运算加速ImageNet-2012验证集56.72%/79.17%
VGG在AlexNet的基础上使用33小卷积核,增加网络深度,具有很好的泛化能力ImageNet-2012验证集72.56%/90.93%
GoogleNet在不增加计算负载的前提下增加了网络的深度和宽度,性能更加优越ImageNet-2012验证集70.70%/89.66%
ResNetResidual Network,引入了新的残差结构,解决了随着网络加深,准确率下降的问题ImageNet-2012验证集80.93%/95.33%
ResNet-D融合最新多种对ResNet改进策略,ResNet50_vd的top1准确率达到79.84%ImageNet-2012验证集79.84%/94.93%
Inception-v4将Inception模块与Residual Connection进行结合,通过ResNet的结构极大地加速训练并获得性能的提升ImageNet-2012验证集80.77%/95.26%
MobileNet v1将传统的卷积结构改造成两层卷积结构的网络,在基本不影响准确率的前提下大大减少计算时间,更适合移动端和嵌入式视觉应用ImageNet-2012验证集70.99%/89.68%
MobileNet v2MobileNet结构的微调,直接在thinner的bottleneck层上进行skip learning连接以及对bottleneck layer不进行ReLu非线性处理可取得更好的结果ImageNet-2012验证集72.15%/90.65%
SE_ResNeXt在ResNeXt 基础、上加入了SE(Sequeeze-and-Excitation) 模块,提高了识别准确率,在ILSVRC 2017 的分类项目中取得了第一名ImageNet-2012验证集81.40%/95.48%
ShuffleNet v2ECCV2018,轻量级CNN网络,在速度和准确度之间做了很好地平衡。在同等复杂度下,比ShuffleNet和MobileNetv2更准确,更适合移动端以及无人车领域ImageNet-2012验证集70.03%/89.17%

目标检测

目标检测任务的目标是给定一张图像或是一个视频帧,让计算机找出其中所有目标的位置,并给出每个目标的具体类别。对于计算机而言,能够“看到”的是图像被编码之后的数字,但很难解图像或是视频帧中出现了人或是物体这样的高层语义概念,也就更加难以定位目标出现在图像中哪个区域。

模型名称模型简介数据集评估指标 mAP
SSD很好的继承了MobileNet预测速度快,易于部署的特点,能够很好的在多种设备上完成图像目标检测任务VOC07 testmAP = 73.32%
Faster-RCNN创造性地采用卷积网络自行产生建议框,并且和目标检测网络共享卷积网络,建议框数目减少,质量提高MS-COCO基于ResNet 50 mAP(0.50:0.95) = 36.7%
Mask-RCNN经典的两阶段框架,在Faster R-CNN模型基础上添加分割分支,得到掩码结果,实现了掩码和类别预测关系的解藕,可得到像素级别的检测结果。MS-COCO基于ResNet 50 Mask mAP(0.50:0.95) = 31.4%
RetinaNet经典的一阶段框架,由ResNet主干网络、FPN结构、和两个分别用于回归物体位置和预测物体类别的子网络组成。在训练过程中使用Focal Loss,解决了传统一阶段检测器存在前景背景类别不平衡的问题,进一步提高了一阶段检测器的精度。MS-COCO基于ResNet mAP (500.50:0.95) = 36%
YOLOv3速度和精度均衡的目标检测网络,相比于原作者darknet中的YOLO v3实现,PaddlePaddle实现参考了论文Bag of Tricks for Image Classification with Convolutional Neural Networks 增加了mixup,label_smooth等处理,精度(mAP(0.5:0.95))相比于原作者提高了4.7个绝对百分点,在此基础上加入synchronize batch normalization, 最终精度相比原作者提高5.9个绝对百分点。MS-COCO基于DarkNet mAP(0.50:0.95)= 38.9%
PyramidBoxPyramidBox**模型是百度自主研发的人脸检测模型**,利用上下文信息解决困难人脸的检测问题,网络表达能力高,鲁棒性强。于18年3月份在WIDER Face数据集上取得第一名WIDER FACEmAP (Easy/Medium/Hard set)= 96.0%/ 94.8%/ 88.8%

图像分割

图像语义分割顾名思义是将图像像素按照表达的语义含义的不同进行分组/分割,图像语义是指对图像内容的理解,例如,能够描绘出什么物体在哪里做了什么事情等,分割是指对图片中的每个像素点进行标注,标注属于哪一类别。近年来用在无人车驾驶技术中分割街景来避让行人和车辆、医疗影像分析中辅助诊断等。

模型名称模型简介数据集评估指标
ICNet主要用于图像实时语义分割,能够兼顾速度和准确性,易于线上部署CityscapeMean IoU=67.0%
DeepLab V3+通过encoder-decoder进行多尺度信息的融合,同时保留了原来的空洞卷积和ASSP层, 其骨干网络使用了Xception模型,提高了语义分割的健壮性和运行速率CityscapeMean IoU=78.81%

关键点检测

人体骨骼关键点检测,Pose Estimation,主要检测人体的一些关键点,如关节,五官等,通过关键点描述人体骨骼信息。人体骨骼关键点检测对于描述人体姿态,预测人体行为至关重要。是诸多计算机视觉任务的基础,例如动作分类,异常行为检测,以及自动驾驶等等。

模型名称模型简介数据集评估指标
Simple Baselinescoco2018关键点检测项目亚军方案,网络结构非常简单,效果达到state of the artCOCO val2017AP = 72.7%

图像生成

图像生成是指根据输入向量,生成目标图像。这里的输入向量可以是随机的噪声或用户指定的条件向量。具体的应用场景有:手写体生成、人脸合成、风格迁移、图像修复等。

模型名称模型简介数据集
CGAN条件生成对抗网络,一种带条件约束的GAN,使用额外信息对模型增加条件,可以指导数据生成过程Mnist
DCGAN深度卷积生成对抗网络,将GAN和卷积网络结合起来,以解决GAN训练不稳定的问题Mnist
Pix2Pix图像翻译,通过成对图片将某一类图片转换成另外一类图片,可用于风格迁移Cityscapes
CycleGAN图像翻译,可以通过非成对的图片将某一类图片转换成另外一类图片,可用于风格迁移Cityscapes
StarGAN多领域属性迁移,引入辅助分类帮助单个判别器判断多个属性,可用于人脸属性转换Celeba
AttGAN利用分类损失和重构损失来保证改变特定的属性,可用于人脸特定属性转换Celeba
STGAN人脸特定属性转换,只输入有变化的标签,引入GRU结构,更好的选择变化的属性Celeba

场景文字识别

场景文字识别是在图像背景复杂、分辨率低下、字体多样、分布随意等情况下,将图像信息转化为文字序列的过程,可认为是一种特别的翻译过程:将图像输入翻译为自然语言输出。

模型名称模型简介数据集评估指标
CRNN-CTC使用CTC model识别图片中单行英文字符,用于端到端的文本行图片识别方法单行不定长的英文字符串图片错误率= 22.3%
OCR Attention使用attention 识别图片中单行英文字符,用于端到端的自然场景文本识别,单行不定长的英文字符串图片错误率 = 15.8%

度量学习

度量学习也称作距离度量学习、相似度学习,通过学习对象之间的距离,度量学习能够用于分析对象时间的关联、比较关系,在实际问题中应用较为广泛,可应用于辅助分类、聚类问题,也广泛用于图像检索、人脸识别等领域。

模型名称模型简介数据集评估指标 Recall@Rank-1(使用arcmargin训练)
ResNet50未微调使用arcmargin loss训练的特征模型Stanford Online Product(SOP)78.11%
ResNet50使用triplet微调在arcmargin loss基础上,使用triplet loss微调的特征模型Stanford Online Product(SOP)79.21%
ResNet50使用quadruplet微调在arcmargin loss基础上,使用quadruplet loss微调的特征模型Stanford Online Product(SOP)79.59%
ResNet50使用eml微调在arcmargin loss基础上,使用eml loss微调的特征模型Stanford Online Product(SOP)80.11%
ResNet50使用npairs微调在arcmargin loss基础上,使用npairs loss微调的特征模型Stanford Online Product(SOP)79.81%

视频分类和动作定位

视频分类是视频理解任务的基础,包含语音数据、包含运动信息等的视频对象,因此理解视频需要获得更多的上下文信息,不仅要理解每帧图像是什么、包含什么,还需要结合不同帧,知道上下文的关联信息。视频分类方法主要包含基于卷积神经网络、基于循环神经网络、或将这两者结合的方法。

模型名称模型简介数据集评估指标
TSNECCV'16,基于2D-CNN的经典网络结构,首次引入序列信息到视频分类,证明序列信息有效性Kinetics-400Top-1 = 67%
Non-Local视频非局部关联建模模型,引入类似self-attention机制,效果好,计算量大Kinetics-400Top-1 = 62%
stNetActivityNet2018 最佳single模型,AAAI19,融合局部与全局的时序模型Kinetics-400Top-1 = 69%
TSMTSN改进版,简单高效,计算简单,当前的SOTAKinetics-400Top-1 = 70%
Attention LSTMActivityNet17最佳single model,更稳定的时序模型Youtube-8MGAP = 86%
Attention ClusterCVPR18,引入不同模态的不同注意力聚合模型,更好捕获特征间的组合关系Youtube-8MGAP = 87%
NeXtVladYoutube-8M 2018最佳single model,弱化时序关系,适合建模短视频Youtube-8MGAP = 87%
C-TCN2018年ActivityNet夺冠方案,提供了处理视频动作定位问题的解决方案ActivityNet1.3提供的数据集Top1=31%

PaddleNLP

基础模型(词法分析&语言模型)

词法分析

LAC (Lexical Analysis of Chinese)百度自主研发中文特色模型词法分析任务,**输入是一个字符串,而输出是句子中的词边界和词性、实体类别。

模型PrecisionRecallF1-score
Lexical Analysis88.0%88.7%88.4%
BERT finetuned90.2%90.4%90.3%
ERNIE finetuned92.0%92.0%92.0%

语言模型

基于LSTM的语言模型任务,给定一个输入词序列(中文分词、英文tokenize),计算其PPL(语言模型困惑度,用户表示句子的流利程度)。

large configtrainvalidtest
paddle37.22182.35878.137
tensorflow38.34282.31178.121

文本理解(文本分类&阅读理解)

情感分析

Senta(Sentiment Classification)百度AI开放平台中情感倾向分析模型、百度自主研发的中文特色模型,是目前最好的中文情感分析模型。

模型devtest模型(*finetune*)devtest
BOW89.8%90.0%BOW91.3%90.6%
CNN90.6%89.9%CNN92.4%91.8%
LSTM90.0%91.0%LSTM93.3%92.2%
GRU90.0%89.8%GRU93.3%93.2%
BI-LSTM88.5%88.3%BI-LSTM92.8%91.4%
ERNIE95.1%95.4%ERNIE95.4%95.5%
ERNIE+BI-LSTM95.3%95.2%ERNIE+BI-LSTM95.7%95.6%

对话情绪识别

EmoTect(Emotion Detection)专注于识别智能对话场景中用户的情绪识别,并开源基于百度海量数据训练好的预训练模型。

模型闲聊客服微博
BOW90.2%87.6%74.2%
LSTM91.4%90.1%73.8%
Bi-LSTM91.2%89.9%73.6%
CNN90.8%90.7%76.3%
TextCNN91.1%91.0%76.8%
BERT93.6%92.3%78.6%
ERNIE94.4%94.0%80.6%

阅读理解

MRC(Machine Reading Comprehension)机器阅读理解(MRC)是自然语言处理(NLP)中的关键任务之一,开源的DuReader升级了经典的阅读理解BiDAF模型,去掉了char级别的embedding,在预测层中使用了pointer network,并且参考了R-NET中的一些网络结构,效果上有了大幅提升

ModelDev ROUGE-LTest ROUGE-L
BiDAF (原始论文基线)39.2945.90
本基线系统47.6854.66

语义模型(语义表示&语义匹配)

ERNIE

ERNIE (Embeddings from Language Models)百度自研的语义表示模型,通过建模海量数据中的词、实体及实体关系,学习真实世界的语义知识。相较于 BERT 学习原始语言信号,ERNIE直接对先验语义知识单元进行建模,增强了模型语义表示能力。

BERT

BERT(Bidirectional Encoder Representation from Transformers) 是一个迁移能力很强的通用语义表示模型, 以 Transformer 为网络基本组件,以双向 Masked Language Model和 Next Sentence Prediction 为训练目标,通过预训练得到通用语义表示,再结合简单的输出层,应用到下游的 NLP 任务,在多个任务上取得了 SOTA 的结果。

ELMo

ELMo(Embeddings from Language Models) 是重要的通用语义表示模型之一,以双向 LSTM 为网路基本组件,以 Language Model 为训练目标,通过预训练得到通用的语义表示,将通用的语义表示作为 Feature 迁移到下游 NLP 任务中,会显著提升下游任务的模型性能。

数据集XNLILCQMCMSRA-NER (SIGHAN 2006)ChnSentiCorpnlpcc-dbqa
评估指标accaccf1-scoreaccmrrf1-score
devtestdevtestdevtestdevtestdevtestdevtest
BERT78.177.288.88794.092.694.694.394.794.680.780.8
ERNIE79.9(+1.8)78.4(+1.2)89.7(+0.9)87.4(+0.4)95.0(+1.0)93.8(+1.2)95.2(+0.6)95.4(+1.1)95.0(+0.3)95.1(+0.5)82.3(+1.6)82.7(+1.9)

DAM

深度注意力机制模型(Deep Attention Matching Network),是开放领域多轮对话匹配模型。根据多轮对话历史和候选回复内容,排序出最合适的回复。、

Ubuntu CorpusDouban Conversation Corpus
R2@1R10@1R10@2R10@5MAPMRRP@1R10@1R10@2R10@5
DAM93.8%76.7%87.4%96.9%55.0%60.1%42.7%25.4%41.0%75.7%

SimNet(SimilarityNet百度自主研发的短文本语义匹配语义匹配框架,一个计算短文本相似度的框架,可以根据用户输入的两个文本,计算出相似度得分。

模型百度知道ECOMQQSIMUNICOMLCQMC
AUCAUCAUC正逆序比Accuracy
BOW_Pairwise0.67670.73290.76501.56300.7532

文本生成(机器翻译&对话生成)

机器翻译

MT(machine translation)机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,输入为源语言句子,输出为相应的目标语言的句子。

测试集newstest2014newstest2015newstest2016
Base26.3529.0733.30
Big27.0730.0934.38

对话自动评估

对话自动评估(Auto Dialogue Evaluation),主要用于评估开放领域对话系统的回复质量,能够帮助企业或个人快速评估对话系统的回复质量,减少人工评估成本。

利用少量标注数据微调后,自动评估打分和人工打分spearman相关系数,如下表。

/seq2seq_naiveseq2seq_attkeywordshuman
cor0.4740.4770.4430.378

对话通用理解

DGU(DialogueGeneralUnderstanding),对话通用理解针对数据集开发了相关的模型训练过程,支持分类,多标签分类,序列标注等任务,用户可针对自己的数据集,进行相关的模型定制

ask_nameudcudcudcatis_slotdstc2atis_intentswdamrda
对话任务匹配匹配匹配槽位解析DST意图识别DADA
任务类型分类分类分类序列标注多标签分类分类分类分类
任务名称udcudcudcatis_slotdstc2atis_intentswdamrda
评估指标R1@10R2@10R5@10F1JOINT ACCACCACCACC
SOTA76.70%87.40%96.90%96.89%74.50%98.32%81.30%91.70%
DGU82.02%90.43%97.75%97.10%89.57%97.65%80.19%91.43%

知识驱动对话

知识驱动对话的新对话任务,其中机器基于构建的知识图与人交谈。它旨在测试机器进行类似人类对话的能力。

baseline systemF1/BLEU1/BLEU2DISTINCT1/DISTINCT2
retrieval-based31.72/0.291/0.1560.118/0.373
generation-based32.65/0.300/0.1680.062/0.128

PaddleRec

个性化推荐,在当前的互联网服务中正在发挥越来越大的作用,目前大部分电子商务系统、社交网络,广告推荐,搜索引擎,都不同程度的使用了各种形式的个性化推荐技术,帮助用户快速找到他们想要的信息。

模型名称模型简介
TagSpace应用于工业级的标签推荐,具体应用场景有feed新闻标签推荐等
GRU4Rec首次将RNN(GRU)运用于session-based推荐,相比传统的KNN和矩阵分解,效果有明显的提升
SequenceSemanticRetrieval使用参考论文中的思想,使用多种时间粒度进行用户行为预测
DeepCTR只实现了DeepFM论文中介绍的模型的DNN部分,DeepFM会在其他例子中给出
Multiview-Simnet基于多元视图,将用户和项目的多个功能视图合并为一个统一模型
Word2Vecskip-gram模式的word2vector模型
GraphNeuralNetwork基于会话的图神经网络模型的推荐系统,可以更好的挖掘item中丰富的转换特性以及生成准确的潜在的用户向量表示
DeepInterestNetworkDIN通过一个兴趣激活模块(Activation Unit),用预估目标Candidate ADs的信息去激活用户的历史点击商品,以此提取用户与当前预估目标相关的兴趣。

其他模型

模型名称模型简介
DeepASR利用Fluid框架完成语音识别中声学模型的配置和训练,并集成 Kaldi 的解码器
DQNvalue based强化学习算法,第一个成功地将深度学习和强化学习结合起来的模型
DoubleDQN将Double Q的想法应用在DQN上,解决过优化问题
DuelingDQN改进了DQN模型,提高了模型的性能