OCR模型列表(V2.0,2021年1月20日更新)

说明 :2.0版模型和1.1版模型的主要区别在于动态图训练vs.静态图训练,模型性能上无明显差距。

PaddleOCR提供的可下载模型包括推理模型训练模型预训练模型slim模型,模型区别说明如下:

模型类型模型格式简介
推理模型inference.pdmodel、inference.pdiparams用于python预测引擎推理,详情
训练模型、预训练模型.pdparams、.pdopt、*.states训练过程中保存的模型的参数、优化器状态和训练中间信息,多用于模型指标评估和恢复训练

一、文本检测模型

模型名称模型简介配置文件推理模型大小下载地址
ch_ppocr_mobile_v2.0_det原始超轻量模型,支持中英文、多语种文本检测ch_det_mv3_db_v2.0.yml3M推理模型 / 训练模型
ch_ppocr_server_v2.0_det通用模型,支持中英文、多语种文本检测,比超轻量模型更大,但效果更好ch_det_res18_db_v2.0.yml47M推理模型 / 训练模型

二、文本识别模型

1. 中文识别模型

模型名称模型简介配置文件推理模型大小下载地址
ch_ppocr_mobile_v2.0_rec原始超轻量模型,支持中英文、数字识别rec_chinese_lite_train_v2.0.yml3.71M推理模型 / 训练模型 / 预训练模型
ch_ppocr_server_v2.0_rec通用模型,支持中英文、数字识别rec_chinese_common_train_v2.0.yml94.8M推理模型 / 训练模型 / 预训练模型

说明: 训练模型是基于预训练模型在真实数据与竖排合成文本数据上finetune得到的模型,在真实应用场景中有着更好的表现,预训练模型则是直接基于全量真实数据与合成数据训练得到,更适合用于在自己的数据集上finetune。

2. 英文识别模型

模型名称模型简介配置文件推理模型大小下载地址
en_number_mobile_v2.0_rec原始超轻量模型,支持英文、数字识别rec_en_number_lite_train.yml2.56M推理模型 / 训练模型

3. 多语言识别模型(更多语言持续更新中…)

说明: 新增的多语言模型的配置文件通过代码方式生成,您可以通过--help参数查看当前PaddleOCR支持生成哪些多语言的配置文件:

  1. # 该代码需要在指定目录运行
  2. cd {your/path/}PaddleOCR/configs/rec/multi_language/
  3. python3 generate_multi_language_configs.py --help

下面以生成意大利语配置文件为例:

1. 生成意大利语配置文件测试现有模型

如果您仅仅想用配置文件测试PaddleOCR提供的多语言模型可以通过下面命令生成默认的配置文件,使用PaddleOCR提供的小语种字典进行预测。

  1. # 该代码需要在指定目录运行
  2. cd {your/path/}PaddleOCR/configs/rec/multi_language/
  3. # 通过-l或者--language参数设置需要生成的语种的配置文件,该命令会将默认参数写入配置文件
  4. python3 generate_multi_language_configs.py -l it
2. 生成意大利语配置文件训练自己的数据

如果您想训练自己的小语种模型,可以准备好训练集文件、验证集文件、字典文件和训练数据路径,这里假设准备的意大利语的训练集、验证集、字典和训练数据路径为:

  • 训练集:{your/path/}PaddleOCR/train_data/train_list.txt
  • 验证集:{your/path/}PaddleOCR/train_data/val_list.txt
  • 使用PaddleOCR提供的默认字典:{your/path/}PaddleOCR/ppocr/utils/dict/it_dict.txt
  • 训练数据路径:{your/path/}PaddleOCR/train_data

使用以下命令生成配置文件:

  1. # 该代码需要在指定目录运行
  2. cd {your/path/}PaddleOCR/configs/rec/multi_language/
  3. # -l或者--language字段是必须的
  4. # --train修改训练集,--val修改验证集,--data_dir修改数据集目录,-o修改对应默认参数
  5. # --dict命令改变字典路径,示例使用默认字典路径则该参数可不填
  6. python3 generate_multi_language_configs.py -l it \
  7. --train train_data/train_list.txt \
  8. --val train_data/val_list.txt \
  9. --data_dir train_data \
  10. -o Global.use_gpu=False
模型名称模型简介配置文件推理模型大小下载地址
french_mobile_v2.0_rec法文识别rec_french_lite_train.yml2.65M推理模型 / 训练模型
german_mobile_v2.0_rec德文识别rec_german_lite_train.yml2.65M推理模型 / 训练模型
korean_mobile_v2.0_rec韩文识别rec_korean_lite_train.yml3.9M推理模型 / 训练模型
japan_mobile_v2.0_rec日文识别rec_japan_lite_train.yml4.23M推理模型 / 训练模型
it_mobile_v2.0_rec意大利文识别rec_it_lite_train.yml2.53M推理模型 / 训练模型
es_mobile_v2.0_rec西班牙文识别rec_es_lite_train.yml2.53M推理模型 / 训练模型
pt_mobile_v2.0_rec葡萄牙文识别rec_pt_lite_train.yml2.63M推理模型 / 训练模型
ru_mobile_v2.0_rec俄罗斯文识别rec_ru_lite_train.yml2.63M推理模型 / 训练模型
ar_mobile_v2.0_rec阿拉伯文识别rec_ar_lite_train.yml2.53M推理模型 / 训练模型
hi_mobile_v2.0_rec印地文识别rec_hi_lite_train.yml2.63M推理模型 / 训练模型
ch_tra_mobile_v2.0_rec中文繁体识别rec_ch_tra_lite_train.yml5.63M推理模型 / 训练模型
ug_mobile_v2.0_rec维吾尔文识别rec_ug_lite_train.yml2.63M推理模型 / 训练模型
fa_mobile_v2.0_rec波斯文识别rec_fa_lite_train.yml2.63M推理模型 / 训练模型
ur_mobile_v2.0_rec乌尔都文识别rec_ur_lite_train.yml2.63M推理模型 / 训练模型
rs_latin_mobile_v2.0_rec塞尔维亚文(latin)识别rec_rs_latin_lite_train.yml2.53M推理模型 / 训练模型
oc_mobile_v2.0_rec欧西坦文识别rec_oc_lite_train.yml2.53M推理模型 / 训练模型
mr_mobile_v2.0_rec马拉地文识别rec_mr_lite_train.yml2.63M推理模型 / 训练模型
ne_mobile_v2.0_rec尼泊尔文识别rec_ne_lite_train.yml2.63M推理模型 / 训练模型
rs_cyrillic_mobile_v2.0_rec塞尔维亚文(cyrillic)识别rec_rs_cyrillic_lite_train.yml2.63M推理模型 / 训练模型
bg_mobile_v2.0_rec保加利亚文识别rec_bg_lite_train.yml2.63M推理模型 / 训练模型
uk_mobile_v2.0_rec乌克兰文识别rec_uk_lite_train.yml2.63M推理模型 / 训练模型
be_mobile_v2.0_rec白俄罗斯文识别rec_be_lite_train.yml2.63M推理模型 / 训练模型
te_mobile_v2.0_rec泰卢固文识别rec_te_lite_train.yml2.63M推理模型 / 训练模型
kn_mobile_v2.0_rec卡纳达文识别rec_kn_lite_train.yml2.63M推理模型 / 训练模型
ta_mobile_v2.0_rec泰米尔文识别rec_ta_lite_train.yml2.63M推理模型 / 训练模型

三、文本方向分类模型

模型名称模型简介配置文件推理模型大小下载地址
ch_ppocr_mobile_v2.0_cls原始模型cls_mv3.yml1.38M推理模型 / 训练模型