1. 接口说明

印刷文字识别,通过全球领先的 OCR(光学字符识别 Optical Character Recognition)技术,自动对文档 OCR 进行识别,返回文档上的纯文本信息,可以省去用户手动录入的过程, 并会返回图片中文字的坐标位置,方便二次开发。 自动完成文档 OCR 信息的采集,可以很方便对接客户的后台数据系统,给用户带来极大的便利。 该印刷文字识别接口支持语种包括:中(简体和繁体)、英、日、韩、德、法、意、葡、西、荷,接口会自动判断文字语种。

2. 接口地址

  1. POST http[s]://webapi.xfyun.cn/v1/service/v1/ocr/recognize_document HTTP/1.1
  2. Content-Type:application/x-www-form-urlencoded; charset=utf-8

3. 请求参数

在 Http Request Header 中配置授权认证参数,见【接口描述-授权认证】。其中 X-Param 为各配置参数组成的JSON串经BASE64编码之后的字符串,原始JSON串各字段说明如下:

参数类型必须说明示例
engine_typestring引擎类型,固定为recognize_documentrecognize_document
imeistring手机序列号12345678
osidstring操作系统版本Android
uastring厂商|全称|机型信息|操作系统版本|分辨率vivo|vivoY67L|PD1612|ANDROID6.0|720*1280

X-Param生成示例:

  1. 原始JSON串:
  2. {
  3. "engine_type": "recognize_document"
  4. }
  5. BASE64编码(即X-Param):
  6. eyJlbmdpbmVfdHlwZSI6InJlY29nbml6ZV9kb2N1bWVudCJ9

在 Http Request Body 中配置以下参数:

参数类型必须说明示例
imagestring图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,仅支持jpg格式,推荐 jpg 文件设置为:尺寸 1024×768,图像质量 75 以上,位深度 24。exSI6ICJlbiIsCgkgICAgInBvc2l0aW9uIjogImZhbHNlIgoJf…

注:要求文档图片最短边最小不低于 20 像素,最大不超过 4096 像素。另外base64编码后大小会增加约1/3。

4. 返回值

返回值为json串,各字段如下:

参数类型说明
codestring结果码(具体见错误码)
datajson详见data说明
descstring描述
sidstring会话ID

其中sid字段主要用于追查问题,如果出现问题,可以提供sid给讯飞技术人员帮助确认问题。

data各字段说明如下:

字段名说明
error_msg引擎错误描述
error_code引擎错误码
engine_cost引擎识别耗时,以毫秒为单位
blocks文字块
lines文字行
characters文本行下的characters字段表示文本行中每个字符的坐标、置信度、内容
char_centers文本行下的char_centers字段表示文本行中每个字符的中心点位置
position结果文本的位置信息
bounding_box外接矩形的位置和大小
vertices文本四个顶点的位置坐标,按照左上、右上、右下、左下顺序排列
score识别结果置信度
text文本/字符内容
rotate_angle倾斜的文本引擎会转正后识别,该字段表示文本块的旋转角度

其中的error_msg和error_code的取值范围及说明对照表:

error_codeerror_msg说明
0ok正常返回
40001invalid parameter参数不对
40002missing parameter缺少参数
40003invalid user or password账号或密码不对
40004missing request body没有HTTP body
40005invalid image formatHTTP body不是图像或者不支持该格式
40006invalid image size图片太大或太小
40007fail to recognize识别失败
40008invalid content type通过HTTP form上传图片时,Content-Type无效
40009corrupted request body请求body损坏
40010fail to extract image提取图像裸数据失败
50001backend down后台服务器宕机
50004timeout识别超时
90099unknown未知错误

结果示例如下:

失败结果:

  1. {
  2. "code": "10105",
  3. "desc": "illegal access|no auth",
  4. "data": "",
  5. "sid": "wcr00001fa6@dxe4290f1bcfdd6f2b00"
  6. }

成功结果:

  1. {
  2. "code": "0",
  3. "data": {
  4. "document": {
  5. "blocks": [
  6. {
  7. "lines": [
  8. {
  9. "char_centers": [
  10. {
  11. "x": 38,
  12. "y": 50
  13. }
  14. ],
  15. "characters": [
  16. {
  17. "position": {
  18. "bounding_box": {
  19. "height": 60,
  20. "left": 4,
  21. "top": 20,
  22. "width": 76
  23. },
  24. "vertices": [
  25. {
  26. "x": 4,
  27. "y": 20
  28. },
  29. {
  30. "x": 80,
  31. "y": 20
  32. },
  33. {
  34. "x": 80,
  35. "y": 80
  36. },
  37. {
  38. "x": 4,
  39. "y": 79
  40. }
  41. ]
  42. },
  43. "score": 0.9999853372573853,
  44. "text": "劲"
  45. }
  46. ],
  47. "position": {
  48. "bounding_box": {
  49. "height": 59,
  50. "left": 5,
  51. "top": 20,
  52. "width": 85
  53. },
  54. "vertices": [
  55. {
  56. "x": 5,
  57. "y": 21
  58. },
  59. {
  60. "x": 90,
  61. "y": 20
  62. },
  63. {
  64. "x": 90,
  65. "y": 79
  66. },
  67. {
  68. "x": 5,
  69. "y": 79
  70. }
  71. ]
  72. },
  73. "score": 0.8800805807113648,
  74. "text": "劲"
  75. }
  76. ],
  77. "position": {
  78. "bounding_box": {
  79. "height": 59,
  80. "left": 5,
  81. "top": 20,
  82. "width": 85
  83. },
  84. "vertices": [
  85. {
  86. "x": 5,
  87. "y": 21
  88. },
  89. {
  90. "x": 90,
  91. "y": 20
  92. },
  93. {
  94. "x": 90,
  95. "y": 79
  96. },
  97. {
  98. "x": 5,
  99. "y": 79
  100. }
  101. ]
  102. }
  103. }
  104. ],
  105. "rotate_angle": 0
  106. },
  107. "engine_cost": 52.37993240356445,
  108. "error_code": 0,
  109. "error_msg": "ok"
  110. },
  111. "desc": "success",
  112. "sid": "wcr00001bc3@dx2aab0f1bd0d56f1a00"
  113. }

5. 调用示例

印刷文字识别(多语种)demo go语言

印刷文字识别(多语种)demo php语言

印刷文字识别(多语种)demo python3语言

印刷文字识别(多语种)demo java语言

印刷文字识别(多语种)demo c#语言

Copyright © iflytek.com 2018 all right reserved,powered by Gitbook该文件修订时间:2019-05-07 07:12:51