1. 接口说明

语音听写接口可将语音(≤60秒)转换成对应的文字信息,支持中文普通话、英文以及多种中文方言,可在 这里 在线体验效果。该能力是通过HTTP API的方式给开发者提供一个通用的接口,适用于一次性交互数据传输的AI服务场景,即将音频一次性发送至云端,块式传输。相较于SDK,API具有轻量、跨语言的特点,不过请注意该接口使用的HTTP API协议不支持跨域

2. 接口Demo

示例demo请点击 这里 下载。目前仅提供部分开发语言的demo,其他语言请参照下方接口文档进行开发。也欢迎热心的开发者到 讯飞开放平台社区 分享你们的demo。

3. 接口要求

集成语音听写API时,需按照以下要求。

内容说明
请求协议http(s)
请求地址http[s]://api.xfyun.cn/v1/service/v1/iat
请求方式POST
接口鉴权签名机制,见接口描述-授权认证
字符编码UTF-8
响应格式统一采用JSON格式
开发语言任意,只要可以向讯飞云服务发起HTTP请求的均可
适用范围任意操作系统,但因不支持跨域不适用于浏览器
音频属性采样率16k或8k、位长16bit、单声道
音频格式PCM、WAV、SPEEX,样例音频可点击 这里 下载
音频大小最长60s,编码后大小不超过2M
语言种类中文普通话、英文以及多种中文方言

注: 在控制台添加服务后默认开通中文普通话和英文引擎,其他方言权限默认不开通,请在 这里 在线体验效果,若效果能满足您的需求请联系商务人员。

4. 接口调用流程

采用通用的接口调用流程,详细请参照 接口描述

接口地址示例:

  1. POST http[s]://api.xfyun.cn/v1/service/v1/iat HTTP/1.1
  2. Content-Type:application/x-www-form-urlencoded; charset=utf-8

5. 接口请求参数

5.1. Header参数

在 Http Request Header 中配置授权认证参数,见 接口描述-授权认证 。其中 X-Param 为各配置参数组成的 JSON 串经 BASE64 编码之后的字符串,原始 JSON 串各字段说明如下:

参数类型必须说明示例
enginetypestring引擎类型,可选值:sms16k(16k采样率普通话音频)、sms8k(8k采样率普通话音频)、sms-en16k(16k采样率英语音频),sms-en8k(8k采样率英语音频),更多请和商务人员申请。sms16k
auestring音频编码raw(未压缩的pcm或wav格式)speex(speex格式、采样率8k)speex-wb(宽频speex格式、采样率16k)raw
speex_sizestringspeex音频帧率,仅在speex音频时使用1. 当speex编码为非讯飞定制speex编码时必须指定2. 当speex编码为讯飞定制speex编码时不要设置注:_ 讯飞定制SPEEX编码工具请参考这里 speex编码60
scenestring情景模式。如需使用热词功能,必须指定scene=main。main
vad_eosstring后端点检测(单位:ms),默认1800,取值范围0-100002000

X-Param生成示例:

  1. 原始JSON串:
  2. {
  3. "engine_type": "sms16k",
  4. "aue": "raw"
  5. }
  6. BASE64编码(即X-Param):
  7. eyJlbmdpbmVfdHlwZSI6ICJzbXMxNmsiLCJhdWUiOiAicmF3In0=

5.2. Body参数

在 Http Request Body 中配置以下参数:

参数类型必须说明示例
audiostring音频数据base64编码后进行urlencode要求base64编码和urlencode后大小不超过2M,原始音频时长不超过60sexSI6ICJlbiIsCgkgICAg…

_注:_base64 编码后大小会增加约1/3

6. 接口返回参数

返回值为 json 串,各字段如下:

参数类型说明
codestring结果码(具体见错误码)
datastring语音识别后文本结果
descstring描述
sidstring会话ID

其中 sid 字段主要用于追查问题,如果出现问题,可以提供 sid 给讯飞技术人员帮助确认问题。

示例如下:

失败:

  1. {
  2. "code": "10106",
  3. "desc": "invalid parameter|invalid X-Appid",
  4. "data": "",
  5. "sid": "zat0000bb3f@ch3d5c059d83b3477200"
  6. }

成功:

  1. {
  2. "code":"0",
  3. "data":"科大讯飞作为中国最大的智能语音技术提供商",
  4. "sid":"zat00000009@ch0fc40d9e4cdf000100",
  5. "desc":"success"
  6. }

7. 调用示例

语音听写demo go语言

语音听写demo php语言

语音听写demo java语言

语音听写demo python3语言

语音听写demo c#语言

8. 音频样例

语音听写 音频样例 中文普通话 PCM文件 采样率16k

语音听写 音频样例 中文普通话 PCM文件 采样率8k

语音听写 音频样例 中文普通话 WAV文件 采样率16k

语音听写 音频样例 中文普通话 WAV文件 采样率8k

语音听写 音频样例 中文普通话 SPEEX文件(讯飞定制SPEEX编码) 采样率16k

语音听写 音频样例 中文普通话 SPEEX文件(讯飞定制SPEEX编码) 采样率8k

语音听写 音频样例 合肥方言 PCM文件 采样率16k

语音听写 音频样例 合肥方言 PCM文件 采样率8k

语音听写 音频样例 合肥方言 WAV文件 采样率16k

语音听写 音频样例 合肥方言 WAV文件 采样率8k

语音听写 音频样例 合肥方言 SPEEX文件(讯飞定制SPEEX编码) 采样率16k

语音听写 音频样例 合肥方言 SPEEX文件(讯飞定制SPEEX编码) 采样率8k

注: 音频文件格式转换工具以及讯飞定制SPEEX编码工具请参考这里 音频格式说明

Copyright © iflytek.com 2018 all right reserved,powered by Gitbook该文件修订时间:2019-05-07 07:12:51