收起侧栏

2202034

最近更新时间: 2026-07-02 10:18:50

2202034(音频文件转写-V2.2.0)

接口信息

API Path
/aipaas/voice/v1/tts/largeFileTrans

请求协议
HTTPS

请求方法
POST

请求头部 ：

头部标签	必填	说明	头部内容	示例
Content-Type	是	内容类型	application/json	application/json
Content-Length	否	HTTP Body 中内容的⻓度
X-APP-ID	是	控制台-应用管理-创建应用-AppID
Device-Uuid	是	设备管理-设备uuid
Authorization	是	鉴权信息

请求参数 Json
Object

参数名	说明	必填	类型	限制	示例
req_id	请求全局唯一 ID，记录该值便于排查问题	是	[string]	0
file_link	存放录音文件的地址链接，支持 HTTP	是	[string]	0
enable_callback	是否启用回调功能，当前仅支持设为 true（开启回调方式）	是	[boolean]	0
callback_url	回调用户服务的地址，URL 支持 HTTP，如果开启 enable_callback，则该字段必须有值。	否	[string]	0
return_mode	结果返回模式，0:push，1:pull，默认为0。push模式即提供callback_url接收最终结果回调；pull模型即通过大模型异步调用结果回查接口查询最终调用结果，接口文档详见开发指南下的大模型异步调用结果回查。	否	[int]	32
sample_rate	音频采样率，默认值 16000 Hz，仅针对pcm 格式音频有效	否	[int]	0
num_channels	输入音频数据的通道数（正整数），默认值是 1，仅针对pcm 格式音频有效	否	[int]	0
enable_punc	是否开启加标点，默认值是 true	否	[boolean]	0
enable_itn	是否开启 ITN，默认值是 true	否	[boolean]	0
enable_s2t	是否返回繁体中文，默认值是 false	否	[boolean]	0
hotwords	热词列表	否	[array]	0	["热词A", "热词B"]

响应内容 ：

返回结果

成功 (200)
Json
Object

参数名	说明	必填	类型
code	状态码，⻅服务码说明	是	[int]
message	状态说明，⻅服务码说明	是	[string]
task_id	识别任务 ID	是	[string]
business_duration	识别的音频文件总时长，单位为毫秒，注：如果是双通道音频，总时长也会倍增	否	[int]
result		否	[object]
result>>sentences		否	[array]
result>>sentences>>begin_time	该句的起始时间偏移，单位为毫秒	否	[int]
result>>sentences>>end_time	该句的结束时间偏移，单位为毫秒	否	[int]
result>>sentences>>texts	该句的识别文本结果（如果开启 nbest，则是多个文本的列表）	否	[string]
result>>sentences>>channel_id	音轨通道id，0 为左声道，1为右声道	否	[int]
result>>sentences>>speaker_id	该句所属说话人 ID（当服务不具备话者分离能力时，speaker_id与channel_id相同）	否	[int]
result>>sentences>>confidence	当前句子识别结果的置信度，取值范围：[0.0, 1.0]，值越大表示置信度越高	否	[float]
result>>sentences>>loudness	该句的声音响度，单位：db	否	[float]

详细说明 ：

1、能力简介

离线语音识别，用于将离线音频文件的内容转换为文字的场景。

支持多轨 MP3、WAV、PCM、OGG 格式录音文件识别，其中 MP3 文件要求编码格式为 mp3，WAV 和 PCM 文件要求编码格式为 pcm_s16le；
支持调用方式：当前仅支持回调方式；
支持 8000 Hz、16000 Hz、22050Hz、24000 Hz、32000 Hz、44100 Hz、48000 Hz 采样率；
支持汉语普通话；
录音文件地址链接支持 HTTP，且访问权限需要保证能被服务端访问和下载；

2、修订历史

修订日期	算法版本号	修订内容
2026-1-12	V2.2.0	将算法单pod当前内存中队列数量和正在处理的数量日志加上，方便与星河上层负载数量与算法pod内数量对齐。

3、服务鉴权

服务接口调用时需要严格遵循服务鉴权规则，服务调用鉴权规则请参见：开发指南 - 接口签名认证。

4、请求参数说明

务必保证“file_link”与“callback_url”所填地址与服务的网络连通性。

5、响应结果说明

调用方会收到两次响应，第一次为请求的同步响应，不包含识别结果；第二次为异步回调响应，由“callback_url”接收，包含识别结果。

6、请求示例

{
    "file_link": "<https://gw.alipayobjects.com/os/bmw-prod/0574ee2e-f494-45a5-820f-63aee583045a.wav>",
    "req_id": "3a87fe9793c9-4ebd-95d4-4ce2-a80c054b",
    "enable_callback": true,
    "callback_url": "<http://{ip}/{port}/{uri}>"
}

7、状态码说明

状态码	解释	说明	解决方法
10301	Required parameter miss	必填参数缺失	检查请求体是否符合接口协议
10302	Too many requests	并发请求过多	联系商务，增加并发
10304	Parse request body fail	请求格式错误	查看请求的 URL body 格式是否正确，参考接口文档
10503	Server connection time out	服务连接超时	联系技术人员
10603	Fetch audio failed	获取音频文件失败	检查文件 URL 是否正确
10604	Decode audio failed	解析音频文件失败	检查源音频文件格式是否正确
10605	Resample audio failed	重采样音频失败	联系技术人员
10607	Audio too large	音频文件过大	切分音频再进行识别
10608	Audio too long	音频过长	切分音频再进行识别
10801	Task processing	任务处理中	等待重新查询
10903	Recognition failed	识别失败	联系技术人员
10904	Query failed	查询失败	联系技术人员，通常是因为 task id 错误导致
10905	Unexpected error	未知错误	联系技术人员
10000	Success	成功	执行下一步操作

1、能力简介

离线语音识别，用于将离线音频文件的内容转换为文字的场景。
- 支持多轨 MP3、WAV、PCM、OGG 格式录音文件识别，其中 MP3 文件要求编码格式为 mp3，WAV 和 PCM 文件要求编码格式为 pcm_s16le；
- 支持调用方式：当前仅支持回调方式；
- 支持 8000 Hz、16000 Hz、22050Hz、24000 Hz、32000 Hz、44100 Hz、48000 Hz 采样率；
- 支持汉语普通话；
- 录音文件地址链接支持 HTTP，且访问权限需要保证能被服务端访问和下载；

2、修订历史

修订日期	算法版本号	修订内容
2026-1-12	V2.2.0	将算法单pod当前内存中队列数量和正在处理的数量日志加上，方便与星河上层负载数量与算法pod内数量对齐。

3、服务鉴权

服务接口调用时需要严格遵循服务鉴权规则，服务调用鉴权规则请参见：开发指南 - 接口签名认证。

4、请求参数说明

务必保证“file_link”与“callback_url”所填地址与服务的网络连通性。

5、响应结果说明

调用方会收到两次响应，第一次为请求的同步响应，不包含识别结果；第二次为异步回调响应，由“callback_url”接收，包含识别结果。

6、请求示例

{
    "file_link": "<https://gw.alipayobjects.com/os/bmw-prod/0574ee2e-f494-45a5-820f-63aee583045a.wav>",
    "req_id": "3a87fe9793c9-4ebd-95d4-4ce2-a80c054b",
    "enable_callback": true,
    "callback_url": "<http://{ip}/{port}/{uri}>"
}

7、状态码说明

状态码	解释	说明	解决方法
10301	Required parameter miss	必填参数缺失	检查请求体是否符合接口协议
10302	Too many requests	并发请求过多	联系商务，增加并发
10304	Parse request body fail	请求格式错误	查看请求的 URL body 格式是否正确，参考接口文档
10503	Server connection time out	服务连接超时	联系技术人员
10603	Fetch audio failed	获取音频文件失败	检查文件 URL 是否正确
10604	Decode audio failed	解析音频文件失败	检查源音频文件格式是否正确
10605	Resample audio failed	重采样音频失败	联系技术人员
10607	Audio too large	音频文件过大	切分音频再进行识别
10608	Audio too long	音频过长	切分音频再进行识别
10801	Task processing	任务处理中	等待重新查询
10903	Recognition failed	识别失败	联系技术人员
10904	Query failed	查询失败	联系技术人员，通常是因为 task id 错误导致
10905	Unexpected error	未知错误	联系技术人员
10000	Success	成功	执行下一步操作

大模型体验中心

开放能力

开发平台

应用产品

解决方案

关于天翼AI

热门搜索

2202034

2202034(音频文件转写-V2.2.0)

接口信息

1、能力简介

2、修订历史

3、服务鉴权

4、请求参数说明

5、响应结果说明

6、请求示例

7、状态码说明

1、能力简介

2、修订历史

3、服务鉴权

4、请求参数说明

5、响应结果说明

6、请求示例

7、状态码说明