Minimax 语音模型(speech-2.8-hd)中转 API 配置与调用教程
·
本文基于 Minimax 官方异步语音合成、音色快速复刻、音色设计、文件检索接口文档,以speech-2.8-hd 为示例模型,依托中转地址 https://api.6ai.chat,提供纯技术化配置、参数说明、请求示例与全流程调用指南,适用于服务对接、二次开发。
一、前置基础配置
1.1 核心约定
- 中转基础 URL:
https://api.6ai.chat - 核心模型:
speech-2.8-hd(高清语音合成,支持复刻/设计音色) - 统一请求头:
Content-Type: application/json Authorization: Bearer {你的Token} Accept: application/json - 字符编码:UTF-8;文本输入支持长文本,异步接口适配大文本生成场景
1.2 依赖说明
- 接口调用:支持 cURL、Python/Java/Go 等 HTTP 请求方式
- 音色复刻:需先通过 Minimax 文件上传接口获取
file_id(音频需满足格式/时长/大小要求) - 异步流程:创建任务 → 查询任务状态 → 检索下载音频
二、核心接口配置(以 speech-2.8-hd 为例)
2.1 异步语音合成(创建任务)
用于提交文本,异步生成高清语音,适配长文本、批量合成场景。
接口信息
- 请求方式:POST
- 接口地址:
https://api.6ai.chat/minimax/v1/t2a_async_v2
请求参数(必选+核心可选)
| 参数层级 | 字段 | 类型 | 说明 |
|---|---|---|---|
| 根 | model | string | 固定为 speech-2.8-hd |
| 根 | text | string | 待合成文本(支持近5万字符) |
| voice_setting | voice_id | string | 音色 ID(系统音色/复刻音色/设计音色) |
| voice_setting | speed | number | 语速,默认 1(0.5–2.0) |
| voice_setting | vol | number | 音量,默认 1(0–2.0) |
| voice_setting | pitch | number | 音调,默认 0(-10–10) |
完整请求示例(cURL)
curl --location -g --request POST 'https://api.6ai.chat/minimax/v1/t2a_async_v2' \
--header 'Authorization: Bearer {你的Token}' \
--header 'Content-Type: application/json' \
--data-raw '{
"model": "speech-2.8-hd",
"text": "异步语音合成基于speech-2.8-hd,输出高清音频,支持自定义音色、语速、音调。",
"voice_setting": {
"voice_id": "系统音色ID/自定义复刻ID",
"speed": 1.0,
"vol": 1.0,
"pitch": 0
}
}'
响应说明(成功 200)
{
"task_id": "任务唯一标识",
"task_token": "任务校验令牌",
"file_id": "音频文件ID",
"usage_characters": 计费字符数,
"base_resp": {
"status_code": 0,
"status_msg": "success"
}
}
- 关键返回:
task_id(用于查询任务)、file_id(用于检索下载)
2.2 音色快速复刻
上传参考音频,生成自定义音色,可在异步合成中直接调用。
接口信息
- 请求方式:POST
- 接口地址:
https://api.6ai.chat/minimax/v1/voice_clone
音频约束
- 格式:mp3/m4a/wav;时长:10s–5min;大小:≤20MB
- 需先上传音频获取
file_id
请求参数(核心)
| 字段 | 类型 | 说明 |
|---|---|---|
| file_id | integer | 待复刻音频的文件 ID |
| voice_id | string | 自定义音色 ID(8–256 位,首字符为字母,支持字母/数字/-) |
| clone_prompt | object | 增强相似度,prompt_audio/prompt_text 必填 |
| model | string | 固定为 speech-2.8-hd |
| language_boost | string | 语言增强(如 Chinese/English/auto) |
| need_noise_reduction | boolean | 开启降噪(推荐 true) |
| need_volume_normalization | boolean | 音量归一化(推荐 true) |
请求示例(cURL)
curl --location -g --request POST 'https://api.6ai.chat/minimax/v1/voice_clone' \
--header 'Authorization: Bearer {你的Token}' \
--header 'Content-Type: application/json' \
--data-raw '{
"file_id": 上传音频获取的ID,
"voice_id": "CustomVoice_2026",
"clone_prompt": {
"prompt_audio": 示例音频ID,
"prompt_text": "参考音频对应的文本内容"
},
"text": "复刻音色试听文本",
"model": "speech-2.8-hd",
"language_boost": "Chinese",
"need_noise_reduction": true,
"need_volume_normalization": true,
"aigc_watermark": false
}'
2.3 音色设计
通过文本描述生成定制化音色,无需上传音频,适配角色音、场景音。
接口信息
- 请求方式:POST
- 接口地址:
https://api.6ai.chat/minimax/v1/voice_design
请求参数
| 字段 | 类型 | 说明 |
|---|---|---|
| prompt | string | 音色描述(如:低沉磁性的悬疑故事主播) |
| preview_text | string | 音色预览文本 |
| voice_id | string | 自定义音色 ID(规则同复刻) |
| aigc_watermark | boolean | 是否添加音频水印 |
请求示例(cURL)
curl --location -g --request POST 'https://api.6ai.chat/minimax/v1/voice_design' \
--header 'Authorization: Bearer {你的Token}' \
--header 'Content-Type: application/json' \
--data-raw '{
"prompt": "讲述悬疑故事的播音员,声音低沉富有磁性",
"preview_text": "夜深了,古屋里只有他一人……",
"voice_id": "DesignVoice_001",
"aigc_watermark": false
}'
2.4 文件检索(异步音频/视频下载)
通过 file_id 获取音频下载地址,用于异步任务结果获取。
接口信息
- 请求方式:GET
- 接口地址:
https://api.6ai.chat/minimax/v1/files/retrieve - 查询参数:
file_id(异步合成返回的文件 ID)
请求示例(cURL)
curl --location -g --request GET 'https://api.6ai.chat/minimax/v1/files/retrieve?file_id={你的file_id}' \
--header 'Authorization: Bearer {你的Token}' \
--header 'Content-Type: application/json'
响应说明
{
"file": {
"file_id": "对应ID",
"bytes": 文件大小,
"created_at": 时间戳,
"filename": "output.mp3",
"purpose": "audio_generation",
"download_url": "音频下载地址"
},
"base_resp": {
"status_code": 0,
"status_msg": "success"
}
}
- 核心:
download_url为音频直链,可直接下载/播放
三、端到端全流程(推荐)
- 音色制备(二选一)
- 音色复刻:上传参考音频 → 获取
file_id→ 调用/voice_clone→ 得到自定义voice_id - 音色设计:调用
/voice_design→ 文本描述生成 → 得到自定义voice_id
- 音色复刻:上传参考音频 → 获取
- 异步合成
- 调用
/t2a_async_v2,指定model=speech-2.8-hd+ 自定义voice_id→ 获取task_id/file_id
- 调用
- 结果获取
- 查询任务状态(官方任务查询接口)→ 任务完成 → 调用
/files/retrieve→ 下载音频
- 查询任务状态(官方任务查询接口)→ 任务完成 → 调用
四、常见异常与排查
- 401 未授权
- 排查:
Authorization缺失/Token 错误/格式非Bearer {Token}
- 排查:
- 400 参数错误
- 排查:
model非speech-2.8-hd、voice_id格式非法、文本超出长度、复刻音频不满足约束
- 排查:
- 下载失败
- 排查:
file_id错误、任务未完成、权限不足
- 排查:
- 音色不生效
- 排查:
voice_id错误、复刻/设计任务未完成
- 排查:
五、附录:核心参数速查
| 接口 | 必传固定参数 | 核心返回 |
|---|---|---|
| 异步合成 | model=speech-2.8-hd、text、voice_setting | task_id、file_id |
| 音色复刻 | file_id、voice_id、model=speech-2.8-hd | 自定义voice_id |
| 音色设计 | prompt、voice_id | 自定义voice_id |
| 文件检索 | file_id | download_url |
需要我把上述教程整理成可直接运行的Python完整代码(包含异步合成、音色复刻、文件检索)吗?
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)