本文基于 Minimax 官方异步语音合成、音色快速复刻、音色设计、文件检索接口文档,以speech-2.8-hd 为示例模型,依托中转地址 https://api.6ai.chat,提供纯技术化配置、参数说明、请求示例与全流程调用指南,适用于服务对接、二次开发。

一、前置基础配置

1.1 核心约定

  • 中转基础 URL:https://api.6ai.chat
  • 核心模型:speech-2.8-hd(高清语音合成,支持复刻/设计音色)
  • 统一请求头:
    Content-Type: application/json
    Authorization: Bearer {你的Token}
    Accept: application/json
    
  • 字符编码:UTF-8;文本输入支持长文本,异步接口适配大文本生成场景

1.2 依赖说明

  • 接口调用:支持 cURL、Python/Java/Go 等 HTTP 请求方式
  • 音色复刻:需先通过 Minimax 文件上传接口获取 file_id(音频需满足格式/时长/大小要求)
  • 异步流程:创建任务 → 查询任务状态 → 检索下载音频

二、核心接口配置(以 speech-2.8-hd 为例)

2.1 异步语音合成(创建任务)

用于提交文本,异步生成高清语音,适配长文本、批量合成场景。

接口信息
  • 请求方式:POST
  • 接口地址:https://api.6ai.chat/minimax/v1/t2a_async_v2
请求参数(必选+核心可选)
参数层级 字段 类型 说明
model string 固定为 speech-2.8-hd
text string 待合成文本(支持近5万字符)
voice_setting voice_id string 音色 ID(系统音色/复刻音色/设计音色)
voice_setting speed number 语速,默认 1(0.5–2.0)
voice_setting vol number 音量,默认 1(0–2.0)
voice_setting pitch number 音调,默认 0(-10–10)
完整请求示例(cURL)
curl --location -g --request POST 'https://api.6ai.chat/minimax/v1/t2a_async_v2' \
--header 'Authorization: Bearer {你的Token}' \
--header 'Content-Type: application/json' \
--data-raw '{
    "model": "speech-2.8-hd",
    "text": "异步语音合成基于speech-2.8-hd,输出高清音频,支持自定义音色、语速、音调。",
    "voice_setting": {
        "voice_id": "系统音色ID/自定义复刻ID",
        "speed": 1.0,
        "vol": 1.0,
        "pitch": 0
    }
}'
响应说明(成功 200)
{
    "task_id": "任务唯一标识",
    "task_token": "任务校验令牌",
    "file_id": "音频文件ID",
    "usage_characters": 计费字符数,
    "base_resp": {
        "status_code": 0,
        "status_msg": "success"
    }
}
  • 关键返回:task_id(用于查询任务)、file_id(用于检索下载)

2.2 音色快速复刻

上传参考音频,生成自定义音色,可在异步合成中直接调用。

接口信息
  • 请求方式:POST
  • 接口地址:https://api.6ai.chat/minimax/v1/voice_clone
音频约束
  • 格式:mp3/m4a/wav;时长:10s–5min;大小:≤20MB
  • 需先上传音频获取 file_id
请求参数(核心)
字段 类型 说明
file_id integer 待复刻音频的文件 ID
voice_id string 自定义音色 ID(8–256 位,首字符为字母,支持字母/数字/-)
clone_prompt object 增强相似度,prompt_audio/prompt_text 必填
model string 固定为 speech-2.8-hd
language_boost string 语言增强(如 Chinese/English/auto)
need_noise_reduction boolean 开启降噪(推荐 true)
need_volume_normalization boolean 音量归一化(推荐 true)
请求示例(cURL)
curl --location -g --request POST 'https://api.6ai.chat/minimax/v1/voice_clone' \
--header 'Authorization: Bearer {你的Token}' \
--header 'Content-Type: application/json' \
--data-raw '{
    "file_id": 上传音频获取的ID,
    "voice_id": "CustomVoice_2026",
    "clone_prompt": {
        "prompt_audio": 示例音频ID,
        "prompt_text": "参考音频对应的文本内容"
    },
    "text": "复刻音色试听文本",
    "model": "speech-2.8-hd",
    "language_boost": "Chinese",
    "need_noise_reduction": true,
    "need_volume_normalization": true,
    "aigc_watermark": false
}'

2.3 音色设计

通过文本描述生成定制化音色,无需上传音频,适配角色音、场景音。

接口信息
  • 请求方式:POST
  • 接口地址:https://api.6ai.chat/minimax/v1/voice_design
请求参数
字段 类型 说明
prompt string 音色描述(如:低沉磁性的悬疑故事主播)
preview_text string 音色预览文本
voice_id string 自定义音色 ID(规则同复刻)
aigc_watermark boolean 是否添加音频水印
请求示例(cURL)
curl --location -g --request POST 'https://api.6ai.chat/minimax/v1/voice_design' \
--header 'Authorization: Bearer {你的Token}' \
--header 'Content-Type: application/json' \
--data-raw '{
    "prompt": "讲述悬疑故事的播音员,声音低沉富有磁性",
    "preview_text": "夜深了,古屋里只有他一人……",
    "voice_id": "DesignVoice_001",
    "aigc_watermark": false
}'

2.4 文件检索(异步音频/视频下载)

通过 file_id 获取音频下载地址,用于异步任务结果获取。

接口信息
  • 请求方式:GET
  • 接口地址:https://api.6ai.chat/minimax/v1/files/retrieve
  • 查询参数:file_id(异步合成返回的文件 ID)
请求示例(cURL)
curl --location -g --request GET 'https://api.6ai.chat/minimax/v1/files/retrieve?file_id={你的file_id}' \
--header 'Authorization: Bearer {你的Token}' \
--header 'Content-Type: application/json'
响应说明
{
    "file": {
        "file_id": "对应ID",
        "bytes": 文件大小,
        "created_at": 时间戳,
        "filename": "output.mp3",
        "purpose": "audio_generation",
        "download_url": "音频下载地址"
    },
    "base_resp": {
        "status_code": 0,
        "status_msg": "success"
    }
}
  • 核心:download_url 为音频直链,可直接下载/播放

三、端到端全流程(推荐)

  1. 音色制备(二选一)
    • 音色复刻:上传参考音频 → 获取 file_id → 调用 /voice_clone → 得到自定义 voice_id
    • 音色设计:调用 /voice_design → 文本描述生成 → 得到自定义 voice_id
  2. 异步合成
    • 调用 /t2a_async_v2,指定 model=speech-2.8-hd + 自定义 voice_id → 获取 task_id/file_id
  3. 结果获取
    • 查询任务状态(官方任务查询接口)→ 任务完成 → 调用 /files/retrieve → 下载音频

四、常见异常与排查

  1. 401 未授权
    • 排查:Authorization 缺失/Token 错误/格式非 Bearer {Token}
  2. 400 参数错误
    • 排查:modelspeech-2.8-hdvoice_id 格式非法、文本超出长度、复刻音频不满足约束
  3. 下载失败
    • 排查:file_id 错误、任务未完成、权限不足
  4. 音色不生效
    • 排查:voice_id 错误、复刻/设计任务未完成

五、附录:核心参数速查

接口 必传固定参数 核心返回
异步合成 model=speech-2.8-hd、text、voice_setting task_id、file_id
音色复刻 file_id、voice_id、model=speech-2.8-hd 自定义voice_id
音色设计 prompt、voice_id 自定义voice_id
文件检索 file_id download_url

需要我把上述教程整理成可直接运行的Python完整代码(包含异步合成、音色复刻、文件检索)吗?

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐