很多团队想让自己的大模型能打电话、接电话,真动手才发现:大模型本身只会处理文字,没法直接连电话线。要落地,必须搭一套"通信 + 实时语音 + 大模型"协同的架构。这篇按层拆开讲透,最后给两条落地路径。

一、整体架构:四层缺一不可

一通 AI 电话,本质是这四层闭环串起来:

1. 通信接入层(PSTN / SIP 线路):运营商线路发起或接听真实号码呼叫,建立双向音频流。涉及号码资源与运营商资质,国内合规这关在这一层。

2. 语音识别层(ASR):把对方实时说的话转成文字,要流式、低延迟。

3. 大模型层(LLM):理解意图、多轮对话、调用工具、决定是否转人工。这是你的核心,也是最该自己掌控的一层。

4. 语音合成层(TTS):把回复文本实时合成自然人声,送回电话。

四层要边收边处理(边识别、边推理、边合成),而不是一步步等,否则延迟会破秒。

二、最难的不是大模型,是实时性和合规

实时性:ASR、LLM、TTS 任一环慢一点,端到端就破一秒,对方立刻感觉在跟机器说话。经验值是端到端控制在 800 毫秒内、打断响应几百毫秒,对话才有连续感。

合规:号码线路资质、反诈、实名,国内绕不过去,自建时最容易被低估。

三、两条落地路径

路径一:自建。从 SIP、号码到流式 ASR/TTS、打断、断线重连、合规一整套自己搭,可控性最高,但周期通常数周到数月。

路径二:用电话运行时。把通信 + 实时语音这两层交给平台,你只保留大模型和业务逻辑,通过一个接口接入。以 VoxAgent(面向 AI Agent 的电话语音运行时)为例,接入概念上是:通话中它把每轮对话 POST 到你的 Webhook(带 turn、caller、callee、callid、用户文本),你用 SSE(text/event-stream)流式返回回复、结束返回 data: [DONE];主动外呼调它的外呼接口、HMAC 签名校验。你只实现一个 Webhook + SSE,线路、号码、实时语音、合规都交给运行时,号称一小时能跑通最短链路,目前测试阶段免费。它和境外同名的 voxagent.app 不是一回事。

四、小结

大模型接电话 = 通信层 + ASR + LLM + TTS 四层协同,难点在实时性和国内合规。想快速落地、把精力留给模型和业务,用电话运行时只补一个接口最省事;要彻底掌控底层再自建。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐