本文深入解析AI大模型从“无思考”到“边思考边行动”的演进历程,重点介绍DeepSeek-V3.2与“思考融入工具调用”(Thinking in Tool-Use)技术突破。文章通过对比分析四种模型阶段,揭示Interleaved Thinking(交错思维链)如何实现动态反馈循环,推动模型性能跃升。同时,探讨MiniMax等团队如何通过生态适配与开源实践,将这一概念从理论变为工程现实,为开发者提供可复用的Agent框架,引领智能体发展新范式。

这两天在AI大模型这个日新月异的圈子里面发生了几件事,都挺有纪念意义的。

第一件是DeepSeek-V3.2的发布,将开源模型的智能极限又往前推进了一步,特别是同时发布的一个speciale特别定制版,更是在多个专门测试推理(Reasoning)和智能体(Agentic)的benchmark上达到了全新的高度,跟目前顶级的闭源模型,Gemini-3.0-Pro以及GPT-5-High等模型齐平,甚至还有所超越。

*来源:*https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf

除了注意力机制的进一步创新、新的数据合成技术之外,这次最受行业关注的亮点之一,是 DeepSeek 官方反复强调的能力:

“Thinking in Tool-Use”(思考融入工具调用)

可以看到,在这个benchmark上,用上这个机制的模型还不算多,但头部模型的融合率已经开始显现,包括 MiniMax M2 等一批具备较强 Agent 能力的模型,都在不同程度上支持类似的交错推理结构。

*来源:*https://api-docs.deepseek.com/news/news251201

事实上,“Thinking in Tool-Use” 并不是一个新的概念,而是一个更标准、更通用的技术术语的工程化体现—它的本质叫 Interleaved Thinking(交错思维链)。这个术语在业内已经逐渐被采用,包括 MiniMax 在其 M2 技术博客中也使用了同样的叫法,并进一步把它定义成 Agent 推理的核心范式。

Interleave这个词意思其实很简单,根据剑桥词典的解释,就是在一部分内容里“嵌入”一些内容。

但仅从字面理解并不够直观,要真正感受到它的意义,我们必须把视角拉回到这两天发生的第二件具有象征意义的事件——ChatGPT 三岁生日。

三年前,初代 ChatGPT 的面世,让 NLP 这个曾经细分成几十种任务的小王国被瞬间“大一统”——分类、摘要、对话、翻译通通被一个统一的架构吞并。那确实是一个时代,但今天回头看,当时的大模型其实还非常稚嫩。

对普通用户来说,他们早已习惯了与 AI 的经典两步式互动模式:

提问题 → 等结果。

这个表层交互模式直到今天似乎都没什么变化,但在背后,大模型自身已经经历了非常快速的几轮演化。 如果用一种略带“工程视角”的方式来概括,我们大致可以把这三年的发展看作是从最初的 No-Thinking → Thinking → Tool-Use Agent → Interleaved Thinking Agent 四个阶段的演进。

在这条演进轨迹中,不同模型扮演了不同角色——

ChatGPT 的诞生,几乎可以视作第一阶段的起点,也把“大模型对话”推向了大众;

随后的一系列模型(包括 Claude 在内)在思维链、长推理上的表现,进一步强化了“Thinking 模型”的范式;

DeepSeek V3.2 又用 “Thinking in Tool-Use” 把“思考与工具调用一体化”推到了台前;

而包括 MiniMax 在内的多家团队,则在过去几个月持续把 Interleaved Thinking 往前推了一步——从模型能力,扩展到调用方式、生态适配和开源实践,让它逐渐从“论文里的概念”变成“工程里真正可用的能力”。

第一代:No-Thinking ——没有思考的模型

我们还用做饭这件事来解释,最初的大模型不会“想”,就跟新手厨师一样,就是死记硬背菜谱,表现上更像一个超强版的自动补全:你问它一个问题,它不假思索地直接给答案。

优点是快,但问题也很明显:

  • 对长对话没有记忆
  • 遇到复杂任务容易“张口就来”
  • 数学、逻辑问题经常胡编

这种“无思考的模型”,性能很快就到达了天花板。

第二代:Thinking —— 模型学会规划,但仍是“一次性想完”

后来,模型学会了“先思考,再回答”。这一步非常重要,让大模型的质量跃升一个台阶。它不再单纯的背菜谱,而是开始先思考再回答了。

但它的问题也同样明显:

模型会在内部一次性把整套推理链“憋完”,然后一口气输出结果。

这就像是:

厨师在开火之前,先在脑子里把整道菜从头到尾“模拟做一遍”,然后严格按这个脑内菜谱执行。

厨师也不是超人,他不可能把现实世界的所有情况都考虑到。

特别是现实世界不是静态的—

  • 如果食材状态不同怎么办?
  • 如果灶的温度不够怎么办?
  • 如果步骤中途需要修正怎么办?

Thinking-only 模式在真实的、多变的任务里仍然力不从心。

第三代:Agent —— 有工具,但不会“边用边想”

Agent时代,大模型终于不再是单纯用脑子来模拟一切了,而是真正意义上的掌握了工具的用法,也就是Tool-Use。

它可以写代码、调用 API、查资料、执行搜索,标志性的应用就是深度研究(Deep Research)功能。

大模型会针对于某个具体的问题,在互联网上搜索,用代码工具来模拟,最后调用各种文档编辑方法,生成一份精美的文档或者PPT。

这让模型的能力进一步解锁,但问题依然在:

它的推理仍然是单块式的:先憋一大段思考,再一次性调用工具。

它配备了工具,却缺乏“边用工具边推理、边推理边修正”的能力。

他现在有了各种刀具、温度计、油温探头,看上去武装到了牙齿,但做菜时依然习惯于——先在脑子里把全流程想完,再机械地照着执行,而不是在烹饪过程中不断尝味道、看火候、边做边调整。

第四代:Interleaved Thinking —— 真正意义上的 AI“像人一样做事”

从第一代到第三代,解决问题的能力可以说是在跃升,从不断被刷新的benchmark分数可见一斑。

但问题依旧存在,那就是“计划是死的,而现实不仅是活的,而且非常多变”,因为真正的智能需要在思考和行动之间建立一个动态的、实时的反馈循环。

Interleaved Thinking 的提出,恰恰补上了这个缺失许久的核心能力。

这也是顶级厨师具备的素质,他们可以在烹饪中不断的品尝、调整火候、根据食材的反应及时修正自己的下一步动作。

放在AI领域里面,我们可以用 MiniMax 的这张图,我们可以看得更清楚:

左侧的 “Without Interleaved Thinking” 模式看起来有工具调用,但本质上依旧是“先想完后做完”。工具调用只是附属,不会影响下一轮推理。

右侧的 “With Interleaved Thinking” 模式则完全不同:

  • 模型思考中嵌入工具使用
  • 工具返回结果嵌入下一轮思考
  • 推理链保持连续
  • 状态不会丢失
  • 整个任务形成一个动态闭环

这就像人类解决问题时的方式:

边分析、边尝试、边修正。

它让模型第一次具备了真正“过程式”的智能:

想一小步 → 执行一小步 → 根据执行结果继续想 → 再继续执行 → 反复迭代直到任务完成。

它不是更快,也不是更大,而是思维结构本身的升级

它带来的结果也是非常显著的,使用了这套思维结构的开源模型,与闭源模型的差距不断的缩小。

MiniMax-M2这个模型做的实验结果就能看到,在 “保留推理链” vs “丢弃推理链” 的对比测试中,在多个 Agent 基准任务上都有非常显著的提升:

  • SWE-Bench Verified:+3.3%
  • Tau²:+35.9%
  • BrowseComp:+40.1%
  • GAIA:+11.5%
  • xBench:+9.1%

如果只看数字,可能会觉得有些提升“也就几个点”。

但当你把视角切换到完整榜单,就会发现这几个点在实际竞争中的含金量非常高——以 SWE-Bench Verified 为例,个位数的提升就足以让一个模型在排行榜上上升好几位。

*来源:*https://www.swebench.com/

更重要的是,对于 Agent 场景而言,这些差异往往意味着:

  • 是“勉强能用”,还是“可以放心交给它跑一整晚”;
  • 是“要人盯着纠错”,还是“真正具备自主完成任务的能力”。

但实际上,Interleaved Thinking 能够从“非共识的小众机制”,发展到今天成为越来越多头部模型的共同选择。

就在DS-V3.2发布后,reddit上的这个帖子就说了,开源大模型领域,用了这个技术的模型并不多,OpenAI的GPT-oss,MiniMax M2,Kimi-K2。

这反映了整个行业的技术演进,但如果放大到整个生态层面,你会发现一个往往被忽略的事实:

它之所以能“真正落地”,不是因为某一家模型实现了,而是因为整个生态——编程工具、API 平台、Host 平台、推理框架——开始陆续支持它了。

而在这场变革中,MiniMax 是最早、也是投入最多的推动者之一。

在 MiniMax-M2 发布之前,整个社区对 Interleaved Thinking 的支持非常少:

  • 大多数编程助手只支持传统的 “ASK → ANSWER” 模式
  • 很多 API 平台不会识别复杂的 reasoning block
  • 一些本地 LLM 运行平台(如 Ollama)会在中间步骤把推理链直接丢弃
  • 工具调用格式不统一、字段缺失、上下文无法回传

这意味着:

哪怕模型本身支持 Interleaving,只要生态不跟上,它的能力就发挥不出来。

推动 RooCode、Cline、OpenRouter、Ollama 等主流工具全面支持,这是一件非常耗费心力的事情,因为家家有问题,且问题各不相同。比如,

  • 有的在工具调用后丢弃思维链
  • 有的把 reasoning_details 当成“无用内容”过滤
  • 有的把多段推理合并成同一 block 导致状态混乱

因此,从 M2 发布到现在,MiniMax 在生态兼容性上推进了多项关键工程工作。这些本该是开源社区共同完成的基础任务,但由于涉及底层接口和执行语义,推进往往不够快。MiniMax 主动补齐了这些关键环节,使 Interleaving 能力能够在实际环境中闭环运行。

包括:

  • Kilo Code 提交核心 PR,使其完整支持交错式推理;
  • 推动 Cline 的执行流适配;
  • Ollama、OpenRouter 协调接口与输出格式,确保能够处理交错式的思考–行动循环。

这些都是不显眼但必要的基础工作,使 Interleaved Thinking 从“模型能力”变成“可用能力”。

来源:X

当然,完成了适配之后的模型性能提升很明显,从越来越多的app支持这个模式也能反映这一点儿。

来源:OpenRouter

在刚刚结束的AWS Invent 2025大会上,MiniMax-M2这个模型被Amazon的Bedrock正式收录,这也是为数不多被收录的国产模型。

另一个点更有价值,那就是直接开源了支持Interleaved Thinking 的 Coding CLI。

它本质上提供:

  • 完整的多轮推理状态管理逻辑
  • 工具调用+思维链的正确传递方式
  • 与 M2 模型完全对齐的结构
  • 极低成本即可复用的 Agent 框架

地址:https://github.com/MiniMax-AI/Mini-Agent

这个开源框架可以做很多事情,比如完成一件需要多步操作的任务。

使用Claude Skill。

上线后快速获得 700+ Star(持续增长),并被多个社区项目引用。

它的意义在于:开发者不用再猜“怎么才是正确的调用方式”,而是有一个可跑通的、工程级的标准实现可直接照搬。

这样可以极大程度把这个技术普及开来,特别是在MiniMax-M2的官方技术报告中强调了这个概念之后,Kimi、DeepSeek、Anthropic、GPT-OSS 都在几个月内相继提出了类似概念,并放在非常核心的位置。

这不是巧合,而是技术演进的客观规律:

当大模型从“写答案”进化到“做任务”,Interleaved Thinking 就成为唯一合理的思维结构。

MiniMax 在多个场合(AIE 大会、官方 X、研发 Leader 的深度文章)持续输出这一概念,也让整个行业的讨论逐渐走向统一术语:

Interleaved Thinking = Agent 多轮推理的底层范式。

智能也可以被重构

三年前,ChatGPT 让人类第一次看到“语言可以被统一”。

三年后,Interleaved Thinking 让我们看到“智能也可以被重构”。

当越来越多的模型开始真正做到“边思考、边行动”,大模型的角色也在发生变化:它不再是一个回答机器,而是一个能独立工作、能执行任务、能在复杂环境中持续迭代的智能体。

而 MiniMax等一众大模型在这一波演进中扮演的角色,是让这件事情不只存在于白皮书和演示,而是成为整个生态都能用、都能跑通的现实能力。

未来的智能时代,或许就是从这条交错思维链开始被重新点亮的。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

为什么要学习大模型?

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

在这里插入图片描述

在这里插入图片描述

大模型入门到实战全套学习大礼包

1、大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

img


2、大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

在这里插入图片描述

3、AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

img

4、大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

img

5、大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

img

适用人群

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐