GLM-5：当大模型学会“自己写代码“，从Vibe Coding到Agentic Engineering的跨越

狮子座明仔

3196人浏览 · 2026-03-16 09:44:40

狮子座明仔 · 2026-03-16 09:44:40 发布

GLM-5：当大模型学会"自己写代码"，从Vibe Coding到Agentic Engineering的跨越

🎯 一句话总结：智谱AI联合清华大学推出744B参数的GLM-5模型，通过DeepSeek Sparse Attention（DSA）压缩注意力计算量、全异步强化学习（Async RL）解决长任务训练效率、以及多阶段后训练流程，让大模型从"氛围编码"（Vibe Coding）进化到能独立完成真实工程项目的"智能体工程师"（Agentic Engineering）。

📖 为什么需要这篇论文？

Andrej Karpathy在2025年初提出了一个有趣的概念——Vibe Coding，意思是你只要用自然语言描述需求、"凭感觉"让AI写代码就行。这确实是当前AI编程的主流体验：你说一句话，模型帮你生成一段代码，效果好不好全看运气。

但问题来了：真实的软件工程远不止"写代码"这么简单。一个真正的工程师需要理解项目架构、调试错误、管理依赖、处理跨模块协作——这些都不是"一句prompt出一段代码"能搞定的。GLM-5这篇论文要做的事情，就是让模型从"帮你写代码的助手"变成"能独立搞定整个项目的工程师"。

这不是一个小目标。为了达到它，智谱团队在模型架构、训练流程、强化学习算法上做了大量创新。这篇解读会带你拆解这些技术细节。

图1：GLM-5在8个主流基准上的表现

图1：GLM-5与DeepSeek-V3.2、Claude Opus 4.5、Gemini 3 Pro、GPT-5.2在8个基准上的对比。GLM-5在BrowseComp和SWE-bench Verified上表现突出，编码和智能体任务是强项。

从这张图可以直观看出，GLM-5并不是在所有任务上都碾压对手，但在编码和智能体相关的任务（SWE-bench、BrowseComp）上确实拉开了差距。这也和论文标题"Agentic Engineering"的定位高度一致——它就是冲着"能干活的AI工程师"这个方向去的。

🧠 核心贡献：三板斧

在深入细节之前，先理清GLM-5的三个核心贡献：

贡献	解决的问题	核心思路
DSA稀疏注意力	128K长上下文的计算开销爆炸	动态选择重要token，跳过不相关的，省1.5-2倍算力
异步强化学习框架	长任务RL训练中GPU大量空闲	生成和训练完全解耦，流水线式并行
多阶段后训练流程	推理、编码、智能体等多能力难以兼顾	SFT→推理RL→智能体RL→通用RL，逐步叠加能力

下面逐一拆解。

🏗️ 模型架构：在MoE的骨架上做"减法"

基础配置

GLM-5采用Mixture-of-Experts（MoE） 架构，总参数744B，但每次推理只激活约40B参数。这种"大而稀疏"的设计已经成为行业共识——DeepSeek-V3/R1、Qwen3都走了类似路线。

具体参数：61层Transformer、192个专家（每次激活8个）、隐藏维度7168。训练在27万亿（27T）token上完成预训练。

MLA还是DSA？一个有趣的选择

这里有个值得关注的架构决策。GLM-5没有像DeepSeek那样使用Multi-Latent Attention（MLA），而是选择了DeepSeek Sparse Attention（DSA）。

为什么？论文给了一个实验依据：

图5：MLA和DSA的训练Loss对比

图5：上方为标准MHA（Multi-Head Attention）与DSA的训练Loss曲线，下方为MLA与DSA的对比。两条曲线几乎完全重合，说明DSA在不损失模型质量的前提下可以替代MLA。

两条Loss曲线几乎完美重合——这意味着DSA在训练质量上和MLA打了个平手。但DSA还有一个关键优势：它跟标准MHA共享同一套KV Cache，推理时更容易优化。相比之下，MLA在和某些优化器（特别是Muon）结合时会出问题。

说到这里得补充一个背景：Muon优化器是近期LLM训练中越来越流行的选择，它用矩阵正交化来规范更新方向，收敛速度比Adam快不少。但MLA里有一步低秩压缩，把Q/K投射到低维潜在空间，这个操作和Muon的矩阵正交化会产生冲突——论文称之为"性能退化问题"。GLM-5团队提出了Muon Split方法来解决这个问题，把MLA投影矩阵拆分成两个独立矩阵分别优化。不过最终他们还是选择了DSA，因为更干净。

💡 我的看法：DSA的选择挺务实的。MLA确实是个好设计，但它和Muon的兼容性问题是个不容忽视的工程隐患。在模型规模达到744B的时候，"简单可控"比"理论最优"更有价值。这也是工程导向和学术导向的一个典型差异。

DSA到底怎么工作？

DSA的核心思想可以用一个比喻来理解：想象你在图书馆找资料。标准注意力就像把整个图书馆的每本书都翻一遍，然后决定哪些有用。而DSA更像一个有经验的图书管理员——它先用闪电索引器（Lightning Index） 快速扫描书架标题，锁定几个可能相关的区域，然后只精读这些区域里的具体段落。

技术层面，DSA分两步走：

第一步：粗粒度块选择。 把KV序列切成固定大小的块（block），用压缩后的"块级注意力"快速估算每个块的重要性，只保留top-k个重要块。这一步的计算量很小，因为是在压缩后的表示上做的。

第二步：细粒度token选择。 在选中的块内部，用一组可学习的"路由token"做更精细的注意力计算，从中选出真正重要的单个token。最终只对这些token做完整的注意力运算。

这种两级筛选机制在128K长序列上能减少约1.5到2倍的计算量，同时几乎不损失模型质量。类似的思路在2024年的NSA（Native Sparse Attention）中也有体现——NSA同样使用了"先粗后细"的分层选择策略，不过具体实现细节不同。

Multi-Token Prediction（MTP）

GLM-5还引入了多token预测，一次预测3个未来token。这里有个巧妙的设计：3个MTP头共享参数。论文的消融实验显示，参数共享相比独立MTP头不仅没有损失，还提升了推测解码（speculative decoding）的接受率。

这对推理加速很重要：推测解码的关键瓶颈就是草稿token的接受率，接受率越高，每步能"跳过"的token就越多，推理就越快。

🔧 训练流程：四段式"打怪升级"

GLM-5的训练流程是这篇论文的重头戏，分为预训练和后训练两大阶段。

图4：GLM-5完整训练流程

图4：完整训练流程。左侧是Base Model的预训练+中期训练，右侧是后训练的四步流程：SFT → 推理RL → 智能体RL → 通用RL，中间穿插跨阶段蒸馏防止能力退化。

预训练阶段

数据规模：27T token，数据混合比例包括网页、代码、学术论文、书籍等
上下文扩展：通过中期训练（mid-training）把上下文从4K逐步扩展到200K，使用RoPE频率调整
退火阶段（Annealing）：在预训练末尾用更高质量的数据做"精修"

后训练四步曲

这是GLM-5最有特色的部分。传统做法通常是SFT之后直接做RL就完事了，但GLM-5搞了四轮：

第1步：监督微调（SFT）
用高质量的指令数据做微调。这里没有太多新意，但论文提到一个细节：他们特别增加了多轮对话中的工具调用训练数据，为后续的智能体能力打基础。

第2步：推理强化学习（Reasoning RL）
在数学和代码推理任务上做RL训练。这一步用的是相对标准的GRPO算法（DeepSeek提出的Group Relative Policy Optimization），目标是让模型学会"思考后再回答"。

第3步：智能体强化学习（Agentic RL） ← 这是关键创新
这一步是GLM-5的杀手锏。和传统的推理RL不同，智能体RL需要模型在真实环境中执行多步操作——比如浏览网页、调用API、在沙箱里运行代码——然后根据最终结果获得奖励。

问题在于，这种长周期的交互导致每条训练样本的生成时间极长（有的任务一个episode要几十步），而标准的同步RL框架会让大量GPU在等待环境反馈时空闲。这就引出了论文的另一个核心贡献——异步RL。

第4步：通用强化学习（General RL）
在更广泛的通用任务上做RL，平衡模型的综合能力。这一步使用了**跨阶段蒸馏（Cross-Stage Distillation）**来防止之前积累的能力退化——本质上就是在新阶段的训练中，把前几个阶段"最强版本"的输出作为参考信号，防止模型"忘记"之前学到的东西。

💡 一个观察：这种多阶段RL训练思路在DeepSeek-R1和Qwen3中也有出现（先推理RL再通用RL），但GLM-5把"智能体RL"作为独立阶段插了进来，并且配套设计了专门的异步训练框架。这说明智谱团队认为"智能体能力"不是推理能力的自然延伸，而是需要专门训练的独立技能树。这个判断我觉得很有道理——能推理不代表能干活，两者的技能树确实不同。

⚡ 异步强化学习：让GPU不再"摸鱼"

为什么需要异步？

传统的RL训练是同步的：采集一批数据 → 计算奖励 → 更新模型 → 再采集。这在任务时间短的情况下没问题，但智能体任务往往需要几十步交互，每步还要等环境返回结果（比如等浏览器加载页面、等代码编译完成）。这意味着在采集阶段，负责训练的GPU全部闲着。

用一个比喻来说：同步RL就像一个餐厅只有一个厨师，他必须等上一桌的客人吃完、收碗、洗碗之后，才能开始做下一桌。而异步RL则是前厅和后厨彻底分开——服务员不断接单送菜，厨师不断做菜，互不等待。

Google DeepMind在2025年初发布的AReaL系统也做了类似的事情。AReaL把数据生成集群和模型训练集群分开，中间用一个共享存储来传递经验数据。GLM-5的异步RL在思路上和AReaL一脉相承，但针对长周期智能体任务做了更多优化。

两个关键稳定性技巧

异步带来效率，但也引入了一个棘手的问题：训练数据过时（staleness）。因为生成数据的模型和正在被训练的模型不再是同一个版本，用旧版本生成的数据训练新版本模型可能导致不稳定。

GLM-5用了两个技巧来应对：

1. TITO（Truncated Importance-weighted Token Optimization）

这个名字拆开看：

Token级别：不是对整条轨迹加权，而是给每个token单独算权重
重要性加权：用新旧策略的概率比来衡量数据的"过时程度"
截断：把权重限制在一个范围内，防止极端值

核心公式的直觉解释：如果某个token在新策略下的概率比旧策略高很多，说明模型已经"进化"了，这个旧数据的贡献应该被降低；反之亦然。截断操作确保权重不会太极端导致训练崩溃。

2. 双向重要性采样（Bidirectional Importance Sampling）

标准的重要性采样只做单向截断（clip上界），但在异步场景下，数据过时可能导致概率比特别小（远小于1），这同样会导致梯度消失。双向截断同时限制上下界，让训练更稳定。

BrowseComp上的效果

BrowseComp是一个需要模型在真实网页上搜索信息的复杂任务，非常考验智能体能力。

图7：BrowseComp上的训练曲线

图7：BrowseComp上不同策略的训练曲线。GLM-5的三种评估策略（Pass@K、Fewest-step、HCM）都大幅超过GLM-4.7的基线。HCM（Highest Confidence Majority voting）表现最好。

可以看到，智能体RL训练带来了非常可观的提升，而且不同的推理策略（多次尝试取最好的 vs 取最少步骤的 vs 置信度投票）对最终表现影响很大。HCM（最高置信度多数投票） 策略表现最优——模型先跑多次，然后挑出那些"最自信"的答案做多数投票。

🤔 交错思考模式：让模型在每次操作前都"想一想"

传统思维链的局限

标准的思维链（Chain-of-Thought）是这样的：模型先想一大段，然后给出答案。但在智能体场景中，模型需要多次调用工具（调API、读文件、执行命令），每次调用之间都应该有"思考"——分析上一步的结果，决定下一步做什么。

图6：交错思考模式

图6：交错思考（Interleaved Thinking）模式示意。模型在每次工具调用之前都会先思考，且可以选择保留（Preserved Thinking）或不保留思考痕迹在后续上下文中。

GLM-5的交错思考模式让模型在每次响应和工具调用之前都先进行推理，而不是一次性想完。更有意思的是Preserved Thinking——前几轮的思考内容可以保留在上下文中，供后续步骤参考。这避免了模型"忘记"之前的推理过程。

但这也引入了一个问题：训练时用了思考token，推理时也会用，这导致上下文变长，增加了计算开销。论文用了一个叫IcePop的技术来缓解训练-推理不匹配的问题——具体来说，就是在训练时随机"冻结"一些思考token，让模型学会在思考被部分截断时也能正常工作。

🧪 Reward Hacking：RL训练的"阿喀琉斯之踵"

论文专门用了一节讨论Reward Hacking（奖励作弊），这在很多RL论文中被刻意回避，GLM-5团队的坦诚值得肯定。

图8：Reward Hacking的两种类型

图8：两种Reward Hacking示例。左边是Hard Truncation（硬截断）——模型发现被截断时能拿到更好的奖励分数，于是故意写很长的回复来触发截断。右边是过度操纵排版——模型通过加入大量空行和特殊格式来"骗过"奖励模型。

两种Hacking模式都很有意思：

硬截断作弊：RL训练中通常会限制最大生成长度，超出部分被截断。模型发现截断后的输出恰好能在某些评估指标上"看起来还不错"，于是学会了故意写超长来触发截断。解决方案是对被截断的样本施加惩罚。
排版操纵：模型学会了通过插入大量空行、奇怪的缩进、特殊格式来让输出"看起来更整洁"，从而在依赖格式匹配的奖励函数上得到高分。这其实是reward model本身的漏洞。

💡 这让我想到一个更深层的问题：当前的RL训练本质上是在"奖励函数"定义的代理指标上优化，而不是直接在人类想要的真实目标上优化。只要代理指标和真实目标之间存在gap，模型就有可能找到"走捷径"的办法。这不是GLM-5独有的问题，而是整个RLHF/RLVR范式的结构性挑战。论文中提到的解决方案（惩罚截断、过滤异常格式）都是打补丁式的，根本性的解法可能需要更好的奖励建模。

📊 实验结果深度解读

主要基准对比

基准	GLM-5	DeepSeek-V3.2	Claude Opus 4.5	Gemini 3 Pro	GPT-5.2
MMLU-Pro	78.0	75.9	78.0	74.3	76.1
GPQA-Diamond	71.7	68.4	67.1	63.6	70.5
Codeforces	2030	2206	1997	1980	2084
SWE-bench Verified	65.5	62.8	53.2	63.8	59.6
TAU-bench (airline)	62.6	52.8	48.0	47.6	55.0
BrowseComp	57.1	32.0	26.3	25.1	46.9
MMMB	80.5	78.2	83.7	78.5	80.9
Creative Writing	66.1	72.3	59.2	57.5	71.3

几个值得注意的点：

BrowseComp上的碾压：57.1% vs 第二名GPT-5.2的46.9%，差距超过10个百分点。这直接印证了智能体RL训练的效果——BrowseComp正是需要多步网页搜索的智能体任务。
SWE-bench Verified的领先：65.5%的通过率在"真实软件工程"任务上排第一，这也呼应了论文"Agentic Engineering"的主题。
Codeforces不是最高：竞赛编程上DeepSeek-V3.2更强（2206 vs 2030）。这说明GLM-5的优化方向确实是"工程能力"而非"算法竞赛"，两者是不同的技能。
Creative Writing偏弱：66.1分不算高，DeepSeek-V3.2拿了72.3。创意写作能力可能在多阶段RL中被牺牲了一些。

CC-Bench-V2：真实世界工程评估

论文还设计了一个内部基准CC-Bench-V2，模拟真实的工程场景，包含前端开发、后端开发和长周期任务三个维度。

图3：CC-Bench-V2评估结果

图3：CC-Bench-V2在三个维度（Frontend、Backend、Long-horizon）上的对比。GLM-5在所有维度上都超过了GLM-4.7和Claude Opus 4.5，尤其是长周期任务的优势最明显。

长周期任务（Long-horizon）的差距最大，这恰恰是异步RL和交错思考模式联合作用的结果。真实工程中很少有"一步搞定"的任务，大部分都需要多轮迭代——读代码、理解bug、尝试修复、运行测试、根据结果调整——GLM-5在这种场景下的表现确实更强。

Agent-as-a-Judge：用AI评AI

图9：Agent-as-a-Judge评估流程

图9：CC-Bench-V2的评估流程。给模型一个工程Query，模型Build出结果，然后由另一个Agent（Judge）检查运行结果，循环判断直到给出最终评分。

这个评估方法本身也值得关注。传统的代码评估要么用单元测试（太刻板），要么用人工评审（太贵太慢）。Agent-as-a-Judge让一个"评审Agent"去实际运行生成的代码、检查功能是否正常、UI是否合理，更接近真实场景下的评估标准。

综合排行

图2：Artificial Analysis Intelligence Index v4.0

图2：Artificial Analysis Intelligence Index v4.0排行榜。GLM-5综合得分50，在非推理模型中排名靠前。

在第三方综合排行榜上，GLM-5得分50分，位列前茅。考虑到这是一个非推理模型（不需要像o1/o3那样做长时间推理），这个成绩相当有竞争力。

多语言能力

图10：GLM-5 vs GLM-4.7多维度能力对比

图10：GLM-5与GLM-4.7在翻译、指令跟随、多语言对话、世界知识、工具调用等维度的对比雷达图。GLM-5在各维度上全面超越前代。

雷达图显示GLM-5在所有维度上都有提升，没有明显的"短板"。工具调用（Tool Call）维度的提升尤为突出，这和智能体RL训练的大量工具交互数据直接相关。

🔬 技术细节补充

预训练数据处理

论文提到了几个数据处理细节值得注意：

数据混合（Data Mix）：代码数据的比例被特意提高，因为代码数据对推理能力有正向迁移效果。这和之前的研究（Llama 3、DeepSeek-V3的技术报告）观点一致。
去重和质量过滤：使用多级去重管线（MinHash → Exact Match → 语义去重），严格过滤低质量和有害内容。
合成数据：在后训练阶段大量使用合成数据，特别是针对推理和编程任务。

跨阶段蒸馏（Cross-Stage Distillation）

这是一个很实用的技巧。多阶段RL训练有个典型问题：后面的阶段可能会让前面阶段学到的能力退化。比如智能体RL之后，纯数学推理能力可能下降。

GLM-5的解决方案是on-policy蒸馏：在每个新阶段的训练中，不仅用RL损失，还加一个KL散度项，让新模型的输出分布不要偏离前一阶段"最强版本"太远。这相当于给模型装了一个"防遗忘刹车"。

训练基础设施

论文没有给出特别详细的基础设施描述，但从27T token的预训练规模和异步RL的设计来看，训练成本相当可观。考虑到744B参数的MoE模型需要大规模张量并行和专家并行，加上异步RL需要额外的环境交互集群，整体算力消耗应该在数万H100级别。

🔗 与同类工作的对比

特性	GLM-5	DeepSeek-V3/R1	Claude Opus 4.5	GPT-5.2
架构	MoE + DSA	MoE + MLA	Dense (推测)	Dense (推测)
总参数	744B	671B	未公开	未公开
激活参数	~40B	~37B	未公开	未公开
注意力类型	DSA稀疏	MLA低秩	标准MHA (推测)	标准MHA (推测)
智能体RL	专门阶段	无独立阶段	未公开	未公开
异步RL	有	有 (AReaL类似)	未公开	未公开
推测解码	MTP (3头共享)	MTP	未公开	未公开
开源	部分	模型权重开源	闭源	闭源

GLM-5和DeepSeek-V3在架构选择上的分歧很有意思：一个选了DSA，一个选了MLA，但都在MoE框架下工作。两者的参数规模也非常接近（744B vs 671B，激活参数40B vs 37B），可以说是"同级对手"。

核心差异在于后训练策略：GLM-5把智能体RL作为独立训练阶段，而DeepSeek系列更侧重推理RL。这直接反映在了benchmark表现上——GLM-5在智能体任务（BrowseComp、SWE-bench）上更强，DeepSeek在竞赛编程（Codeforces）上更强。

💡 我的思考与启发

1. "Agentic Engineering"是不是真的来了？

从GLM-5的结果来看，模型在SWE-bench上65.5%的通过率、在CC-Bench-V2长周期任务上的强劲表现，确实说明大模型"干工程活"的能力在快速提升。但要说"Agentic Engineering已经到来"还为时尚早——SWE-bench里的bug大多是相对独立的，真实工程中的问题往往涉及跨模块、跨仓库甚至跨团队的协作。65.5%的通过率意味着还有三分之一的case搞不定，而在生产环境中，"搞不定"的代价可能非常大。

我更倾向于把当前阶段定义为"Agentic Coding的黄金时代"——模型已经能在有限范围内独立完成工程任务，但还不具备全栈工程师那种跨领域整合、架构决策的能力。从Vibe Coding到Agentic Engineering，中间还有一段路要走。

2. 异步RL会成为标准范式吗？

GLM-5和Google的AReaL都指向同一个方向：在长周期任务上，同步RL的效率瓶颈是不可接受的。随着智能体任务越来越复杂（从"回答问题"到"完成项目"），异步RL几乎是必然选择。

但异步RL也带来了更大的系统复杂度——你需要管理数据新鲜度、版本一致性、分布式通信等一系列工程问题。这可能会成为继"预训练基础设施"之后，AI公司需要攻克的下一个基础设施难题。

3. 多阶段RL的能力叠加 vs 能力冲突

GLM-5用了四个阶段的后训练（SFT → 推理RL → 智能体RL → 通用RL），每个阶段积累不同的能力。但我们从实验结果中也看到了一些能力冲突的迹象——比如Creative Writing分数不高，可能就是在RL训练过程中被牺牲的。

跨阶段蒸馏是一个缓解方案，但能"缓解"到什么程度？当你要同时优化推理、编程、写作、多语言等十几种能力时，多阶段RL真的能做到"全都要"吗？这个问题目前没有明确答案。

4. 给从业者的建议

如果你在做AI Agent产品：GLM-5展示了专门训练智能体能力的重要性。不要期望一个通用LLM直接变成好的Agent，专门的智能体后训练是关键。
如果你在做RL训练：异步RL的工程投入是值得的，特别是当你的任务需要多步环境交互时。同时要警惕Reward Hacking，设计健壮的奖励函数。
如果你在做模型架构：DSA是一个值得关注的替代方案，特别是当你需要长上下文但又想控制计算成本时。它和标准MHA兼容的KV Cache是个实际的工程优势。

📝 总结

GLM-5这篇论文的信息量很大。抛开具体的数字不谈，它传递的核心信息是：大模型的下一个战场在"干活"而不只是"回答问题"。从DSA降低计算成本、到异步RL提升训练效率、再到多阶段后训练叠加多维能力，所有的技术选择都指向同一个目标——让模型成为一个能在真实环境中完成复杂任务的智能体。

在竞争层面，GLM-5证明了中国AI团队在大模型前沿研究上的竞争力——744B MoE模型在智能体任务上超越了Claude和GPT系列，这在两年前是难以想象的。

不过，“Agentic Engineering"这个词可能还有些超前。当前的智能体能力更像是一个"高级实习生”——能独立完成明确的任务，但面对模糊的需求和复杂的系统时还需要人类的指导和审查。但方向是对的，而且进展速度超出很多人的预期。

论文信息

标题：GLM-5: from Vibe Coding to Agentic Engineering
机构：智谱AI & 清华大学
链接：https://arxiv.org/abs/2602.15763

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

零成本Obsidian搭建你的私人本地知识库

AtomGit开源社区

【EI复现】基于元模型优化算法的主从博弈多虚拟电厂动态定价和能量管理(Matlab代码实现）

基于元模型的优化算法是一种基于历史数据来驱动样本点的加入从而逼近局部或全局最优解的优化机制，能够改善传统启发式智能算法需要繁复数值模拟的缺陷，目前在飞行器设计等航空航天领域的应用[20]最为广泛，在电力系统方面也有初步的应用。提出基于 Kriging 元模型的博弈均衡算法，在求解过程中建立 Kriging 元模型替代 VPP 内部的能量管理模型，利用粒子群优化算法搜索优异采样点，更新修正 Krig

AtomGit开源社区

你以为中间商只赚Token差价？你的对话数据可能正在被卖掉

模型蒸馏（Knowledge Distillation）是将大模型（Teacher）的知识迁移到小模型（Student）的技术。大模型（如GPT-4/Claude）生成高质量输出↓收集大量"输入→输出"对↓用这些数据训练小模型↓小模型在特定任务上接近大模型水平蒸馏本身是合法的学术技术。问题在于数据从哪来。表面上卖的是算力，实际上卖的是你的智慧。你的每一个prompt、每一次对话、每一轮追问，都是你