最近把我们组的工作整理开源了,趁热写篇介绍,顺便聊聊这个方向我们踩过的一些坑。欢迎大家私信我进行讨论,进一步展开合作(也欢迎对高效的结构化推理感兴趣的学弟学妹来交流)

先说一个让我们困扰很久的问题

现在主流的大模型推理,不管是CoT还是ToT,本质上都是在一条很长的生成链上又规划又计算,Planning和Execution混在一起。
这带来两个问题:

  1. 算力分配不合理。规划阶段需要多样性,执行阶段需要精确性,但模型对两者一视同仁,在"2+2等于几"这种步骤上花的token和在"选哪条路"上花的一样多。
  2. Test-time scaling很贵。想多采样几次?那每次都得把完整的推理链(动辄几万token)跑一遍,成本直接×N。
    直觉上这两件事本就不该混在一起。
    在这里插入图片描述

E2C的核心思路

我们提出的 Explore-Execute Chain(E2C) 做的事情其实不复杂:把一个模型的推理过程在结构上拆成两段
EXPLORATION PHASE: ← ~1k tokens,随机采样,生成高层规划 分析题目,列举可行策略,选定最有前途的一条

EXECUTION PHASE: ← ~10k tokens,确定性执行,忠实跑完规划 按照上面定下来的方向,一步一步算出答案

不是两个模型,就是一个模型,但通过SFT+RL把这个结构训进去,让它自然地先探索再执行。
这样做有什么好处?
Test-time scaling的时候,只需要在短短的Exploration段采多次样就够了,不用每次都跑完整链。计算量大约是原来的 1/8

在这里插入图片描述

数字说话

数学推理(Qwen3-8B,Pass@1 取8次平均):

方法 AIME’24 AIME’25 MATH500 AMC23 平均
Qwen3-8B + GRPO 36.9 34.4 88.2 79.3 59.6
Qwen3-8B + E2C (SFT+RL) 40.6 33.8 87.7 80.3 61.5

Test-time scaling(AIME 2024,预算K/N=32):

方法 准确率 Token消耗
Self-Consistency 50.0% 86.2k
Tree-of-Thoughts 50.0% 71.3k
E2C-ReAct Loop 53.3% 12.4k
准确率更高,Token只用了ToT的1/7不到

领域迁移(医疗QA):
只微调Exploration段(EF-SFT),用的数据token量是完整SFT的3.5%,部分医疗benchmark准确率提升最高14.5%。

开源资源

快速上手

环境要求:Python 3.10+,PyTorch 2.1+,推理至少需要16GB显存(单卡)。

git clone https://github.com/OliverZ-dot/Explore-Execute-Chain.git
cd Explore-Execute-Chain
pip install -r verl/requirements.txt
跑一个例题(8B模型,HuggingFace直接拉权重):

python example_inference.py \
    --model_path TingheOliver/Explore-Execute-Chain-Qwen \
    --subfolder  Qwen3-8B-E2C-SFT-RL \
    --problem    "Find all prime numbers p such that p^2 + 2 is also prime."
也有交互式demo,内置了数学/医疗/代码几类例题可以直接选:

python example_interactive.py
国内访问HuggingFace慢的话,数据下载脚本支持hf-mirror:


bash scripts/prepare_all_data.sh --mirror
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐