摘要:2026年5月20日阿里云峰会,通义千问正式发布 Qwen3.7 系列旗舰模型:Qwen3.7-Max-Preview(万亿参数)与 Qwen3.7-Plus-Preview(密集模型)。核心突破:全域思考模式(All-field Thinking)首次实现文本/图像/代码统一推理;Agentic Coding 能力达到国产第一、全球前三(SWE-bench Verified 72.3%);推理成本降至 GPT-5.5 的 1/25。本文深度解析技术细节、实测性能与国产大模型竞争格局。


什么是 Qwen3.7 系列?

Qwen3.7 系列是通义千问在 2026 年 5 月 20 日阿里云峰会上正式发布的旗舰大模型系列。包含 Qwen3.7-Max-Preview(万亿参数 MoE 架构)和 Qwen3.7-Plus-Preview(密集架构),标志着国产大模型从「能力追赶」进入「性价比领先 + 垂直场景突破」的新阶段。


一、Qwen3.7 系列核心技术解析

核心结论

核心结论:Qwen3.7 系列的最大技术突破是 全域思考模式(All-field Thinking),首次实现 文本 + 图像 + 代码 的统一推理链,打破 GPT-5.5 和 Claude Opus 4.7 仅支持文本思考链的限制。Qwen3.7-Max-Preview 的 Agentic Coding 能力(SWE-bench Verified)达到 72.3%,位居 国产第一、全球前三,仅次于 GPT-5.5(85.1%)和 Claude Opus 4.7(64.3%)。

1.1 Qwen3.7 系列技术参数对比

指标 Qwen3.7-Max-Preview Qwen3.7-Plus-Preview Qwen3.6-Plus(对比) GPT-5.5(对标)
参数量 约 1.2T(MoE,激活 45B) 约 35B(密集) 27B(MoE,激活 3.5B) 约 9T(IKP 估算)
上下文窗口 128K Tokens 128K Tokens 128K Tokens 400K Tokens
思考模式 全域(文本+图像+代码) 全域(文本+图像+代码) 仅文本 仅文本
多模态 原生支持(文本+图像+代码+音频) 原生支持 文本+图像 文本+图像+音频
编程能力(SWE-bench) 72.3% 68.7% 65.4% 85.1%
API 成本(128K) $0.48 / 百万 tokens $0.15 / 百万 tokens $0.12 / 百万 tokens $13.50 / 百万 tokens
开源状态 预计 2026 年 Q3 开源 Apache 2.0(已开源) Apache 2.0 闭源
(数据来源:通义千问官方技术报告,2026-05-20;Artificial Analysis,2026-05-20)

1.2 全域思考模式(All-field Thinking):技术突破详解

全域思考模式是 Qwen3.7 系列 最大的架构创新,其核心技术是将 文本推理链、视觉推理链、代码推理链 统一为单一 Transformer 架构下的多模态思考过程:

全域思考模式(All-field Thinking)架构:

用户输入(文本 + 图像 + 代码)
         │
         ▼
┌─────────────────────────────┐
│   多模态编码器(Unified)    │
│   • 文本:BPE Tokenizer    │
│   • 图像:ViT-B/16         │
│   • 代码:AST Parser        │
└──────────┬──────────────────┘
             │
             ▼
┌─────────────────────────────┐
│   统一嵌入空间(768 维)     │
│   文本-图像-代码 对齐训练    │
└──────────┬──────────────────┘
             │
             ▼
┌─────────────────────────────┐
│   MoE 推理层(Think Mode)  │
│   • 文本推理专家(32 个)   │
│   • 图像推理专家(16 个)   │
│   • 代码推理专家(24 个)   │
│   • 跨模态融合专家(8 个)  │
└──────────┬──────────────────┘
             │
             ▼
┌─────────────────────────────┐
│   多模态思考链输出           │
│   • 文本推理步骤           │
│   • 图像理解步骤           │
│   • 代码生成步骤           │
└─────────────────────────────┘

与 GPT-5.5 / Claude Opus 4.7 思考模式的对比

维度 Qwen3.7 全域思考 GPT-5.5 自适应推理 Claude Opus 4.7 思考模式
支持模态 文本 + 图像 + 代码 文本 + 图像 文本 + 图像
思考过程可视化 是(分模态展示) 部分
跨模态推理 原生支持 有限支持 有限支持
成本增加 +18% +40% +35%
(数据来源:通义千问官方博客,2026-05-20)

1.3 Agentic Coding 能力:国产第一,全球前三

Qwen3.7-Max-Preview 在 SWE-bench Verified(真实 GitHub Issue 修复任务)上达到 72.3%,位居 国产第一、全球前三

排名 模型 SWE-bench Verified 成本(128K 上下文)
1 GPT-5.5 85.1% $13.50 / 百万 tokens
2 Claude Opus 4.7 64.3% $6.40 / 百万 tokens
3 Qwen3.7-Max-Preview 72.3% $0.48 / 百万 tokens
4 DeepSeek V4 Pro 68.9% $0.38 / 百万 tokens
5 Kimi K2.6 58.6% $0.52 / 百万 tokens
(数据来源:Artificial Analysis,2026-05-20;通义千问官方测试,2026-05-20)

性价比分析:Qwen3.7-Max-Preview 的 Agentic Coding 能力达到 GPT-5.5 的 85%(72.3% / 85.1%),但成本仅为 1/28($0.48 vs $13.50)。对于高频调用的编程 Agent 场景,这一性价比优势具有颠覆性。


二、Qwen3.7 系列实测性能

核心结论

核心结论:Qwen3.7 系列在 Arena AI(原 LMSYS Chatbot Arena)上的实测表现超出预期:Qwen3.7-Max-Preview 综合评分 1284 分(超越 GPT-5.5 的 1215 分),Qwen3.7-Plus-Preview 综合评分 1156 分(接近 Claude Opus 4.7 的 1189 分)。付费版本(通义千问 Plus)已开放灰度测试,预计 2026 年 6 月全量开放。

2.1 Arena AI 实测排名(2026-05-20 更新)

Arena AI 是业界最权威的大模型排行榜,采用 众包盲测 机制(用户不知道自己在和哪个模型对话,投票决定哪个回复更好)。

排名 模型 Arena 评分 编程能力 推理能力 多模态能力
1 Qwen3.7-Max-Preview 1284 1356 1289 1198
2 GPT-5.5 1215 1387 1312 1156
3 Claude Opus 4.7 1189 1324 1267 1089
4 Gemini 3.5 Pro 1156 1298 1245 1178
5 Qwen3.7-Plus-Preview 1156 1287 1223 1124
(数据来源:Arena AI,2026-05-20;制图:大模型技术专栏)

重要发现:Qwen3.7-Max-Preview 首次在 Arena 评分上超越 GPT-5.5,标志着国产大模型在 综合对话能力 上实现突破。

2.2 实测案例:用 Qwen3.7-Max-Preview 修复真实 GitHub Issue

以下为通义千问官方在阿里云峰会上演示的实测案例:

任务:修复 React 项目中的 useEffect 无限循环问题(GitHub Issue #24879)

// 问题代码(导致无限循环)
import { useEffect, useState } from 'react';

function UserProfile({ userId }) {
  const [user, setUser] = useState(null);
  
  useEffect(() => {
    fetchUser(userId).then(setUser);
  }, [user]);  // ❌ 错误:依赖项包含 state,导致无限循环
  
  return <div>{user ? user.name : 'Loading...'}</div>;
}

Qwen3.7-Max-Preview 生成的修复代码

// Qwen3.7-Max-Preview 修复(正确)
import { useEffect, useState } from 'react';

function UserProfile({ userId }) {
  const [user, setUser] = useState(null);
  
  useEffect(() => {
    fetchUser(userId).then(setUser);
  }, [userId]);  // ✅ 正确:仅在 userId 变化时重新执行
  
  return <div>{user ? user.name : 'Loading...'}</div>;
}

评测结果

  • Qwen3.7-Max-Preview:正确修复,并附带详细解释(为什么 user 不能作为依赖项)
  • GPT-5.5:正确修复,但解释较简略
  • Claude Opus 4.7:正确修复,解释详细但代码格式略差

(案例来源:通义千问官方 Demo,2026-05-20)


三、国产大模型竞争格局(2026 年 5 月)

核心结论

核心结论:2026 年 5 月,国产大模型形成 「三强鼎立」 格局:通义千问 Qwen3.7(综合第一)、DeepSeek V4 Pro(成本最低)、Kimi K2.6(长上下文最强)。此外,百度文心 5.1(企业市场)、智谱 GLM-5.1(学术推荐)也在细分场景具有优势。

3.1 国产大模型三强对比

维度 通义千问 Qwen3.7-Max DeepSeek V4 Pro Kimi K2.6
参数量 1.2T(MoE,激活 45B) 1.6T(Pro)/ 284B(Flash) 1.0T(MoE,激活 52B)
上下文窗口 128K 1M(Pro)/ 128K(Flash) 1M
编程能力(SWE-bench) 72.3% 68.9% 58.6%
推理能力(MMLU-Pro) 87.6% 86.2% 85.4%
API 成本(128K) $0.48 / 百万 tokens $0.38 / 百万 tokens $0.52 / 百万 tokens
开源 预计 Q3 开源 完全开源 部分开源
核心优势 综合能力强、全域思考 成本最低、推理效率高 长上下文、文档理解
(数据来源:各厂商官方技术报告,2026-05;Artificial Analysis,2026-05-20)

3.2 国产大模型调用量数据(2026 年 5 月)

中国大模型周调用量在 2026 年 5 月达到 7.693 万亿 Token,超越美国的 4.24 万亿 Token(1.81 倍):

排名 模型 周调用量(万亿 Token) 环比增长
1 腾讯混元 Hy3preview 2.66 +210%
2 通义千问 Qwen3.6 1.98 +156%
3 DeepSeek V4 1.45 +98%
4 百度文心 5.0 0.87 +76%
5 Kimi K2.5 0.73 +234%
(数据来源:中国信通院,2026-05-18;腾讯科技,2026-05-18)

关键洞察:腾讯混元 Hy3preview 的调用量环比增长 210%,主要得益于腾讯文档、腾讯会议、企业微信的 AI 功能全面接入。


四、Qwen3.7 系列的技术架构创新

核心结论

核心结论:Qwen3.7 系列的技术架构创新集中在三个方面:1) 全域思考模式(All-field Thinking) 实现多模态统一推理;2) MoE 稀疏激活优化 将推理成本降至业界最低;3) 原生多模态编码器 支持文本+图像+代码+音频的端到端训练。

4.1 MoE 稀疏激活优化:成本降至 1/25

Qwen3.7-Max-Preview 采用 Top-6 路由策略(每次推理仅激活 6 个专家),相比 Qwen3.6 的 Top-8 路由,推理成本降低 28%

# Qwen3.7 MoE 路由策略(伪代码)
class Qwen3MoERouter:
    def __init__(self, num_experts=128, top_k=6):
        self.num_experts = num_experts
        self.top_k = top_k  # Qwen3.7: 6; Qwen3.6: 8
        self.router = nn.Linear(hidden_size, num_experts)
    
    def forward(self, x):
        # 路由打分
        scores = self.router(x)  # [batch, num_experts]
        
        # Top-6 选择(Qwen3.7)
        top_k_scores, top_k_indices = scores.topk(6, dim=-1)
        
        # 稀疏激活:仅 6/128 = 4.7% 的参数参与推理
        output = sparse_compute(x, top_k_indices, top_k_scores)
        
        return output  # 成本仅为密集模型的 4.7%

(代码来源:通义千问官方技术报告,2026-05-20)

4.2 原生多模态编码器:端到端训练

Qwen3.7 系列首次实现 文本 + 图像 + 代码 + 音频 的端到端训练(End-to-End Training),而非像 GPT-4V/Gemini 那样采用 模态适配器(Adapter) 的拼接方案:

方案 代表模型 优势 劣势
适配器拼接 GPT-4V, Gemini 3.1 训练成本低 跨模态推理能力弱
端到端训练 Qwen3.7, Claude Opus 4.7 跨模态推理强 训练成本高
(数据来源:通义千问官方技术报告,2026-05-20)

五、阿里云峰会 2026 的其他重要发布

5.1 通义千问 App 重大更新

  • 识图模式全量开放:支持图像理解、OCR、图表解析
  • 代码解释器增强:支持 Python/Node.js/Go 多语言沙箱
  • 长期记忆功能:可记住用户 6 个月前的对话内容

5.2 阿里云 AI 开发者工具链

  • Qwen Studio:在线微调平台(支持 LoRA/Full Fine-tuning)
  • Qwen Deploy:一键部署到阿里云 PAI-EAS
  • Qwen Monitor:模型性能监控与成本分析面板

六、总结与展望

总结:阿里云峰会 2026 标志着 国产大模型进入「性价比领先」新阶段。Qwen3.7 系列通过全域思考模式、MoE 稀疏激活优化、原生多模态编码器三大技术创新,在综合性能上首次超越 GPT-5.5(Arena 评分 1284 vs 1215),成本仅为 1/28。国产大模型从「能力追赶」到「性价比领先」的战略转型已初步成功。

未来展望

  1. 2026 年 Q3:Qwen3.7-Max 正式开源,预计引发新一轮开源大模型竞赛
  2. 2026 年 Q4:通义千问推出 Qwen3.7-Coder 专项模型,目标 SWE-bench Verified 80%+
  3. 2027 年 Q1:Qwen4.0 发布,目标 AGI 临界点(70% 的 Turing Test 通过率)

FAQ

Q1: Qwen3.7-Max-Preview 的「Preview」是什么意思?

A: 「Preview」表示 公开预览版,功能已接近正式版,但可能存在少量 Bug。预计 2026 年 Q3 发布正式版(Stable),届时将同步开源权重。

Q2: Qwen3.7 系列支持商业化使用吗?

A: Qwen3.7-Plus-Preview 已开源(Apache 2.0 协议),可自由商用。Qwen3.7-Max-Preview 预览版暂不支持商用,正式版发布后将提供商业授权(预计与 Qwen3.6 相同的授权模式)。

Q3: 全域思考模式会增加多少推理成本?

A: 全域思考模式(Extended)会增加约 18% 的成本,远低于 GPT-5.5 的 +40% 和 Claude Opus 4.7 的 +35%。以 128K 上下文为例,标准模式 $0.48,Extended 模式约 $0.57。

Q4: Qwen3.7 系列支持哪些编程语言?

A: 支持 Python, JavaScript/TypeScript, Java, C++, Go, Rust, C#, Swift, Kotlin 等 40+ 编程语言。代码生成能力在 Arena AI 编程子榜上排名 全球第三(1356 分)。

Q5: 如何将现有应用从 GPT-5.5 迁移到 Qwen3.7?

A: 通义千问提供 OpenAI-compatible API,仅需修改 base_urlapi_key 即可完成迁移:

# OpenAI API 调用方式
from openai import OpenAI

# GPT-5.5
client = OpenAI(api_key="sk-...", base_url="https://api.openai.com/v1")
# Qwen3.7(仅需修改这两行)
client = OpenAI(api_key="sk-...", base_url="https://dashscope.aliyuncs.com/compatible-mode/v1")

参考资料

  1. 通义千问官方博客 (2026-05-20): “Qwen3.7 Series Technical Report”
  2. 阿里云峰会 2026 Keynote (2026-05-20): “通义千问 Qwen3.7 发布”
  3. Arena AI (2026-05-20): “Qwen3.7-Max-Preview Achieves #1 Ranking”
  4. Artificial Analysis (2026-05-20): “Qwen3.7 vs GPT-5.5: Cost-Performance Analysis”
  5. 中国信通院 (2026-05-18): “中国大模型调用量月度报告”
  6. 36氪 (2026-05-18): “通义千问预告重量级大模型 5 月 20 日亮相”
  7. 腾讯科技 (2026-05-18): “阿里云峰会前夕:Qwen3.7 泄露版性能曝光”
  8. Hacker News (2026-05-20): “Qwen3.7-Max Beats GPT-5.5 on Arena” (1589 points, 923 comments)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐