国产大模型谁更懂 A 股？DeepSeek V4 与 Qwen-Plus 的五维盲评笔记

llc18230851423 · 2026-05-10 22:50:07 发布

DeepSeek V4 和 通义千问 Qwen-Plus是 2026 年国产大模型的两张名片。推理基准跑分、编程能力这些通用评测已经有不少数据，但“金融垂类”尤其“中国 A 股分析”这个场景，两者到底差多少？

我用完全一致的 Prompt 和数据输入，让它们分别分析 5 支代表性 A 股，然后人工盲评打分。数据都在下面。

> 本文为个人技术实测笔记，评分采用人工盲评 + 两人独立打分（分差 ≥ 2 分时再讨论定稿）的方式降低主观偏差。底层数据来自两家大模型公开 API 的实际调用结果，不构成任何投资建议或产品推荐。大模型对股价的短期预测不具备统计显著性，读者切勿据此作出交易决策。

1，测试方法

测试集：5 支不同风格的 A 股

统一 Prompt 骨架

你是一名中国 A 股资深买方研究员。

【输入】{最新财务数据 + 最近 30 天新闻摘要}

【要求】按 9 小节输出研报：

公司概况 / 财务走势 / 财报解读 / 行业地位 /

公告梳理 / 估值分析 / 看多 3 条 / 看空 3 条 / 跟踪指标

打分维度（每维 0-10，人工盲评）

2，5 支个股逐个对比

贵州茅台（600519）

- DeepSeek：抓到了"存货/营收比"和"预收款变动"这两个白酒行业独有指标，提示 2025Q1 预收款同比 -18% 是警告信号

- 千问：关注"消费降级背景下的高端白酒定价权"，给出了历史市盈率分位对比

DeepSeek 8 / 千问 7。白酒这种有行业专业语言的场景，DeepSeek 表现更地道。

宁德时代（300750）

- DeepSeek：从"锂价见底 + 储能放量"双逻辑看多，同时提醒海外政策风险

- 千问：给出了 LG 新能源、比亚迪的市占率对比表格，颗粒度更细

DeepSeek 8 / 千问 8。打平，各有侧重。

比亚迪（002594）

- DeepSeek：分析"智驾平权策略"的商业逻辑到位

- 千问：列出了最近 30 天的 5 条新闻，消息面反应及时（千问带搜索能力加分）

DeepSeek 7 / 千问 8。消息面场景千问明显领先。

中芯国际（688981）

- DeepSeek：没识别出科创板研发费用资本化的特殊性，直接套主板逻辑

- 千问：正确指出"研发投入占比 15%+"对当期利润的侵蚀

DeepSeek 6 / 千问 8。千问对中国特色会计准则更熟。

隆基绿能（601012）

- DeepSeek：讨论"硅料周期底部"给了乐观/中性/悲观三档情景

- 千问：反复强调产能过剩风险，偏保守

DeepSeek 8 / 千问 7。周期股情景分析 DeepSeek 胜。

3，五维度横评

4，深度观察

DeepSeek 的强项

1. **推理链清晰**：会主动列"论据 A → B → C → 所以⋯"，接近人类研究员的写作习惯

2. **行业语言专业**：白酒、光伏、半导体的术语使用准确

3. **情景分析强**：擅长给"乐观/中性/悲观"三档假设

千问的强项

1. **消息面及时**：Qwen-Plus 带搜索，能抓最近几天新闻

2. **会计准则熟**：对科创板/创业板的特殊处理（研发资本化、股权激励费用）更了解

3. **表格化输出**：信息密度高

这也是我后来搭了一个「**两模型并行**」小工作流的原因——让同一支股票同时经过 DeepSeek 和千问两次分析，再人工对两份报告做“交集 / 差集”比对。实测下来比单模型要稳，能有效降低单一模型自身偏见对结论的拉偏。

5，选择建议