国产大模型谁更懂 A 股?DeepSeek V4 与 Qwen-Plus 的五维盲评笔记
DeepSeek V4 和 通义千问 Qwen-Plus是 2026 年国产大模型的两张名片。推理基准跑分、编程能力这些通用评测已经有不少数据,但“金融垂类”尤其“中国 A 股分析”这个场景,两者到底差多少?
我用完全一致的 Prompt 和数据输入,让它们分别分析 5 支代表性 A 股,然后人工盲评打分。数据都在下面。
> 本文为个人技术实测笔记,评分采用人工盲评 + 两人独立打分(分差 ≥ 2 分时再讨论定稿)的方式降低主观偏差。底层数据来自两家大模型公开 API 的实际调用结果,不构成任何投资建议或产品推荐。大模型对股价的短期预测不具备统计显著性,读者切勿据此作出交易决策。
1, 测试方法
测试集:5 支不同风格的 A 股
| 风格 | 标的 | 代码 | 特点 |
| 白酒龙头 | 贵州茅台 | 600519 | 大白马,信息丰富 |
| 动力电池 | 宁德时代 | 300750 | 行业龙头,海外业务多 |
| 新能源车 | 比亚迪 | 002594 | 品牌属性重 |
| 半导体 | 中芯国际 | 688981 | 科创板,会计特殊 |
| 光伏 | 隆基绿能 | 601012 | 强周期股 |
统一 Prompt 骨架
你是一名中国 A 股资深买方研究员。
【输入】{最新财务数据 + 最近 30 天新闻摘要}
【要求】按 9 小节输出研报:
公司概况 / 财务走势 / 财报解读 / 行业地位 /
公告梳理 / 估值分析 / 看多 3 条 / 看空 3 条 / 跟踪指标
打分维度(每维 0-10,人工盲评)
| 维度 | 考察点 |
| 基本面理解 | 能否抓住行业核心指标(白酒的预收款、光伏的硅料价) |
| 财报解读 | 会计准则、科目联动是否专业 |
| 风险识别 | 是否主动指出风险 |
| 推理可信度 | 推理链是否清晰、不瞎编 |
| 输出结构 | 格式整齐、可读性 |
2,5 支个股逐个对比
贵州茅台(600519)
- DeepSeek:抓到了"存货/营收比"和"预收款变动"这两个白酒行业独有指标,提示 2025Q1 预收款同比 -18% 是警告信号
- 千问:关注"消费降级背景下的高端白酒定价权",给出了历史市盈率分位对比
DeepSeek 8 / 千问 7。白酒这种有行业专业语言的场景,DeepSeek 表现更地道。
宁德时代(300750)
- DeepSeek:从"锂价见底 + 储能放量"双逻辑看多,同时提醒海外政策风险
- 千问:给出了 LG 新能源、比亚迪的市占率对比表格,颗粒度更细
DeepSeek 8 / 千问 8。打平,各有侧重。
比亚迪(002594)
- DeepSeek:分析"智驾平权策略"的商业逻辑到位
- 千问:列出了最近 30 天的 5 条新闻,消息面反应及时(千问带搜索能力加分)
DeepSeek 7 / 千问 8。消息面场景千问明显领先。
中芯国际(688981)
- DeepSeek:没识别出科创板研发费用资本化的特殊性,直接套主板逻辑
- 千问:正确指出"研发投入占比 15%+"对当期利润的侵蚀
DeepSeek 6 / 千问 8。千问对中国特色会计准则更熟。
隆基绿能(601012)
- DeepSeek:讨论"硅料周期底部"给了乐观/中性/悲观三档情景
- 千问:反复强调产能过剩风险,偏保守
DeepSeek 8 / 千问 7。周期股情景分析 DeepSeek 胜。
3, 五维度横评
| 维度 | DeepSeek V4 | 通义千问 Qwen-Plus |
| 基本面理解 | 8.5 | 8.0 |
| 财报解读 | 7.0 | 8.5 |
| 风险识别 | 8.0 | 7.5 |
| 推理可信度 | 9.0 | 7.5 |
| 输出结构 | 8.5 | 8.0 |
| 总分(满 50) | 41 | 39.5 |
4, 深度观察
DeepSeek 的强项
1. **推理链清晰**:会主动列"论据 A → B → C → 所以⋯",接近人类研究员的写作习惯
2. **行业语言专业**:白酒、光伏、半导体的术语使用准确
3. **情景分析强**:擅长给"乐观/中性/悲观"三档假设
千问的强项
1. **消息面及时**:Qwen-Plus 带搜索,能抓最近几天新闻
2. **会计准则熟**:对科创板/创业板的特殊处理(研发资本化、股权激励费用)更了解
3. **表格化输出**:信息密度高
这也是我后来搭了一个「**两模型并行**」小工作流的原因——让同一支股票同时经过 DeepSeek 和千问两次分析,再人工对两份报告做“交集 / 差集”比对。实测下来比单模型要稳,能有效降低单一模型自身偏见对结论的拉偏。
5, 选择建议
| 你的需求 | 推荐 |
| 中线价值投资研报 | DeepSeek V4 |
| 盘中消息面快速判断 | 千问 |
| 科创板/创业板公司 | 千问 |
| 周期股情景推演 | DeepSeek V4 |
| 想要对比着看两边 | 两个都用 |
6,常见问题
Q1:DeepSeek 和千问哪个更"准"?
两个都不能稳定预测涨跌。**分析质量**上 DeepSeek 推理更深、千问消息更新,重大决策时建议两个都问。
Q2:为啥 DeepSeek 分析科创板表现不如千问?
科创板会计处理(研发资本化、未盈利上市)有中国特色。千问基于阿里云国内金融语料,对此更熟悉;DeepSeek 偏"通用推理"。
Q3:千问能实时抓到今日股价吗?
Qwen-Plus 能搜新闻但不能抓盘中分时价位。若想把模型分析和实时行情对齐,需要在模型外再接一层数据源(常见的组合是 Tushare / AkShare / BaoStock 三路冗余,成本可控)。
7, 延伸阅读
本文 5 支个股的完整打分依据、两家模型各自产出的原始研报样例,以及 Prompt 骨架与打分 Rubric 的细节版,整理在下面这篇资料里(纯技术整理,不涉及任何投顾建议):
如果想自己跑一遍而不想本地搭环境,也可以直接在 `nbstockai.com` 在线切换模型做复现。
8,结语
从这次 5 股实测来看,DeepSeek 与千问没有明显的“总分碾压”,差别集中在场景:DeepSeek 推理链更深、术语更专业;千问消息时效更新、对科创板 / 创业板会计处理更熟。
所以真实使用时,比「选谁」更重要的其实是「按场景分工」——重推理的环节交给 DeepSeek,重消息与会计合规的环节交给千问,两份报告再做一次人工交叉复核。这也是我个人目前在跑 A 股基本面分析时的实际做法。
以上结论基于本次 5 支个股的小样本实测,不具备行业普适性,也不构成对任何具体投资标的的建议。
> 本文实测数据仅供教学研究,不构成投资建议。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)