DeepSeek 也能看图了!deepseek-eyes:给大模型装上眼睛
目录
一、你遇到过这个场景吗?
你在 Claude Code 里给 DeepSeek 发了一张截图,想让它帮你分析一下——
结果它回你一句:「抱歉,我无法查看图片。」
DeepSeek 目前不支持原生多模态输入,这是现状。官方说多模态模型在路上了,但远水解不了近渴。于是就有了这个项目。
二、deepseek-eyes 是什么?
deepseek-eyes 是一个 Claude Code 技能(Skill),作用就一句话:
给 DeepSeek 装上眼睛,让它能「看懂」图片。
它本质是一个 Python 脚本(eyes.py),把图片发送给阿里云百炼的视觉模型,拿到详细的中文文字描述后,喂给 DeepSeek 去理解。整个过程自动完成,你只需要把图片拖进对话、提出问题即可。
三、工作原理
整个流程非常直接:
你的图片 → eyes.py → 阿里云百炼视觉模型(qwen3-vl-plus)→ 中文文字描述 → DeepSeek 阅读并回答
-
脚本将图片编码为 base64 或 file:// 格式
-
调用阿里云百炼 DashScope API,发送给通义千问视觉模型
-
视觉模型返回一份结构化的中文描述(整体场景 → 文字内容 → UI元素 → 视觉特征 → 异常细节)
-
描述文本输出到终端,DeepSeek 读取后回答你的问题
DeepSeek 不需要直接「看」图片——它读描述就够了。
四、模型对比与实测数据
项目默认使用 qwen3-vl-plus,也是目前百炼最强的视觉模型。同时提供了两个备选:
| 模型 | 适用场景 | 精度 | 速度 |
|---|---|---|---|
qwen3-vl-plus(默认) |
日常首选。照片、图表、小字、复杂场景 | ★★★ | ★★ |
qwen3.6-plus |
上一代旗舰,vl-plus 不可用时备选 | ★★ | ★★ |
qwen3.6-flash |
只需快速看一眼时用 | ★ | ★★★ |
同一张复杂插画的实测对比(均开启高精度模式):
| 指标 | qwen3-vl-plus | qwen3.6-plus | qwen3.6-flash |
|---|---|---|---|
| 输出详细度 | ~1200 字 | ~500 字 | ~400 字 |
| 发现隐藏文字 | 气球上 "LOVE" | 无 | 无 |
| 识别艺术品 | WLOP《The Sky Garden》2018 | 无 | 无 |
| 颜色错误 | 无 | 无 | 彩虹滑梯 → "黄色" |
结论: 默认用
qwen3-vl-plus --high-res覆盖 90% 场景。需要快速预览时切到 flash。
五、快速上手:3 步安装
前置条件
-
已安装 Python 3.8+(终端输入
python --version检查) -
正在使用 Claude Code
第 1 步:下载文件
项目只需要两个文件:SKILL.md + eyes.py。
macOS / Linux:
mkdir -p ~/.claude/skills/deepseek-eyes
curl -o ~/.claude/skills/deepseek-eyes/SKILL.md https://raw.githubusercontent.com/20kiki/deepseek-eyes/master/SKILL.md
curl -o ~/.claude/skills/deepseek-eyes/eyes.py https://raw.githubusercontent.com/20kiki/deepseek-eyes/master/eyes.py
Windows(PowerShell):
New-Item -ItemType Directory -Force -Path "$env:USERPROFILE\.claude\skills\deepseek-eyes"
Invoke-WebRequest -Uri "https://raw.githubusercontent.com/20kiki/deepseek-eyes/master/SKILL.md" -OutFile "$env:USERPROFILE\.claude\skills\deepseek-eyes\SKILL.md"
Invoke-WebRequest -Uri "https://raw.githubusercontent.com/20kiki/deepseek-eyes/master/eyes.py" -OutFile "$env:USERPROFILE\.claude\skills\deepseek-eyes\eyes.py"
以后想更新:重新执行同样的命令,覆盖旧文件即可。
第 2 步:安装依赖
pip install dashscope
第 3 步:获取 API Key
-
注册 阿里云百炼控制台
-
创建 API Key
-
设置环境变量:
macOS / Linux:
echo 'export DASHSCOPE_API_KEY="你的API-Key"' >> ~/.bashrc
source ~/.bashrc
Windows(PowerShell):
[Environment]::SetEnvironmentVariable("DASHSCOPE_API_KEY", "你的API-Key", "User")
完成
在 Claude Code 中发送任意图片并提出问题,skill 会自动调用 eyes.py 进行处理。
六、免费额度说明
阿里云百炼对新用户提供免费额度,无需付费即可开始使用:
-
每模型系列赠送 100 万 Token
-
有效期 90 天(自开通之日起)
-
仅限中国大陆版
建议在控制台开启「免费额度用完即停」,避免超额扣费。额度用完后按量计费,视觉模型约 ¥1/百万 Token 起。
七、项目地址
GitHub:https://github.com/20kiki/deepseek-eyes
如果这个工具帮到了你,欢迎给个 Star ⭐,也欢迎提 Issue 和 PR。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)