2026山东大学软件学院创新项目实训博客(一)
【智绘博弈】多模态大模型调研与 API 选型
项目:智绘博弈 —— 人机对抗绘画猜词与心理解读系统
角色:AI 识别 & 心理解读模块负责人
日期:2026.3.30 - 2026.4.5
一、本周目标
作为团队中负责 AI 识别与心理分析模块的成员,我在项目启动阶段的首要任务是:
- 搞清楚「多模态大模型」到底是什么
- 调研国内可用的多模态 API,对比价格、效果、易用性
- 确定技术选型方案,为后续开发做准备
二、什么是多模态大模型?
在调研之前,我先花了点时间理解“多模态”这个概念。
传统的语言模型(如 GPT-3)只能处理文本,你给它一段话,它回你一段话。但多模态大模型不一样——它能同时理解文本 + 图像,甚至还有的能处理音频、视频。
对我们的项目来说,这意味着:
- 玩家画了一幅画(图像)
- AI 需要看懂这幅画,猜出画的是什么(图像理解 → 文本输出)
这正是多模态模型的典型应用场景。如果用传统方案,我们需要先用 CNN 提取图像特征,再用分类器猜词,整个流程很复杂。而多模态大模型可以“端到端”完成:直接把图片丢给它,它直接告诉你画的是什么。
简单说:多模态 = 能看图说话的 AI。
三、国内主流多模态 API 调研
由于网络原因,OpenAI 的 GPT-4V 和 Google 的 Gemini 对国内开发者不太友好。我们需要找国内可用、注册方便、有免费额度的平台。
经过一周的调研,我整理了三个主流选项:
1. 智谱 AI —— GLM-4V 系列
| 项目 | 内容 |
|---|---|
| 官网 | https://open.bigmodel.cn |
| 模型 | GLM-4V-Flash(免费)/ GLM-4V-Plus(付费) |
| 免费额度 | 新用户有免费 Token 额度 |
| 注册门槛 | 手机号注册即可,无需企业认证 |
| SDK | pip install zhipuai,官方 Python SDK |
关于 GLM-5: 智谱在 2026 年 2 月发布了 GLM-5 系列,4 月初又发布了 GLM-5V-Turbo(多模态 Coding 基座模型),效果更强、支持深度推理。但目前GLM-4V 系列对我们的项目来说效果够用,性价比更高,后续可以考虑升级。(之后的千问百度同理)
优点:
- 试用额度多,对学生党太友好了
- 中文理解能力强,简笔画识别能力够用
- SDK 封装得很好,几行代码就能调用
缺点:
- Flash 版本效果比 Plus 差一些(但对简笔画识别够用)
2. 通义千问 VL(阿里云)
| 项目 | 内容 |
|---|---|
| 官网 | https://dashscope.console.aliyun.com |
| 模型 | qwen-vl-plus / qwen-vl-max |
| 免费额度 | 新用户有免费 Token 额度 |
| 注册门槛 | 需要阿里云账号 + 实名认证 |
| SDK | pip install openai(兼容 OpenAI 接口) |
优点:
- qwen-vl-max 效果很好,可能是国内最强的多模态模型之一
- 支持 OpenAI 兼容接口,代码迁移方便
缺点:
- 需要实名认证,流程稍麻烦
- 免费额度用完后要付费
3. 文心一言(百度)
| 项目 | 内容 |
|---|---|
| 官网 | https://cloud.baidu.com/product/wenxinworkshop |
| 模型 | ERNIE-4.0-Vision |
| 免费额度 | 有限额 |
| 注册门槛 | 需要百度云账号 + 实名 |
优点:
- 品牌知名度高
缺点:
- 图像理解能力在三者中相对较弱(根据网上评测)
- API 文档和 SDK 没有前两家友好
四、技术选型决策
综合考虑免费额度、注册难度、效果、SDK 易用性,我们的选型方案是:
主方案:智谱 GLM-4V-Flash(免费无限量)
备份方案:通义千问 VL-Plus(付费但效果好)
理由:
- 成本优先:项目初期我们先用个人试用额度进行开发测试,后续如果额度不够或需要部署上线,可以向学院申请提供 API 额度和云服务器支持。GLM-4V-Flash 的免费政策让我们前期零成本试错。
- 够用就好:我们的场景是识别简笔画,不需要理解复杂的照片,Flash 版本的能力足够
- 双保险:万一智谱的服务挂了(虽然概率很低),可以自动切换到通义千问
在代码层面,我们会实现一个自动降级机制:
智谱 GLM-4V → 通义千问 VL → Mock 模式(离线测试用)
如果主 API 调用失败,自动尝试备用 API;如果都失败,用本地 Mock 数据兜底,保证游戏流程不中断。
五、API Key 的安全管理
一个容易被忽略的问题是:API Key 不能写死在代码里。
如果把 Key 直接写在代码里然后提交到 Git 仓库,任何人都能看到。更危险的是,如果项目开源或者仓库被泄露,别人可以用你的 Key 白嫖额度甚至产生费用。
我们采用的方案是环境变量:
python
# config.py
import os
ZHIPU_API_KEY = os.environ.get('ZHIPU_API_KEY', '')
DASHSCOPE_API_KEY = os.environ.get('DASHSCOPE_API_KEY', '')
然后在启动脚本里设置环境变量:
bash
# start.bat (Windows)
set ZHIPU_API_KEY=密钥
python app.py
这样 Key 不会出现在代码文件里,也不会被提交到 Git。
六、遇到的问题
问题 1:注册智谱时手机收不到验证码
解决:换了个时间段重试,可能是高峰期短信通道拥堵。
问题 2:不太理解 Base64 编码
调用多模态 API 时,图片需要转成 Base64 格式传输。一开始我不太明白为什么不能直接传图片 URL。
后来查资料理解了:
- 如果传 URL,API 服务器需要去下载这张图片,增加延迟
- 我们的图片是 Canvas 画布实时生成的,根本没有 URL
- Base64 是把二进制数据编码成文本字符串,可以直接嵌入 JSON 请求
七、下周计划
- 完成智谱 SDK 的第一次调用:写一个最简单的 demo,传一张画进去,看 AI 返回什么
- 研究 Prompt 设计:怎么让 AI 按我们的格式返回结果(JSON 格式、包含猜测词和置信度)
- 开始设计三档难度的 Prompt 策略:easy / medium / hard
八、本周总结
这是项目的第一周,主要工作是技术调研和方案确定。虽然还没写正式代码,但我对接下来要做的事情有了清晰的认识:
- 理解了多模态大模型的概念和应用场景
- 调研对比了三个国内平台,确定了「智谱主力 + 通义备份」的方案
- 学会了用环境变量管理敏感信息
下周开始正式写代码,期待第一次成功调用 API 的时刻!
(第一次写博客,没想到直接支持md格式哇,从typora过来都不用改格式,太方便了hhhh)
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)