2026山东大学软件学院创新项目实训博客(一)

晓晓kk

618人浏览 · 2026-04-04 23:50:31

晓晓kk · 2026-04-04 23:50:31 发布

【智绘博弈】多模态大模型调研与 API 选型

项目：智绘博弈 —— 人机对抗绘画猜词与心理解读系统
角色：AI 识别 & 心理解读模块负责人
日期：2026.3.30 - 2026.4.5

一、本周目标

作为团队中负责 AI 识别与心理分析模块的成员，我在项目启动阶段的首要任务是：

搞清楚「多模态大模型」到底是什么
调研国内可用的多模态 API，对比价格、效果、易用性
确定技术选型方案，为后续开发做准备

二、什么是多模态大模型？

在调研之前，我先花了点时间理解“多模态”这个概念。

传统的语言模型（如 GPT-3）只能处理文本，你给它一段话，它回你一段话。但多模态大模型不一样——它能同时理解文本 + 图像，甚至还有的能处理音频、视频。

对我们的项目来说，这意味着：

玩家画了一幅画（图像）
AI 需要看懂这幅画，猜出画的是什么（图像理解 → 文本输出）

这正是多模态模型的典型应用场景。如果用传统方案，我们需要先用 CNN 提取图像特征，再用分类器猜词，整个流程很复杂。而多模态大模型可以“端到端”完成：直接把图片丢给它，它直接告诉你画的是什么。

简单说：多模态 = 能看图说话的 AI。

三、国内主流多模态 API 调研

由于网络原因，OpenAI 的 GPT-4V 和 Google 的 Gemini 对国内开发者不太友好。我们需要找国内可用、注册方便、有免费额度的平台。

经过一周的调研，我整理了三个主流选项：

1. 智谱 AI —— GLM-4V 系列

项目	内容
官网	https://open.bigmodel.cn
模型	GLM-4V-Flash（免费）/ GLM-4V-Plus（付费）
免费额度	新用户有免费 Token 额度
注册门槛	手机号注册即可，无需企业认证
SDK	`pip install zhipuai`，官方 Python SDK

关于 GLM-5：智谱在 2026 年 2 月发布了 GLM-5 系列，4 月初又发布了 GLM-5V-Turbo（多模态 Coding 基座模型），效果更强、支持深度推理。但目前GLM-4V 系列对我们的项目来说效果够用，性价比更高，后续可以考虑升级。（之后的千问百度同理）

优点：

试用额度多，对学生党太友好了
中文理解能力强，简笔画识别能力够用
SDK 封装得很好，几行代码就能调用

缺点：

Flash 版本效果比 Plus 差一些（但对简笔画识别够用）

2. 通义千问 VL（阿里云）

项目	内容
官网	https://dashscope.console.aliyun.com
模型	qwen-vl-plus / qwen-vl-max
免费额度	新用户有免费 Token 额度
注册门槛	需要阿里云账号 + 实名认证
SDK	`pip install openai`（兼容 OpenAI 接口）

优点：

qwen-vl-max 效果很好，可能是国内最强的多模态模型之一
支持 OpenAI 兼容接口，代码迁移方便

缺点：

需要实名认证，流程稍麻烦
免费额度用完后要付费

3. 文心一言（百度）

项目	内容
官网	https://cloud.baidu.com/product/wenxinworkshop
模型	ERNIE-4.0-Vision
免费额度	有限额
注册门槛	需要百度云账号 + 实名

优点：

品牌知名度高

缺点：

图像理解能力在三者中相对较弱（根据网上评测）
API 文档和 SDK 没有前两家友好

四、技术选型决策

综合考虑免费额度、注册难度、效果、SDK 易用性，我们的选型方案是：

主方案：智谱 GLM-4V-Flash（免费无限量）
备份方案：通义千问 VL-Plus（付费但效果好）

理由：

成本优先：项目初期我们先用个人试用额度进行开发测试，后续如果额度不够或需要部署上线，可以向学院申请提供 API 额度和云服务器支持。GLM-4V-Flash 的免费政策让我们前期零成本试错。
够用就好：我们的场景是识别简笔画，不需要理解复杂的照片，Flash 版本的能力足够
双保险：万一智谱的服务挂了（虽然概率很低），可以自动切换到通义千问

在代码层面，我们会实现一个自动降级机制：

智谱 GLM-4V → 通义千问 VL → Mock 模式（离线测试用）

如果主 API 调用失败，自动尝试备用 API；如果都失败，用本地 Mock 数据兜底，保证游戏流程不中断。

五、API Key 的安全管理

一个容易被忽略的问题是：API Key 不能写死在代码里。

如果把 Key 直接写在代码里然后提交到 Git 仓库，任何人都能看到。更危险的是，如果项目开源或者仓库被泄露，别人可以用你的 Key 白嫖额度甚至产生费用。

我们采用的方案是环境变量：

python

# config.py
import os

ZHIPU_API_KEY = os.environ.get('ZHIPU_API_KEY', '')
DASHSCOPE_API_KEY = os.environ.get('DASHSCOPE_API_KEY', '')

然后在启动脚本里设置环境变量：

bash

# start.bat (Windows)
set ZHIPU_API_KEY=密钥
python app.py

这样 Key 不会出现在代码文件里，也不会被提交到 Git。

六、遇到的问题

问题 1：注册智谱时手机收不到验证码

解决：换了个时间段重试，可能是高峰期短信通道拥堵。

问题 2：不太理解 Base64 编码

调用多模态 API 时，图片需要转成 Base64 格式传输。一开始我不太明白为什么不能直接传图片 URL。

后来查资料理解了：

如果传 URL，API 服务器需要去下载这张图片，增加延迟
我们的图片是 Canvas 画布实时生成的，根本没有 URL
Base64 是把二进制数据编码成文本字符串，可以直接嵌入 JSON 请求

七、下周计划

完成智谱 SDK 的第一次调用：写一个最简单的 demo，传一张画进去，看 AI 返回什么
研究 Prompt 设计：怎么让 AI 按我们的格式返回结果（JSON 格式、包含猜测词和置信度）
开始设计三档难度的 Prompt 策略：easy / medium / hard

八、本周总结

这是项目的第一周，主要工作是技术调研和方案确定。虽然还没写正式代码，但我对接下来要做的事情有了清晰的认识：

理解了多模态大模型的概念和应用场景
调研对比了三个国内平台，确定了「智谱主力 + 通义备份」的方案
学会了用环境变量管理敏感信息

下周开始正式写代码，期待第一次成功调用 API 的时刻！

（第一次写博客，没想到直接支持md格式哇，从typora过来都不用改格式，太方便了hhhh）

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

DALI / UMAP / H5

这几个词通常出现在深度学习框架、数据处理库、AI训练平台或代码仓库的功能说明中，表示该系统支持相应的数据处理技术或文件格式。DALI 指的是 NVIDIA DALI（Data Loading Library）。它是 NVIDIA 开发的高性能数据加载与预处理框架，主要用于加速训练过程。例如 ImageNet 训练时，DALI 可以减少 CPU 成为瓶颈的问题。对于大规模视觉训练（ImageNet、

AtomGit开源社区

AI Agent Harness Engineering 后端性能优化：高并发场景下的负载均衡方案

随着企业级AI Agent应用的大规模落地，作为Agent集群管控核心的Harness层正面临前所未有的高并发挑战：高峰期十万级QPS的流量潮汐、异构算力节点的资源差异、Agent有状态特性带来的调度复杂度、不同优先级请求的SLA保障要求，都让传统微服务负载均衡方案完全失效。

AtomGit开源社区

大湾区医疗健康EMBA实测解析与科学选型指南

师资团队国际化程度极高，外籍教师占比约50%，100%博士学历，汇聚哈佛、剑桥、斯坦福、哥伦比亚等全球顶级高校学者，覆盖战略管理、资本运作、市场营销、宏观经济、组织变革等全领域，兼具学术深度与企业实战经验。二是数字化转型，助力传统医疗企业落地AI医疗、智能设备研发等科技升级；依托港科大顶尖的AI、数据科学科研实力，精准匹配当下智慧医疗、医疗数字化转型的行业趋势，同时完善的跨境课程与全球游学体系，完