Operit AI教程系列5：功能模型与多模态输入

2501_90436867

372人浏览 · 2026-03-29 18:30:45

2501_90436867 · 2026-03-29 18:30:45 发布

功能模型与识图

在读这一节之前，请确保看了上一个 模型配置 的教程。有的时候可能我们会想：既然 deepseek 不支持识图，那我们能不能另外配置一下 glm-4.6v 这样的识图模型，然后让主聊天模型调用这个小模型呢？再进一步，聊天总结能不能也用别的模型，比如 gemini flash 去生成呢？这就是功能模型干的事情。顾名思义，功能模型为每个功能设定一个模型配置。也就是说，你需要按照上一节的内容，新建出一个或者多个配置。目前主要功能有：聊天、总结、多模态输入、群聊规划、记忆库总结 等等。当你发现奇怪的报错，但是你的聊天模型是通的时候，请优先检查功能模型。还有一点需要强调：角色卡绑定、聊天下面选择的，都是直接对应的聊天功能模型，其他功能模型修改的入口只有通过这个功能模型界面修改。功能模型配置接下来，将会以多模态输入，以及UI控制器，这几个功能模型进行详细解释。因为这几个相对别的比较特殊，别的几个只要配置了能够对话的正常模型即可，而这几个是有特殊的配置要求的。## 模型识图功能Operit AI 支持两种方式实现图像识别功能：直接识图 和 通过功能模型调用识图。直接识图，是直接用聊天模型的识图功能实现的，而第二种间接识图，则是通过前面提到的功能模型。### 方式一：直接识图（聊天模型支持识图）对于支持视觉理解的多模态模型（如 GPT-4 Vision、Claude 3.5 Sonnet、Gemini Pro Vision 等），您可以在模型配置中启用直接识图功能。#### 配置步骤1. 进入 **“设置” -> “模型与参数配置”**2. 找到你的聊天模型3. 在配置界面中找到 “启用直接图片处理” 选项4. 勾选该选项，启用直接图片处理功能5. 保存配置并点击测试，确保测试通过模型配置界面 #### 使用方法配置完成后，在使用该模型进行对话时，直接发送图片给 AI，AI 可以直接识别和理解图片内容，无需额外调用工具，响应速度更快（不过这也不一定）。### 方式二：通过功能模型调用识图（聊天模型不支持识图）对于不支持直接识图的模型，您可以通过配置功能模型来实现图像识别功能。系统会在需要时自动调用配置的识图模型来处理图片。#### 配置步骤1. 进入 “设置” -> "功能模型配置"2. 找到 “图像识别” 功能模块3. 选择一个支持识图的多模态模型配置4. 确保该模型配置已启用"直接图片处理"选项5. 保存配置并测试#### 工作原理当您使用不支持直接识图的主模型进行对话时，当你在对话中发送图片时，聊天模型会通过 read_file 工具调用图像识别功能模型，识图模型处理完成后，将结果返回给主模型，主模型基于识别结果继续对话。### 特殊情况：没有模型能够识图这一点要在识图这里特殊说明，因为软件考虑了这种情况，比如最开始，用户快速入门之后，就是没有任何的模型能够识图的。但是呢，软件做了最后一层兜底：当你发送图后，AI 会使用 read_file 工具并结合 OCR 直接提取图片文本内容，虽然效果不会特别好，但是总比没有好。## UI自动化操作在对话中，如果你有自动操作需求，可能 AI 会调用 UI 控制器 的功能模型去操作，也可能直接主模型上场直接操作。这里先记住一点：功能模型可以被委托去处理特定任务。简单说明一下：有需求的可以在工具箱里面，划到底，有个autoglm一键配置。软件可以在debugger以上等级使用autoglm的功能模型，开始虚拟屏幕自动点击(当然，这个也可以不配)。后面会单独出一节介绍UI自动化的。当然也可以阅读老文档先凑合一下：- UI自动化（旧版文档）- UI自动化概览（旧版文档）- 虚拟屏幕（旧版文档）平台这里就不传老文档了，可以前往官网阅读。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

[Dify x EdgeOne] 哄睡童话机——用 Dify + EdgeOne Pages 给娃造一个会现挂的 AI 睡前故事神器

AtomGit开源社区

PP-OCRv5 ONNX部署但使用OnnxOCR

AtomGit开源社区

MCP（Model Context Protocol）技术深度解析：AI Agent的标准化接口革命

AI技术的发展路径清晰展现了从对话机器人(Chatbot)→辅助决策助手(Copilot)→自主执行Agent的演进轨迹。随着AI在任务中参与度的不断提升，对**丰富的任务上下文(Context)和执行行动所需的工具(Tool)**的需求也日益增长。平台依赖性强：OpenAI、Google等不同LLM平台的Function Call API实现差异巨大开发耦合度高：工具开发者需要深入了解Agent