Operit AI教程系列5:功能模型与多模态输入
功能模型与识图
在读这一节之前,请确保看了上一个 模型配置 的教程。有的时候可能我们会想:既然 deepseek 不支持识图,那我们能不能另外配置一下 glm-4.6v 这样的识图模型,然后让主聊天模型调用这个小模型呢?再进一步,聊天总结能不能也用别的模型,比如 gemini flash 去生成呢?这就是功能模型干的事情。顾名思义,功能模型为每个功能设定一个模型配置。也就是说,你需要按照上一节的内容,新建出一个或者多个配置。目前主要功能有:聊天、总结、多模态输入、群聊规划、记忆库总结 等等。当你发现奇怪的报错,但是你的聊天模型是通的时候,请优先检查功能模型。还有一点需要强调:角色卡绑定、聊天下面选择的,都是直接对应的聊天功能模型,其他功能模型修改的入口只有通过这个功能模型界面修改。
接下来,将会以多模态输入,以及UI控制器,这几个功能模型进行详细解释。因为这几个相对别的比较特殊,别的几个只要配置了能够对话的正常模型即可,而这几个是有特殊的配置要求的。## 模型识图功能Operit AI 支持两种方式实现图像识别功能:直接识图 和 通过功能模型调用识图。直接识图,是直接用聊天模型的识图功能实现的,而第二种间接识图,则是通过前面提到的功能模型。### 方式一:直接识图(聊天模型支持识图)对于支持视觉理解的多模态模型(如 GPT-4 Vision、Claude 3.5 Sonnet、Gemini Pro Vision 等),您可以在模型配置中启用直接识图功能。#### 配置步骤1. 进入 **“设置” -> “模型与参数配置”**2. 找到你的聊天模型3. 在配置界面中找到 “启用直接图片处理” 选项4. 勾选该选项,启用直接图片处理功能5. 保存配置并点击测试,确保测试通过
#### 使用方法配置完成后,在使用该模型进行对话时,直接发送图片给 AI,AI 可以直接识别和理解图片内容,无需额外调用工具,响应速度更快(不过这也不一定)。### 方式二:通过功能模型调用识图(聊天模型不支持识图)对于不支持直接识图的模型,您可以通过配置功能模型来实现图像识别功能。系统会在需要时自动调用配置的识图模型来处理图片。#### 配置步骤1. 进入 “设置” -> "功能模型配置"2. 找到 “图像识别” 功能模块3. 选择一个支持识图的多模态模型配置4. 确保该模型配置已启用"直接图片处理"选项5. 保存配置并测试
#### 工作原理当您使用不支持直接识图的主模型进行对话时,当你在对话中发送图片时,聊天模型会通过 read_file 工具调用图像识别功能模型,识图模型处理完成后,将结果返回给主模型,主模型基于识别结果继续对话。### 特殊情况:没有模型能够识图这一点要在识图这里特殊说明,因为软件考虑了这种情况,比如最开始,用户快速入门之后,就是没有任何的模型能够识图的。但是呢,软件做了最后一层兜底:当你发送图后,AI 会使用 read_file 工具并结合 OCR 直接提取图片文本内容,虽然效果不会特别好,但是总比没有好。## UI自动化操作在对话中,如果你有自动操作需求,可能 AI 会调用 UI 控制器 的功能模型去操作,也可能直接主模型上场直接操作。这里先记住一点:功能模型可以被委托去处理特定任务。简单说明一下:有需求的可以在工具箱里面,划到底,有个autoglm一键配置。软件可以在debugger以上等级使用autoglm的功能模型,开始虚拟屏幕自动点击(当然,这个也可以不配)。后面会单独出一节介绍UI自动化的。当然也可以阅读老文档先凑合一下:- UI自动化(旧版文档)- UI自动化概览(旧版文档)- 虚拟屏幕(旧版文档)平台这里就不传老文档了,可以前往官网阅读。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)