1 模型简介

随着多模态大模型的不断发展,具备图文理解、思维推理、指令执行等综合能力的 AI 系统正在成为新一代智能交互的关键。ERNIE-4.5-VL-28B-A3B正是百度推出的一款多模态 MoE(Mixture of Experts)大模型,融合了图像识别、语言理解与推理能力,在多模态对话场景中表现出色。
在这里插入图片描述

该模型拥有 28B 总参数量,但采用 MoE 架构,每次仅激活3B 参数,大幅提升推理效率和响应速度。支持包括图像描述、图文问答、多模态思维链推理(Chain-of-Thought)、结构化信息提取等多种任务,特别适合构建智能助理、Agent 系统和视觉语言理解平台。

一起来轻松玩转文心大模型吧-文心大模型免费下载地址:https://ai.gitcode.com/paddlepaddle/ERNIE-4.5-VL-424B-A47B-Paddle
在这里插入图片描述

2 模型部署实践

2.1 部署环境说明

在本次部署中,我们选择基于PaddlePaddle 深度学习框架 和FastDeploy 推理引擎,结合 Hugging Face 镜像,完成模型本地化安装与部署。使用的是一台配置较高的物理服务器,搭载单卡 NVIDIA A800-SXM4-80GB GPU。该显卡具备 80GB 超大显存,能够满足 ERNIE-4.5-VL-28B-A3B 多模态大模型在推理阶段的加载需求。整机配备 15 核心 CPU 和 249GB 内存,为模型运行过程中提供了充足的算力和内存支持。硬盘方面,系统盘与数据盘各为 100GB,合计 200GB 的磁盘空间基本可以容纳模型文件、缓存内容和运行依赖。
在这里插入图片描述

2.2 安装与部署步骤

以下为详细部署步骤:

(1). 升级 pip 至最新版

pip install --upgrade pip

(2). 安装 Hugging Face 工具

pip install huggingface_hub

(3). 设置 Hugging Face 镜像并下载模型

export HF_ENDPOINT=https://hf-mirror.com

huggingface-cli download baidu/ERNIE-4.5-VL-28B-A3B-Paddle --local-dir baidu/ERNIE-4.5-VL-28B-A3B-Paddle

(4). 安装 PaddlePaddle GPU 版本

以 CUDA 12.6 为例:

python -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

(5). 安装 FastDeploy GPU 版本

python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

(6). 启动模型服务

python -m fastdeploy.entrypoints.openai.api_server \
       --model baidu/ERNIE-4.5-VL-28B-A3B-Paddle \
       --port 8180 \
       --metrics-port 8181 \
       --engine-worker-queue-port 8182 \
       --max-model-len 32768 \
       --enable-mm \
       --reasoning-parser ernie-45-vl \
       --max-num-seqs 32

成功运行后,会看到以下启动日志,说明模型服务接口已就绪:

INFO     Launching metrics service at http://0.0.0.0:8181/metrics
INFO     Launching chat completion service at http://0.0.0.0:8180/v1/chat/completions
INFO     Launching completion service at http://0.0.0.0:8180/v1/completions

在这里插入图片描述

3 多模态测试

本节通过一张真实图像进行覆盖性测试,验证模型在多模态理解、推理和任务执行等方面的能力。

3.1 测试程序说明

import requests
import json

url = "http://d1qdjp47v38s73dr5680-8180.agent.damodel.com/v1/chat/completions"
headers = {"Content-Type": "application/json"}

data = {
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://tjukg.com/images/canting.jpg"
                    }
                },
                {
                    "type": "text",
                    "text": "请描述这张图片的主要内容。"
                }
            ]
        }
    ],
    "metadata": {
        "enable_thinking": True
    }
}

response = requests.post(url, headers=headers, data=json.dumps(data))
print(response.json())

本次测试选取的图片是一张餐厅就餐的场景。该图片展示的是一间典型中式餐厅场景,画面中有圆桌、顾客、茶具、筷子、吊灯等元素,是进行图像理解、多模态推理的理想素材。
在这里插入图片描述

3.2 测试问题清单

以下问题按照任务类型划分,覆盖了模型所有主打能力:

类型 测试问题
图像描述类 - 请描述这张图片的主要内容。
图文问答类 - 图片中有多少张桌子? - 有几位顾客正在就餐? - 桌上都摆放了哪些餐具和食物?
图文匹配判断类 - 如果我说“这是一个西式快餐店”,你是否同意?为什么?
多模态推理类 - 这家餐厅的定位属于高端餐厅还是普通快餐?请分析原因。
指令与任务执行类 - 作为一名餐厅设计师,请根据图片提出三条优化建议。

3.3 测试结果

  • 请描述这张图片的主要内容。(无思维链)
    在这里插入图片描述
  • 请描述这张图片的主要内容。(有思维链)

在这里插入图片描述

  • 图片中有多少张桌子? - 有几位顾客正在就餐? - 桌上都摆放了哪些餐具和食物?
    在这里插入图片描述

  • 如果我说“这是一个西式快餐店”,你是否同意?为什么?
    在这里插入图片描述

  • 这家餐厅的定位属于高端餐厅还是普通快餐?请分析原因。
    在这里插入图片描述

  • 作为一名餐厅设计师,请根据图片提出三条优化建议。
    在这里插入图片描述

4 模型多模态能力评测分析

4.1 图像理解能力

结果文本

{'id': 'chatcmpl-16c1b245-36eb-4f64-bcde-7b608823485d', 'object': 'chat.completion', 'created': 1752489640, 'model': 'default', 'choices': [{'index': 0, 'message': {'role': 'assistant', 'content': '这张图片展示了一个繁忙的餐厅内部场景。餐厅内有多张餐桌和椅子,顾客们正在用餐。前景中有几张桌子,上面摆放着碗、筷子和红色的桌牌。餐厅的背景可以看到开放式厨房,厨师们正在忙碌地准备食物。餐厅的装饰现代,天花板上有明亮的灯光,墙壁上有显示屏,显示着一些信息。整体氛围显得非常热闹和充满活力。', 'reasoning_content': '', 'tool_calls': None}, 'finish_reason': 'stop'}], 'usage': {'prompt_tokens': 793, 'total_tokens': 876, 'completion_tokens': 83, 'prompt_tokens_details': {'cached_tokens': 0}}}
{'id': 'chatcmpl-33206b6c-a9b7-457a-91ea-e8b8aefcfcb0', 'object': 'chat.completion', 'created': 1752489684, 'model': 'default', 'choices': [{'index': 0, 'message': {'role': 'assistant', 'content': '\n这张图片展示了一个热闹的餐厅或食堂内部场景。画面中有多张浅色木质餐桌和椅子,顾客们正在用餐,桌上摆放着碗筷和红色桌牌。背景中可以看到服务台,有工作人员在忙碌,服务台上方有蓝色电子屏幕显示信息。餐厅内灯光明亮,天花板设计现代,地面是黑白相间的瓷砖。周围顾客穿着日常,整体氛围显得繁忙而充满生活气息,可能位于商场或写字楼内。', 'reasoning_content': '\n用户让我描述这张图片的主要内容。首先,我需要仔细看看这张图片。看起来像是一个餐厅或者食堂的内部场景。里面有很多人,他们坐在不同的桌子旁用餐。桌子是浅色的木质,椅子也是木质的,搭配金属腿。每张桌子上都有红色的桌牌,上面可能有座位号或者信息,但具体内容看不清楚。\n\n餐厅的布局比较宽敞,地面是黑白相间的瓷砖,显得干净整洁。天花板上有现代化的灯具,提供充足的照明。背景中可以看到服务台,有工作人员在忙碌,可能是在准备食物或者点餐。服务台上方有蓝色的电子屏幕,显示着一些信息,比如可能是餐厅的名称或者广告。\n\n周围还有其他顾客,有的坐着吃饭,有的站着或者走动。整体氛围显得比较热闹,可能是一个商业综合体内的餐饮区,比如商场或者写字楼里的食堂。人们穿着日常,显得轻松自在。\n\n用户可能想要了解这个场景的基本情况,比如环境、人群、活动等。可能需要用简洁的语言概括,突出餐厅的繁忙和人们的日常活动。同时要注意不要遗漏细节,比如桌牌、电子屏幕、服务台等元素。需要确保描述准确,结构清晰,让读者一目了然。\n', 'tool_calls': None}, 'finish_reason': 'stop'}], 'usage': {'prompt_tokens': 788, 'total_tokens': 1142, 'completion_tokens': 354, 'prompt_tokens_details': {'cached_tokens': 0}}}

在“请描述这张图片”的测试中,ERNIE-4.5-VL-28B-A3B 通过是否启用思维链的方式进行了两轮推理。无论是否启用推理链,模型都展现出较强的视觉感知与场景理解能力。它能够准确识别出画面展示的是一个繁忙的餐厅或食堂,能够捕捉到桌椅数量与排列、桌面上摆放的碗筷、红色桌牌与纸巾盒,观察到顾客正在就餐或等待服务的行为特征,并注意到背景中开放式厨房、电子显示屏和服务台等元素。

两次输出在描述上保持高度一致,细节捕捉准确,例如地面瓷砖的色彩、照明设计的风格,以及整体空间布局的合理性。这表明该模型在视觉语义解析方面已经具备了较高的稳定性与准确性,在图像转语言的能力上已达到较高水平。

4.2 图文问答能力

结果文本

{'id': 'chatcmpl-80b11f95-109a-4bcd-a690-095e4e041912', 'object': 'chat.completion', 'created': 1752489734, 'model': 'default', 'choices': [{'index': 0, 'message': {'role': 'assistant', 'content': '\n\n**桌子数量**:图片中可见约10张餐桌,分布在餐厅的不同区域。\n\n**正在就餐的顾客数量**:约15-20人,分散在各餐桌旁用餐或等待。\n\n**桌上摆放的餐具与食物**:\n1. **餐具**:每张餐桌标配红色桌牌(可能标桌号)、碗(内装面条或汤品)、筷子、纸巾盒,部分桌上有手机、钱包等个人物品。\n2. **食物**:碗内可见汤面或类似主食,少数桌上摆放有菜肴(如炒菜或炖菜),部分顾客正在进食。\n\n**环境背景**:餐厅为开放式设计,背景有柜台、工作人员及电子显示屏(如蓝色广告牌),整体氛围热闹且日常。', 'reasoning_content': '\n用户问的问题是关于一张图片中的桌子数量、正在就餐的顾客数量,以及桌上摆放的餐具和食物。首先,我需要仔细看看这张图片,然后逐一分析每个部分。\n\n首先,桌子数量。图片里可以看到多个餐桌,有的桌子周围有几把椅子,有的可能只有部分椅子。比如前景有几张桌子,中间也有一些,后面可能还有。我需要数清楚,可能得数清楚每一排或者每一组。比如前景有至少四张桌子,中间可能有三到四张,后面可能还有,所以总数可能在10张左右?不过可能用户希望更精确,可能需要仔细数一遍。\n\n然后是顾客数量。顾客们坐在不同的桌子旁,有的在吃饭,有的在等待。需要数清楚有多少人正在用餐。比如前景有几位,中间也有,后面可能还有,总数可能在15人左右?不过可能用户希望更准确,可能需要逐个数。\n\n接下来是餐具和食物。每张桌子上通常会有碗、筷子、纸巾盒,有的可能有饮料杯。食物方面,比如碗里的可能是面条或者米饭,有的桌上可能有盘子装的食物,比如炒菜或者炖菜。需要观察每张桌子的具体情况,比如前景的桌子上有碗和筷子,可能还有手机或钱包。\n\n另外,要注意图片中的细节,比如是否有红色的桌牌,可能标有桌号。还有背景中的柜台,可能有工作人员在准备食物,电视屏幕显示的内容,比如广告或节目,这些可能不影响答案,但可以忽略。\n\n可能需要注意是否有重复计数,比如同一桌子周围的人是否算作多个顾客,但通常每个座位算一个顾客,所以需要确认。比如一张桌子周围有两个人,就算两位顾客。\n\n总结一下,步骤是:先数桌子,再数顾客,然后描述每桌的餐具和食物。需要确保每个部分都准确,避免遗漏或错误。\n', 'tool_calls': None}, 'finish_reason': 'stop'}], 'usage': {'prompt_tokens': 804, 'total_tokens': 1374, 'completion_tokens': 570, 'prompt_tokens_details': {'cached_tokens': 0}}}

在对图像中内容进行问答测试时,模型展示出良好的识别能力与结构化表达能力。当被问及“有多少张桌子”、“有多少位顾客正在就餐”、“桌上摆放了哪些物品”时,模型能够合理估算桌椅和人员数量,并对餐具、食物、个人物品等细节进行分类归纳。

例如,它能够判断出图片中大约有10张桌子,约15至20位顾客正在用餐。在物品识别方面,能够提及碗、筷子、红色桌牌、纸巾盒,以及部分顾客的随身物品如手机和钱包,甚至能辨识碗中食物形态为汤面或盖饭等主食。这表明模型具备多实例识别能力,并能够在复杂场景中提取多目标信息,对于企业中对图像理解的问答类应用具有直接适配价值。

4.3 图文匹配判断

结果文本

{'id': 'chatcmpl-a89abe90-c045-4dd3-9e9c-549f7e5d1a2b', 'object': 'chat.completion', 'created': 1752489780, 'model': 'default', 'choices': [{'index': 0, 'message': {'role': 'assistant', 'content': '\n不同意这一说法。图片展示的场景更符合**中式快餐店**的特征,而非典型的西式快餐店(如麦当劳、肯德基等)。原因如下:\n\n1. **餐品内容**:  \n   顾客桌上常见面条、盖饭等中式主食,而非汉堡、炸鸡等西式快餐标志性产品。\n\n2. **装修风格**:  \n   环境以简约实用为主,高脚凳和吧台设计更偏向休闲餐饮,但未体现西式快餐常见的欧式装饰元素(如复古吊灯、美式海报等)。\n\n3. **文化符号缺失**:  \n   无英文菜单、西式品牌标识或明显国际化装饰,整体氛围更贴近本土化快餐场景。\n\n因此,该场景更可能是主打中式简餐的连锁餐厅,而非西式快餐店。', 'reasoning_content': '\n用户问这个图片里的店是不是西式快餐店,我得先仔细看看图片里的细节。首先,图片里有很多人在用餐,桌子和椅子看起来比较简约,可能符合快餐店的风格。但西式快餐通常指的是像麦当劳、肯德基这样的连锁店,主要卖汉堡、薯条、炸鸡之类的。\n\n然后看环境,图片里的装修比较现代,有高脚凳和吧台,可能更偏向于快餐或者休闲餐饮。但有没有明显的西式标志呢?比如菜单上的英文名称,或者店内的装饰元素,比如美国国旗、欧式吊灯之类的。图片里没有明显的西式元素,反而可能更像中式快餐,比如和府捞面或者某家川菜快餐店。\n\n另外,顾客的穿着和用餐习惯也可能有帮助。如果大家在吃面条、盖饭,可能更偏向中式。而西式快餐通常会有汉堡、鸡翅等。图片里有人端着碗,可能是在吃面或者盖饭,所以更可能是中式快餐店。\n\n还要考虑店铺的招牌和广告牌。图片里有蓝色的屏幕,可能显示的是店内的菜品或者促销信息,但有没有提到汉堡或者西式菜单呢?如果没有,那更可能是中式。此外,店铺的布局和座位安排,比如高脚凳和吧台,可能适用于快餐,但不一定特指西式。\n\n综合来看,虽然环境看起来像快餐店,但缺乏明显的西式元素,顾客的饮食内容更偏向中式,所以应该不是西式快餐店。需要确认是否有其他线索,比如是否有英文菜单、店内装饰等,但图片中没有明显显示这些。因此,回答是否定的,不同意是西式快餐店,因为主要提供中式餐点,环境虽然快餐化但风格更偏向中式。\n', 'tool_calls': None}, 'finish_reason': 'stop'}], 'usage': {'prompt_tokens': 796, 'total_tokens': 1355, 'completion_tokens': 559, 'prompt_tokens_details': {'cached_tokens': 0}}}

在“如果我说这是一个西式快餐店,你是否同意?为什么?”这一任务中,ERNIE-4.5-VL-28B-A3B 展现出较强的图文判断能力。模型基于图片中的菜品类型(如面条、盖饭)、装修风格(简约实用)以及缺乏英文菜单和西式装饰等细节,判断这更可能是一家中式快餐店。

它的判断逻辑清晰,能够结合图像细节与语言常识进行对比分析,并非简单地给出结论,而是具备基本的推理能力。这说明模型在图文语义对齐与概念判断方面已有良好表现。

4.4 多模态推理

结果文本

{'id': 'chatcmpl-1be19f66-feb9-4b33-99f2-ceeae1d8c3be', 'object': 'chat.completion', 'created': 1752489822, 'model': 'default', 'choices': [{'index': 0, 'message': {'role': 'assistant', 'content': '\n根据图片内容分析,这家餐厅更倾向于**普通快餐**定位,而非高端餐厅,具体依据如下:\n\n1. **环境与装修**  \n   - 桌椅设计简约,以木质为主,搭配黑白相间的地砖,整体风格偏向实用而非奢华,符合快餐店的常见装修风格。\n   - 开放式厨房与取餐区布局,符合快餐的快速服务模式,而非高端餐厅的私密性或仪式感设计。\n\n2. **顾客密度与氛围**  \n   - 餐厅内顾客较多,座位紧凑,环境热闹,符合快餐店“快速用餐、高客流量”的特点,与高端餐厅的安静、私密氛围形成对比。\n\n3. **设施细节**  \n   - 桌上的红色小标识可能为价格牌或菜品提示,符合快餐店标准化服务的特征。\n   - 电视播放节目吸引顾客等待,是快餐店常见的引流手段,而非高端餐厅的装饰性元素。\n\n4. **服务模式**  \n   - 开放式取餐区与开放式厨房,暗示顾客自主点餐、取餐,符合快餐的自助化流程,高端餐厅通常提供点餐-送餐至桌的服务。\n\n综上,该餐厅以高效、便捷、大众化为导向,更符合**普通快餐**的定位。', 'reasoning_content': '\n用户问这家餐厅是高端还是普通快餐,需要根据图片内容分析。首先,我得仔细看看图片里的细节。\n\n首先看环境。餐厅里有很多人,座位排列比较紧凑,桌子和椅子都是木质的,看起来比较简约,可能不是特别豪华的装修。天花板有现代的设计,但整体感觉比较明亮,可能属于中档装修。\n\n然后看食物。图片里有人端着碗,碗里可能是面条或者汤,还有盘子里的菜肴。餐具是红色的托盘,上面有小牌子,可能是菜单或者提示信息。普通快餐通常会有快速取餐的柜台,而这里可能有一个开放式的厨房,有工作人员在准备食物,但顾客自己取餐,这可能更接近快餐模式,但装修和桌椅可能偏向快餐店。\n\n再看看价格和氛围。高端餐厅通常会有更安静的环境,服务更周到,价格更高。而这里人很多,可能比较热闹,适合快速用餐,符合快餐的特点。另外,餐厅里有电视播放节目,这也是快餐店常见的设施,用来吸引顾客等待时观看。\n\n还有桌上的红色小牌子,可能标明价格或者菜品,但具体内容看不清楚。不过快餐店通常会有这样的标识,方便顾客快速选择。而高端餐厅可能更注重环境和服务,不太会有这么多顾客同时用餐,或者桌上的标识可能更精致。\n\n综合来看,虽然餐厅有开放式厨房和电视,但整体装修和桌椅设计偏向简约实用,顾客较多,可能属于普通快餐,而不是高端餐厅。高端餐厅通常会有更精致的装修、更安静的环境和更优质的服务。\n', 'tool_calls': None}, 'finish_reason': 'stop'}], 'usage': {'prompt_tokens': 799, 'total_tokens': 1421, 'completion_tokens': 622, 'prompt_tokens_details': {'cached_tokens': 0}}}

在“这家餐厅是高端餐厅还是普通快餐?”的问题中,模型结合空间布局、服务方式、顾客密度和装修风格等多个因素进行分析。它识别出餐厅为开放式结构,座位紧凑、客流密集,装修偏功能化,自助取餐明显,最终判断该场所更符合普通快餐的定位。

模型的推理过程条理清晰,能够基于图像信息构建出符合常识的思维链,表现出较好的多模态理解与综合判断能力。

4.5 指令执行与角色模拟能力

结果文本

{'id': 'chatcmpl-92de58eb-a8c8-4324-b576-d393b12f80d6', 'object': 'chat.completion', 'created': 1752489863, 'model': 'default', 'choices': [{'index': 0, 'message': {'role': 'assistant', 'content': '\n作为餐厅设计师,针对图片中的场景,提出以下三条优化建议:\n\n**1. 照明设计优化**  \n当前灯光以直射型为主,可能造成局部过亮或阴影。建议:  \n- 增加暖色调间接照明(如灯带、吊灯),提升用餐氛围;  \n- 在取餐区设置功能型照明,确保操作清晰但不过度刺眼;  \n- 通过光影层次引导顾客动线,增强空间立体感。\n\n**2. 空间动线与桌椅布局调整**  \n- **桌间距优化**:当前桌椅间距较紧凑,高峰期易造成拥挤感。可尝试:  \n  - 增加桌间距,或采用可移动小方桌灵活组合;  \n  - 在取餐区设置单向流动路线,避免顾客交叉干扰。  \n- **高脚椅与亲子需求**:若目标客群包含家庭,可增设高脚椅或儿童专用桌椅,提升包容性。\n\n**3. 品牌氛围强化与细节提升**  \n- **装饰元素补充**:在墙面加入品牌故事展示、地域文化插画或绿植装饰,增强视觉记忆点;  \n- **清洁管理强化**:地面杂物需及时清理,建议增设垃圾桶位置或增加清洁频次;  \n- **色彩平衡**:浅色桌椅与黑白地砖的冷调组合可搭配暖色餐巾/装饰画,提升温馨感。\n\n**附加建议**:  \n- 开放式厨房可增加透明隔断或动态展示屏,平衡操作可见性与私密性;  \n- 观察顾客取餐动线,若存在拥堵可增设分流标识或分时段取餐窗口。  \n\n通过以上调整,既能提升舒适度与品牌辨识度,又能适应不同场景需求,优化整体用餐体验。', 'reasoning_content': '\n用户让我作为一名餐厅设计师,根据提供的图片提出三条优化建议。首先,我需要仔细分析图片中的现状。图片显示的是一个餐厅的内部,顾客们坐在浅色木质桌椅上用餐,背景有开放式厨房,几位工作人员在操作。整体环境看起来比较热闹,但可能存在一些需要改进的地方。\n\n首先,考虑照明问题。图片中的灯光看起来比较明亮,但可能缺乏层次感。餐厅的照明对氛围影响很大,过强的直接照明可能会让顾客感到不适,而缺乏柔和的间接照明则可能让空间显得单调。所以第一条建议可能是调整照明设计,增加暖色调的灯光,营造更舒适的用餐环境。\n\n接下来,观察桌椅的布局。图片中的桌椅排列比较整齐,但可能显得有些拥挤。顾客之间距离较近,可能会影响用餐体验。优化布局,适当增加桌间距,或者采用更灵活的桌椅组合,比如可移动的小方桌,这样可以根据不同时间段的人流量调整空间,提高舒适度。\n\n然后,考虑装饰和品牌识别。餐厅的背景墙和电子屏幕显示的是品牌标识,但整体装饰可能不够突出。加入更多的品牌元素,比如墙面装饰、特色艺术品或文化主题装饰,可以增强品牌识别度,同时提升用餐氛围。此外,保持清洁和整洁也很重要,图片中可以看到地面有些许杂物,需要加强清洁管理。\n\n另外,可能还需要考虑动线设计。开放式厨房的位置和顾客的流动路线是否合理,是否有足够的空间让顾客和服务员顺畅移动。如果顾客在取餐时拥挤,可能需要优化动线,比如设置更清晰的取餐路线或增加取餐窗口。\n\n还有,色彩搭配方面,浅色木质桌椅搭配黑白相间的地板,整体色调偏冷,可能显得不够温馨。可以适当增加暖色元素,比如桌布、装饰画或绿植,来提升温暖感。\n\n最后,检查是否有无障碍设施,比如轮椅通道或高脚椅,确保餐厅对所有顾客友好。虽然图片中没有明显显示,但这也是优化的一部分。\n\n总结下来,三条建议可能是:1. 优化照明设计,增加层次感和暖色调;2. 调整桌椅布局,增加间距和灵活性;3. 加强装饰和品牌元素,提升整体氛围和识别度。同时,注意清洁和动线设计,确保顾客体验更佳。\n', 'tool_calls': None}, 'finish_reason': 'stop'}], 'usage': {'prompt_tokens': 794, 'total_tokens': 1702, 'completion_tokens': 908, 'prompt_tokens_details': {'cached_tokens': 0}}}

在面向 Agent 风格的任务中,例如“作为一名餐厅设计师,请根据图片提出三条优化建议”,模型展现出较高的任务理解力与专业化表达能力。输出内容不仅逻辑清晰,而且涵盖了视觉设计、功能优化与品牌氛围三大方向。

建议内容包括照明系统的层次性改造、桌椅布局的空间优化、品牌文化墙与细节装饰的强化,并结合儿童座椅、顾客动线规划、环境色彩平衡等角度给出可实施的建议。语言上也体现出一定的设计行业术语基础,具备良好的角色模拟能力。

整体来看,ERNIE-4.5-VL-28B-A3B 不仅可以完成简单的图像描述任务,也可以胜任多模态的专业任务型对话,为未来构建多模态 AI Agent 奠定了可靠基础。

5 总结与评价

从图像理解、图文问答、模态推理、结构化抽取,到任务型指令响应,ERNIE-4.5-VL-28B-A3B 在本轮多模态测试中展现出较为出色的综合能力。它能够精准捕捉图像中的关键细节,理解场景语义,具备初步的逻辑链思维推理能力,并在语言生成上保持结构清晰、自然通顺,表现出强烈的人类对话风格。

尤其在中文场景下,该模型在面对真实照片、生活场景类图片时具备强适配性,能够完成问图、描述、判断、总结、建议等多种语言任务,并可应用于智能导览、视觉客服、图文检索、结构化信息抽取等多个方向。

总体而言,ERNIE-4.5-VL-28B-A3B 是当前中文多模态大模型体系中一款功能丰富、实用性强、部署门槛适中的产品。其在本地化部署后的表现稳定、响应及时,适合科研探索、行业试点以及面向用户的图文类智能交互产品。

未来可基于此模型进一步拓展应用场景,例如构建智能图文导览系统、多模态教育问答助手、企业视觉客服系统、图文联合知识检索平台等,同时结合私有知识库与外部 API 实现上下文增强推理,从而打造出真正具备认知能力的视觉智能体。

参考资料

文心大模型征文活动:https://blog.csdn.net/csdn_codechina/article/details/149068264

文心大模型地址:https://ai.gitcode.com/theme/1939325484087291906

丹摩智算服务器:https://www.damodel.com/console/overview

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐