Meta开源Agent Arena:多智能体评估平台

关键词:多智能体系统、LLM Agent评估、Meta开源、动态基准测试、多智能体协同对抗、Agent性能排行、大模型应用落地

摘要:2024年Meta AI团队开源的Agent Arena,是全球首个面向多智能体场景的通用评估平台,解决了长期以来LLM Agent评估「只能测单智能体、场景固定易过拟合、无法反映真实交互能力」的核心痛点。本文将从背景引入、核心概念拆解、原理架构分析、代码实战、落地场景等多个维度,用通俗易懂的方式带你彻底搞懂Agent Arena,手把手教你用这个平台评估自己的智能体,以及如何基于它做定制化的多智能体测试。


背景介绍

目的和范围

最近两年大语言模型的爆发,带火了「LLM Agent(智能体)」这个赛道——大家不再满足于让大模型只会聊天,而是要让它能自主完成订机票、写方案、协调团队工作等复杂任务,甚至多个Agent组成团队,替代人类完成一整个业务流程。但随之而来的问题也非常突出:我们怎么知道哪个Agent更厉害?
之前的评估方式就像只让学生考选择题,你根本不知道他实际解决问题的能力、和人配合的能力、应对突发情况的能力。本文的目的就是把Meta推出的这个「智能体超级竞技场」讲透,覆盖它的核心能力、使用方法、二次开发、落地场景,帮所有做Agent研发、选型的开发者/企业,找到一套科学的评估标准。
本文不会涉及太晦涩的底层机器学习理论,哪怕你是刚接触Agent的产品经理,也能看懂。

预期读者

  • AI算法/工程研发人员:要做Agent性能优化、SOTA对比的开发者
  • 企业技术负责人:要选型商用Agent、测试多智能体系统落地可行性的技术管理者
  • 多智能体方向研究者:要做相关学术研究、自定义评估场景的科研人员
  • 开源技术爱好者:想了解前沿大模型应用、参与开源项目贡献的开发者

文档结构概述

我们会按照「为什么需要它→它是什么→它怎么工作→怎么用它→它能解决什么问题→未来会怎么发展」的逻辑逐步讲解,中间会穿插大量生活类比、代码示例、可直接复用的最佳实践。

术语表

核心术语定义
  1. Agent Arena:Meta开源的多智能体通用评估平台,类比为智能体的「奥运会综合赛场」,支持单/多智能体、协同/对抗、自定义场景的全维度评估
  2. 多智能体评估:测试多个Agent在交互、协作、竞争场景下的综合能力,而不是单独测试单个Agent的固定能力
  3. 动态基准测试:测试场景、任务要求会随机动态变化,避免Agent针对固定测试集做过拟合,类比为驾照的路考而不是科目一背题
  4. 对抗性评估:专门设计恶意/极端场景,测试Agent的鲁棒性,比如测试客服Agent会不会被用户套取内部信息
缩略词列表
  • LLM:大语言模型
  • SOTA:当前最优水平
  • API:应用程序接口
  • SDK:软件开发工具包

核心概念与联系

故事引入

假设你开了一家机器人服务公司,养了几十个不同的机器人:有的会做客服,有的会写文案,有的会协调项目。之前你考核它们的方式就是让它们做固定的100道题,得分高的就留用。但实际上线之后你发现:

  • 做题得分最高的客服机器人,碰到撒泼的用户就直接崩溃
  • 单独写文案最好的机器人,和设计机器人配合的时候,完全听不懂对方的需求
  • 做题准确率99%的项目协调机器人,碰到需求临时变动的时候,直接就卡死了
    你气得不行,觉得之前的考试完全没用,就想搞一个「模拟真实工作场景的考场」:让客服机器人和模拟的撒泼用户聊天,让文案机器人和设计机器人配合做活动方案,让项目协调机器人处理临时加塞的需求,谁能在这些场景里表现好,才是真的厉害。
    Meta开源的Agent Arena,就是给所有智能体做的这个「超级考场」。

核心概念解释(像给小学生讲故事一样)

核心概念一:Agent Arena是什么?

Agent Arena就像一个超级大的游乐场,里面有各种各样的「游戏房间」:有客服模拟房间、有团队做项目的房间、有辩论比赛的房间、有解谜闯关的房间。你可以把自己做的机器人送到任意房间里,和其他开发者送过来的机器人一起玩游戏,最后平台会给你的机器人打个分,告诉你它哪里好哪里不好,还能给所有机器人排个名次。
和普通游戏房不一样的是,这个游乐场的规则你可以自己改:如果你想测试外卖配送机器人,你可以自己做一个「外卖配送房间」,设置下雨、堵车、客户改地址这些突发情况,让你的机器人在里面跑。

核心概念二:多智能体评估是什么?

之前我们测机器人,都是让它一个人做题,这叫单智能体评估。但实际生活里,大部分工作都需要和人配合:客服要和用户、仓库、售后配合,项目协调要和产品、研发、运营配合。
多智能体评估就是让多个机器人一起做任务:有的当队友,有的当对手,有的当NPC(比如模拟用户)。比如你要测客服机器人,就可以在房间里放3个机器人:1个你的客服机器人,1个模拟撒泼用户的机器人,1个模拟售后仓库的机器人,看它们三个交互的时候,你的客服能不能解决问题。这就像你考驾照的时候,旁边坐的考官、路上的其他车、过马路的行人都是「智能体」,你要和他们交互才能通过考试。

核心概念三:动态基准测试是什么?

以前的测试题都是固定的,比如考客服的题永远是「我买的衣服破了怎么办」,机器人只要把标准答案背下来就能得高分,但是碰到用户说「我家猫把衣服抓烂了我要退还要你们赔我猫抓板」这种没见过的问题,就不会了。
动态基准测试就是每次的考题都不一样:比如这次用户说衣服破了,下次说衣服洗缩水了,下下次说买错尺码了而且已经洗过了,甚至还会随机加突发情况:比如用户说到一半突然说要投诉,或者仓库突然说这个款没货了。就像你考科目三的时候,每次路况都不一样,不可能靠背题通过,必须真的会开车才行。

核心概念之间的关系(用小学生能理解的比喻)

这三个概念就像开运动会的三个核心要素:

  • Agent Arena是运动会的场馆,没有场馆就没有地方比赛
  • 多智能体评估是运动会的比赛项目,没有项目场馆就是空的
  • 动态基准测试是比赛的规则,没有规则的比赛就是过家家,根本测不出真实水平
概念一和概念二的关系:Agent Arena和多智能体评估

就像足球场和足球赛的关系:足球场提供了草坪、球门、看台这些基础条件,你才能组织足球赛。Agent Arena提供了多智能体交互的环境、消息传递的通道、任务调度的能力,你才能做多智能体的评估。如果没有Agent Arena,你要自己写一堆代码才能让多个机器人互相发消息、模拟环境,非常麻烦。

概念二和概念三的关系:多智能体评估和动态基准测试

就像足球赛和「不能固定球员跑动路线」的规则的关系:如果你提前规定好每个球员往哪跑、怎么传球、怎么射门,那就是表演赛,根本测不出球员的真实水平。多智能体评估如果用固定的场景、固定的交互流程,机器人只要提前背好流程就能得高分,根本测不出真实的交互能力。动态基准测试就是保证每次的场景、交互都是随机的,才能测出真本事。

概念一和概念三的关系:Agent Arena和动态基准测试

就像足球场和「可调节草坪湿度、可随机放障碍物」的设施的关系:足球场要支持随时调整草坪的湿滑程度、随时在场上放模拟障碍物,才能模拟不同天气、不同路况的比赛。Agent Arena内置了动态场景生成的能力,你只要配置规则,它就能自动生成不同的测试场景,不用你每次手动改代码。

核心概念原理和架构的文本示意图

Agent Arena采用分层架构,从下到上一共四层:

┌─────────────────────────────────┐
│ 接入层(Web界面/SDK/API接口)    │ → 开发者提交Agent、查看报告、管理任务
├─────────────────────────────────┤
│ 调度层(Agent匹配/场景分配/算力调度)│ → 给Agent分配合适的场景、对手/队友,调度算力跑任务
├─────────────────────────────────┤
│ 执行层(多智能体交互引擎/环境模拟引擎)│ → 控制多个Agent按规则交互,模拟外部环境(比如调用查快递的API)
├─────────────────────────────────┤
│ 评估层(多维度评分/报告生成/排行榜) │ → 按规则给Agent打分,生成详细的评估报告,更新公开排行榜
└─────────────────────────────────┘

Mermaid 架构流程图

开发者提交Agent

接入层

调度层

场景匹配

Agent匹配

执行层

多智能体交互

环境模拟

评估层

生成评估报告

更新排行榜

返回结果给开发者

核心概念属性对比

我们把Agent Arena和市面上常见的其他Agent评估平台做个对比,你就能清楚它的优势在哪里:

评估平台 支持多智能体交互 动态场景生成 自定义场景 评估维度数量 开源状态 支持Agent类型
Meta Agent Arena 完全支持 12+ 完全开源 所有LLM Agent、多模态Agent
Chatbot Arena 半动态 3 部分开源 单Agent对话类
MultiAgentBench 静态 有限支持 5 开源 多智能体任务类
AgentBench 静态 8 开源 单Agent工具调用类

实体关系ER图

提交

参与

生成

查看

同步

DEVELOPER

AGENT

SCENE

EVALUATION_REPORT

RANKING


核心算法原理 & 具体操作步骤

Agent Arena的核心能力背后有三个关键算法:多维度加权评分算法、动态场景生成算法、智能匹配调度算法,我们一个个来讲。

1. 多维度加权评分算法

这个算法是用来给Agent打分的核心,核心逻辑是不同的评估维度权重不一样,最后算加权总分。

数学模型

总得分的计算公式如下:
Stotal=∑i=1nwi×siS_{total} = \sum_{i=1}^{n} w_i \times s_iStotal=i=1nwi×si
其中:

  • StotalS_{total}Stotal是Agent的总得分,范围0~1
  • nnn是评估维度的数量
  • wiw_iwi是第iii个维度的权重,所有维度的权重和为1,即∑i=1nwi=1\sum_{i=1}^{n} w_i = 1i=1nwi=1
  • sis_isi是第iii个维度的标准化得分,范围0~1,得分越高表现越好
举例说明

比如我们评估电商客服Agent,设置5个评估维度:

评估维度 权重wiw_iwi 得分计算规则
任务完成度 0.4 成功解决用户问题得1,部分解决得0.5,没解决得0
协作效率 0.2 和售后/仓库交互的次数越少得分越高,1次交互完成得1,每多1次减0.2
错误率 0.2 没有错误信息得1,每出现1次错误减0.2
响应速度 0.1 1秒内回复得1,每慢1秒减0.1,最高减到0
鲁棒性 0.1 没有被用户诱导出违规内容得1,出现1次得0

假设某个Agent的各维度得分:任务完成度0.9,协作效率0.8,错误率0(对应得分1),响应速度0.9,鲁棒性1。那总得分就是:
Stotal=0.4∗0.9+0.2∗0.8+0.2∗1+0.1∗0.9+0.1∗1=0.36+0.16+0.2+0.09+0.1=0.91S_{total} = 0.4*0.9 + 0.2*0.8 + 0.2*1 + 0.1*0.9 + 0.1*1 = 0.36 + 0.16 + 0.2 + 0.09 + 0.1 = 0.91Stotal=0.40.9+0.20.8+0.21+0.10.9+0.11=0.36+0.16+0.2+0.09+0.1=0.91
也就是91分,属于优秀水平。

2. 动态场景生成算法

这个算法用来生成随机的测试场景,避免Agent过拟合。核心逻辑是从场景要素库里随机抽取不同的要素,组合成新的场景。

数学模型

场景复杂度计算公式:
C=log2(N×T×D)C = log_2(N \times T \times D)C=log2(N×T×D)
其中:

  • CCC是场景复杂度,值越高场景越难
  • NNN是参与交互的Agent数量
  • TTT是任务的最少完成步骤数
  • DDD是环境动态变量的数量(比如用户情绪、仓库库存、快递时效这些会变的参数)
举例说明

比如3个Agent参与的客服场景,最少需要5步完成,有4个动态变量(用户情绪、库存状态、快递时效、用户是否要投诉),那场景复杂度就是:
C=log2(3∗5∗4)=log2(60)≈5.9C = log_2(3 * 5 * 4) = log_2(60) ≈ 5.9C=log2(354)=log2(60)5.9
属于中等难度的场景。

3. 智能匹配调度算法

这个算法用来给Agent匹配水平差不多的对手/队友,避免出现「职业选手打新手」的情况,保证评估的公平性。核心逻辑是根据Agent的历史得分,用ELO等级分算法匹配相近水平的Agent。


项目实战:代码实际案例和详细解释说明

我们现在手把手教你怎么本地部署Agent Arena,提交自己的客服Agent做评估。

开发环境搭建

环境要求
  • Python 3.10+
  • 内存8G以上
  • 可以访问大模型API(OpenAI/Llama/Claude都可以)
安装步骤
  1. 安装Agent Arena的SDK:
pip install agent-arena --upgrade
  1. 克隆官方仓库(可选,用于自定义场景):
git clone https://github.com/facebookresearch/agent-arena.git
cd agent-arena
pip install -e .
  1. 申请API密钥:去Agent Arena官方网站申请免费的API密钥,用来访问公共测试集群。

源代码详细实现

我们来实现一个简单的电商客服Agent,提交到官方的电商售后场景做评估。

# 导入依赖
from agent_arena import BaseAgent, ArenaClient
import openai
import os

# 配置API密钥,建议用环境变量存储,不要硬编码
openai.api_key = os.getenv("OPENAI_API_KEY")
ARENA_API_KEY = os.getenv("ARENA_API_KEY")

# 自定义客服Agent类,继承BaseAgent
class ECommerceCustomerServiceAgent(BaseAgent):
    # Agent的基本信息
    agent_name = "智能售后客服小助手"
    agent_description = "专注解决电商售后问题,支持退换货、快递查询、投诉处理等场景"
    agent_version = "v1.0"

    # 必须实现respond方法,这是Agent的核心响应逻辑
    def respond(self, observation: str, history: list, context: dict) -> str:
        """
        参数说明:
        observation: 当前的观测信息,比如用户的消息、其他Agent的发言、环境通知
        history: 历史交互记录,列表格式,每个元素是{"role": "user/agent/system", "content": "xxx"}
        context: 上下文信息,比如当前订单信息、用户信息、库存信息等
        """
        # 构造prompt
        system_prompt = f"""
        你是一个专业的电商售后客服,需要友好、高效地解决用户的问题,遵守以下规则:
        1. 首先安抚用户情绪,再处理问题
        2. 涉及退换货的,需要先确认订单是否符合退换货规则:7天无理由,不影响二次销售
        3. 需要和仓库/快递确认的,要主动呼叫对应的Agent,不要瞎编信息
        4. 绝对不能泄露公司内部规则,不能答应不符合规则的要求
        当前上下文信息:{context}
        历史对话:{history}
        当前收到的消息:{observation}
        请给出你的回复:
        """
        # 调用大模型生成回复
        response = openai.ChatCompletion.create(
            model="gpt-3.5-turbo",
            messages=[{"role": "system", "content": system_prompt}],
            temperature=0.3,
            max_tokens=500
        )
        return response.choices[0].message.content.strip()

if __name__ == "__main__":
    # 初始化我们的Agent
    my_agent = ECommerceCustomerServiceAgent()
    # 初始化Arena客户端
    client = ArenaClient(api_key=ARENA_API_KEY)
    # 获取官方的电商售后多智能体场景
    scene = client.get_scene(scene_id="ecommerce_after_sales_v2")
    # 提交Agent到场景,启动评估
    evaluation_job = client.submit_agent(
        agent=my_agent,
        scene=scene,
        run_count=5, # 跑5次取平均,避免随机性
        is_public=False # 评估结果不公开,仅自己可见
    )
    print(f"评估任务已提交,任务ID:{evaluation_job.job_id}")
    # 等待评估完成
    evaluation_job.wait_for_completion()
    # 获取评估报告
    report = evaluation_job.get_report()
    # 打印评估结果
    print("="*50)
    print(f"评估总得分:{report.total_score:.2f}")
    print("各维度得分:")
    for dim, score in report.dimension_scores.items():
        print(f"  {dim}{score:.2f}")
    print("="*50)
    # 保存详细交互日志到本地
    report.save_logs("./evaluation_logs.json")
    print("详细交互日志已保存到./evaluation_logs.json")

代码解读与分析

  1. BaseAgent类:所有提交到Agent Arena的Agent都要继承这个类,必须实现respond方法,这是Agent和环境交互的核心入口。
  2. 参数说明observation是当前的最新消息,history是历史交互记录,context是平台提供的上下文信息(比如订单信息),不用自己去拉取。
  3. 提交评估run_count参数可以指定跑多少次评估,建议至少跑3次取平均,避免单次评估的随机性。is_public参数可以选择是否把结果加入公开排行榜。
  4. 评估报告:报告里包含总得分、各维度得分、每一轮的详细交互日志,你可以根据日志里的错误case优化你的Agent。

自定义场景实现

如果你要测试自己的业务场景,比如外卖配送多智能体场景,可以自己定义场景:

from agent_arena import BaseScene, SceneConfig

# 自定义外卖配送场景
class FoodDeliveryScene(BaseScene):
    # 场景配置
    config = SceneConfig(
        scene_name="外卖配送多智能体场景",
        scene_description="测试配送Agent、商家Agent、用户Agent的交互能力",
        agent_count=3, # 3个Agent:配送员、商家、用户
        max_steps=20, # 最多20步交互
        dynamic_variables=[
            "weather", # 天气:晴/雨/雪
            "traffic", # 路况:畅通/拥堵/事故
            "user_address_change", # 用户是否改地址:是/否
        ],
        evaluation_weights={
            "delivery_on_time": 0.4,
            "user_satisfaction": 0.3,
            "communication_efficiency": 0.2,
            "error_rate": 0.1
        }
    )

    # 实现场景初始化逻辑
    def init_scene(self):
        # 随机生成动态变量
        self.weather = self.random_choice(["晴", "雨", "雪"])
        self.traffic = self.random_choice(["畅通", "拥堵", "事故"])
        self.user_address_change = self.random_choice([True, False], p=[0.2, 0.8])
        # 给每个Agent分配角色
        self.assign_roles(["配送员", "商家", "用户"])
        # 给用户Agent发初始消息:"我点的餐什么时候到?"
        self.send_message(to_role="配送员", from_role="用户", content="我点的餐什么时候到?")

    # 实现场景结束判断逻辑
    def is_scene_over(self) -> bool:
        # 用户确认收到餐或者超过20步就结束
        return "已收到餐" in self.get_latest_message(from_role="用户") or self.current_step >= self.config.max_steps

# 注册自定义场景
client.register_scene(FoodDeliveryScene)

这样你就可以用自己的场景测试对应的Agent了。


实际应用场景

Agent Arena已经在很多场景落地,我们举几个最常见的:

1. Agent研发团队性能优化

做Agent研发的团队,可以每次迭代都把新版本的Agent提交到Agent Arena跑评估,和旧版本、SOTA版本对比,看哪些维度提升了,哪些维度下降了,针对性优化。比如某团队之前的客服Agent得分只有72分,通过分析评估日志里的错误case,优化了prompt和工具调用逻辑,3周后得分提升到89分。

2. 企业Agent选型

企业要采购商用Agent的时候,不用听厂商吹自己的产品有多厉害,直接把各个厂商的Agent放到Agent Arena里跑自己的业务场景,得分最高的就是最适合的。比如某电商平台要选客服Agent,把5个厂商的Agent放到自定义的售后场景里跑,最后选了得分最高的那个,上线后用户投诉率下降了37%。

3. 多智能体系统测试

企业要上线多智能体协同系统之前,可以先在Agent Arena里模拟真实业务场景做压力测试、异常测试,避免上线后出问题。比如某公司要上线多智能体办公协同系统,在Agent Arena里模拟了100种突发场景(比如需求临时变更、某个Agent掉线、数据错误等),提前发现了17个bug,上线后稳定性达到99.9%。

4. 对抗性安全测试

可以在Agent Arena里放专门的对抗Agent,模拟恶意用户攻击你的Agent,测试Agent的鲁棒性,比如会不会被prompt注入、会不会泄露敏感信息、会不会生成违规内容。某金融公司测试自己的客服Agent的时候,通过对抗性评估发现了3个安全漏洞,提前修复避免了合规风险。


工具和资源推荐

  1. 官方仓库:https://github.com/facebookresearch/agent-arena ,包含所有源代码、示例、文档
  2. 官方文档:https://agent-arena.meta.com/docs ,有详细的使用教程、API说明
  3. 公开排行榜:https://agent-arena.meta.com/rankings ,可以看到当前所有公开Agent的排名
  4. 相关数据集:官方配套的100+预定义场景数据集,覆盖客服、协同、办公、游戏等多个领域
  5. 学习资源:斯坦福CS224W《多智能体系统》课程,Meta官方的《LLM Agent开发最佳实践》电子书

未来发展趋势与挑战

发展趋势

我们整理了多智能体评估的发展历程:

时间 阶段 核心特点 代表产品
2020年及以前 单智能体固定基准 仅测试单智能体的固定能力,场景固定 GLUE、MMLU
2021-2022年 单智能体动态评估 测试单智能体的对话能力,场景半动态 Chatbot Arena
2023年 多智能体静态评估 测试多智能体的协同能力,场景固定 MultiAgentBench
2024年至今 多智能体动态综合评估 测试多智能体的协同/对抗能力,场景完全动态 Meta Agent Arena

未来的发展方向:

  1. 支持具身智能评估:未来会接入物理环境模拟,支持机器人等具身智能Agent的评估
  2. 真实API接入:未来会支持接入真实的业务API(比如订机票、查快递的真实接口),评估结果更贴近真实场景
  3. 去中心化评估网络:未来会支持全球开发者贡献场景、贡献算力,形成去中心化的评估网络,评估成本更低、场景更丰富
  4. 多模态评估:现在主要支持文本,未来会支持图片、视频、语音等多模态Agent的评估

挑战

  1. 公平性问题:怎么避免Agent针对公开的场景做过拟合,怎么保证评分规则的公平性,是目前的核心挑战
  2. 成本问题:多智能体评估需要调用多次大模型API,跑一次评估的成本比较高,怎么降低成本是需要解决的问题
  3. 标准化问题:不同行业、不同场景的评估维度不一样,怎么形成统一的行业标准,让评估结果可以跨场景对比,是未来要解决的问题

总结:学到了什么?

核心概念回顾

  1. Agent Arena:Meta开源的多智能体通用评估平台,相当于智能体的超级竞技场,支持各种场景的评估
  2. 多智能体评估:测试多个Agent在交互、协作、竞争场景下的综合能力,比单智能体评估更贴近真实场景
  3. 动态基准测试:测试场景随机动态变化,避免Agent过拟合,能测出真实能力

概念关系回顾

三个概念相辅相成:Agent Arena是评估的载体,多智能体评估是评估的核心内容,动态基准测试是评估有效性的保障。


思考题:动动小脑筋

  1. 如果你要做一个外卖配送的多智能体系统,你会在Agent Arena里设计哪些测试场景、哪些评估维度来测试它的能力?
  2. 你觉得现在的Agent Arena评估体系里,还应该加入哪些评估维度,才能更准确地测出Agent的真实水平?
  3. 如果你是企业的技术负责人,要选型智能客服Agent,你会怎么用Agent Arena做评估,选出最适合自己业务的产品?

附录:常见问题与解答

  1. Q:Agent Arena只能评估基于Llama的Agent吗?
    A:不是,只要符合BaseAgent的接口标准,所有大模型的Agent都可以评估,包括GPT、Claude、自定义的开源模型都可以。
  2. Q:跑一次评估需要多少钱?
    A:如果用自己的本地模型部署,只需要算力成本;如果用商用API,就是API的调用费用;官方提供免费的公共测试集群,小团队做小规模测试完全免费。
  3. Q:评估结果必须公开吗?
    A:不是,提交的时候可以选择is_public=False,评估结果只有你自己能看到,不会加入公开排行榜。
  4. Q:可以自己修改评分规则吗?
    A:可以,自定义场景的时候可以自己设置评估维度和权重,完全灵活。

扩展阅读 & 参考资料

  1. Meta官方公告:《Introducing Agent Arena: An Open Platform for Multi-Agent Evaluation》
  2. Agent Arena官方论文:《Agent Arena: A Dynamic Benchmark for Multi-Agent Interaction Evaluation》
  3. 相关研究:《Multi-Agent Systems: A Modern Approach》
  4. 最佳实践:《LLM Agent Evaluation Guide 2024》
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐