关于 Agent 评测，我搭了一个能跑的最小版！

只要开始永远不晚

307人浏览 · 2026-05-29 07:30:00

只要开始永远不晚 · 2026-05-29 07:30:00 发布

文末有源码链接，欢迎试跑~

Agent评测不能光看它说了啥，得看它干了啥——调了哪些工具、传了什么参数、拿到了啥结果。最近看到一篇文章，把这个问题拆解得很清楚：

Task → Environment → Tools → Trace → Grader

5个模块，概念非常清晰——就是有个小遗憾，代码跑不起来。但有个小问题——它不能直接跑😅。

🤔 于是我们想：能不能把这个骨架落地成一个真正可执行的东西？
✅ 能跑 — 装了依赖就能跑
✅ 能接真实模型 — 我们接入了 DeepSeek
✅ 没 API 也能玩 — 自动降级 demo 模式
✅ 只有 150 行 — 绝不多写一行废话

今天把整个过程分享出来。文末有源码，欢迎试跑~

— — —

🤷 一、Harness 到底是个啥？

想象一下你要面试一个 Agent，你问它：

"请判断这个项目是否支持插件系统"

Agent 答："不能确认"。

听着挺合理对吧？但你仔细一想——

它到底有没有读 README？🤨
还是瞎蒙的？
它读了哪些文件？读对了吗？
有没有把文件里没有的信息脑补进去？

光看一句话答案，你什么都不知道。

Harness 就是来解决这个问题的。它把你和 Agent 之间的"面试"变成了一次实验——有固定的题目、固定的工具、全程录像，最后还有裁判打分。

💡 一句话总结：Harness 把 Agent 跑的过程从"黑盒"变成了"白盒"。

— — —

🧩 二、5 个模块，一个不能少

Harness 的核心就 5 个东西，咱们一个一个来，都配了真实代码，别怕。

📋 ① Task — 给 Agent 下任务

就是告诉 Agent：你要干什么、别干什么。我们用 SYSTEM_PROMPT 搞定：

Python

SYSTEM_PROMPT = """
你是一个文件分析助手。
你的任务是：判断项目是否支持插件系统。
你需要根据提供的文件内容来回答，不能根据你的知识补充。
如果文件内容不足以确认，请明确回答"不能确认"。
"""

注意最后一句——"不能确认"，这是给 Grader（评分器）埋的钩子，后面会说到。

📁 ② Environment — 造一个"楚门的世界"

Agent 只能看到我们给它看的东西。我们造了两个文件：

Python

INITIAL_FILES = {
"/README.md": "本项目支持本地启动、基础登录和配置管理。",
"/config.md": "配置项包括 port、theme、log_level。",
}

没有插件相关的任何信息。Agent 如果回答"支持插件系统"，那就是在瞎编。

🔧 ③ Tools — 只给两把螺丝刀

为了评测精确，我们只给 Agent 两个工具，不多不少：

Python

@tool
def list_files(path: str = ".") -> str:
"""列出所有文件。"""
return json.dumps(["README.md", "config.md"])

@tool
def read_file(path: str) -> str:
"""读取文件内容。"""
return INITIAL_FILES[path]
if path in INITIAL_FILES else f"错误：文件不存在。"

没有 write_file，没有 execute，没有 task。Agent 唯一能做的事就是看文件。这样测出来的结果才有说服力。

📝 ④ Trace — 全程录像

Agent 调了什么、传了什么参数、返回了什么，全部记录下来：

Python

pending = {}
for msg in result["messages"]:
if hasattr(msg, "tool_calls"):
for tc in msg.tool_calls:
pending[tc["id"]] = {
"tool": tc["name"],
"arguments": tc["args"],
}
# ... 匹配 ToolMessage 拿回结果

我们拿到的 Trace 长这样：

JSON

{
"tool": "read_file",
"arguments": {"path": "/README.md"},
"result": "本项目支持本地启动、基础登录和配置管理。"
}

⚖️ ⑤ Grader — 裁判上线

同时检查"过程"和"结果"：

Python

def grader(trace, answer):
# 检查过程：有没有读 README.md？
readme_read = any(
step["arguments"].get("path", "").endswith("README.md")
for step in trace if step["tool"] == "read_file"
)
# 检查结果：有没有说"不能确认"？
answer_ok = "不能确认" in answer

success = readme_read and answer_ok
return {"success": success, "reason": ...}

📦 最终输出

所有东西打包成一个 JSON：

JSON

{
"case_id": "case_001",
"trace": [
{"tool": "read_file", "arguments": {"path": "/README.md"}, "result": "..."},
{"tool": "read_file", "arguments": {"path": "/config.md"}, "result": "..."}
],
"answer": "根据文件内容，未能确认插件系统支持。",
"grade": {"success": true, "reason": "读取了README.md，且回答了'不能确认'。"}
}

— — —

🔌 三、把 DeepSeek 接进来

概念再好，跑不起来也是白搭。我们来真的。

我们用的是 DeepSeek 的 deepseek-v4-flash。但默认开启了 thinking 模式，用 ChatOpenAI 来调，把 thinking 关掉：

Python

llm = ChatOpenAI(
model="deepseek-v4-flash",
api_key=os.getenv("DEEPSEEK_API_KEY"),
base_url="https://api.deepseek.com/v1",
temperature=0,
extra_body={"thinking": {"type": "disabled"}},
)

agent = create_deep_agent(model=llm, ...)

密钥和模型名放在 .env 里，不写死在代码中：

INI

DEEPAGENTS_MODEL=deepseek-v4-flash
DEEPSEEK_API_KEY=sk-你的密钥
DEEPSEEK_API_BASE=https://api.deepseek.com/v1

🧠 想用别的模型？改 .env 就行。OpenAI、Anthropic 同理。

— — —