为 Agent Harness 增加 Deep Research Skill：把复杂研究任务交给 NVIDIA AI-Q

扫地的小何尚

508人浏览 · 2026-05-22 11:16:12

扫地的小何尚 · 2026-05-22 11:16:12 发布

为 Agent Harness 增加 Deep Research Skill：把复杂研究任务交给 NVIDIA AI-Q

原文配图 1

Codex、Claude Code、OpenCode、LangChain Deep Agents 这类 Agent harness 很擅长编排：它们能维持会话、调用工具、执行代码、修改文件，并把用户意图拆成连续步骤。但当任务进入 deep research 范围时，复杂度会迅速从“调用几个工具”升级为“构建一条完整研究流水线”。

真正的企业研究任务往往包含多数据源检索、权限认证、问题澄清、证据抽取、长时间异步执行、报告综合、引用保留和质量评估。让每个 harness 都自己实现一遍这套流程，不仅重复，而且很难保证安全和一致性。

NVIDIA AI-Q 的思路，是把这类深度研究能力打包成一个可移植的 agent skill。harness 只负责接收用户请求并委派任务；研究管线由本地或托管的 AI-Q server 执行；最终返回的是结构化、带引用、可审查的研究报告。

什么是 AI-Q Skill？

AI-Q Skill 是一个面向 Agent harness 的研究能力入口。它不是简单的 Prompt，也不是普通函数调用，而是把完整研究系统暴露为一个高层能力：用户提出研究问题，harness 把任务交给 AI-Q，AI-Q 完成检索、规划、综合和引用管理，再把结果交回当前 Agent 会话。

这个 Skill 包含两个关键部分：

SKILL.md：告诉 harness 什么时候使用 AI-Q、如何描述任务、输入输出是什么。
scripts/aiq.py：负责请求路由、提交异步任务、轮询状态、拉取最终报告。

从开发者视角看，AI-Q Skill 把研究能力从 harness 内部解耦出来。harness 不再需要自己处理每个企业数据源，也不需要手写多轮检索和引用逻辑。

一个简化的调用模型如下：

import os
import time
import requests

AIQ_SERVER_URL = os.getenv("AIQ_SERVER_URL", "http://localhost:8000")

def run_deep_research(question: str) -> str:
    submit = requests.post(
        f"{AIQ_SERVER_URL}/chat",
        json={"message": question, "mode": "deep_research"},
        timeout=30,
    )
    submit.raise_for_status()
    job_id = submit.json()["job_id"]

    while True:
        status = requests.get(f"{AIQ_SERVER_URL}/jobs/{job_id}", timeout=10)
        status.raise_for_status()
        payload = status.json()

        if payload["status"] == "completed":
            return payload["report"]
        if payload["status"] == "failed":
            raise RuntimeError(payload.get("error", "AI-Q job failed"))

        time.sleep(2)

真实的 scripts/aiq.py 会处理更多细节，例如 /chat 请求、异步任务状态、错误恢复和报告格式化。核心思想不变：AI-Q 是研究执行者，harness 是任务委派者。

安装 AI-Q Agent Skill

AI-Q Skill 位于 AI-Q 仓库的 .agents/skills/aiq-research/ 目录，根目录中包含 SKILL.md。默认情况下，辅助脚本会连接 http://localhost:8000，也可以通过 AIQ_SERVER_URL 指向远程服务。

安装过程取决于 harness，但模式相同：把 skill 目录放到工具可发现的位置，并确保 AI-Q server 已启动。

Claude Code

在 Claude Code 中，Skill 通过可发现目录加载。SKILL.md 会告诉 Claude Code：当用户要求多文档研究、企业数据综合、带来源报告或长时间研究任务时，应调用 AI-Q，而不是在当前对话里临时拼接搜索。

Codex

在 Codex 中，AI-Q Skill 可以作为项目级或用户级能力使用。它特别适合“请基于多个内部文档做技术选型报告”“总结某个组件迁移风险”“比较不同部署方案”这类任务。

Codex 侧不需要知道研究管线内部怎样做 intent classification、clarification、shallow research 或 deep research。它只需要遵循 Skill 的调用协议。

OpenCode

OpenCode 或其他兼容 agent skills 规范的 harness，可以复用同一个 .agents/skills/aiq-research/ 目录。这正是 Skill 机制的价值：研究能力不是绑定某个前端工具，而是可移植能力包。

安全 MCP 集成：AI-Q 作为 MCP Client

企业 deep research 最大的约束往往不是模型能力，而是数据位置和权限。医疗、金融、政府、防务等行业不可能让桌面 Agent 随意读取所有敏感数据源。

因此，源文强调 MCP 集成时的安全边界：AI-Q 可以作为 MCP client 部署在数据所在环境内，连接企业允许的数据源和工具。harness 只提交研究任务，并接收经过综合的报告；敏感数据不必直接暴露给每一个 Agent 前端。

这带来一个更干净的权限模型：

User / Harness
    |
    | research request
    v
AI-Q Skill
    |
    | job submit / polling
    v
AI-Q Server inside enterprise boundary
    |
    | MCP tools, document stores, search services
    v
Enterprise data sources

在这个架构中，企业可以把认证、审计、访问控制和数据驻留策略放在 AI-Q server 侧，而不是散落在每个 harness 里。

把研究员部署到数据所在的位置

Deep research 不只是“搜几篇资料再总结”。一个可靠研究员需要能澄清问题、区分权威来源和低质量来源、记录证据、处理冲突信息，并在结论中说明不确定性。

AI-Q Skill 的关键价值，是把这套研究员能力部署到数据附近。对企业来说，这意味着：

内部文档、工单、代码仓库和数据库可以留在企业边界内。
研究过程可以被服务端统一审计。
多个 harness 可以复用同一套研究能力。
报告中的来源引用可以保持稳定，不会因为前端工具不同而丢失。

一个高质量研究报告至少应该包含：

{
  "question": "是否应该将客服 Agent 接入新的知识库？",
  "summary": "建议先灰度接入低风险队列，并保留人工升级路径。",
  "findings": [
    {
      "claim": "新知识库覆盖多数高频问题，但复杂账单场景仍需人工判断。",
      "source": "internal://kb/evaluation-q2",
      "confidence": 0.84
    }
  ],
  "risks": [
    "权限同步延迟可能导致回答引用过期资料",
    "知识库缺口会提高错误自信回答的概率"
  ],
  "next_steps": [
    "选择低风险队列做两周灰度",
    "记录 AI 回答、引用来源和人工纠正结果"
  ]
}