为 Agent Harness 增加 Deep Research Skill:把复杂研究任务交给 NVIDIA AI-Q

原文配图 1

Codex、Claude Code、OpenCode、LangChain Deep Agents 这类 Agent harness 很擅长编排:它们能维持会话、调用工具、执行代码、修改文件,并把用户意图拆成连续步骤。但当任务进入 deep research 范围时,复杂度会迅速从“调用几个工具”升级为“构建一条完整研究流水线”。

真正的企业研究任务往往包含多数据源检索、权限认证、问题澄清、证据抽取、长时间异步执行、报告综合、引用保留和质量评估。让每个 harness 都自己实现一遍这套流程,不仅重复,而且很难保证安全和一致性。

NVIDIA AI-Q 的思路,是把这类深度研究能力打包成一个可移植的 agent skill。harness 只负责接收用户请求并委派任务;研究管线由本地或托管的 AI-Q server 执行;最终返回的是结构化、带引用、可审查的研究报告。

什么是 AI-Q Skill?

AI-Q Skill 是一个面向 Agent harness 的研究能力入口。它不是简单的 Prompt,也不是普通函数调用,而是把完整研究系统暴露为一个高层能力:用户提出研究问题,harness 把任务交给 AI-Q,AI-Q 完成检索、规划、综合和引用管理,再把结果交回当前 Agent 会话。

这个 Skill 包含两个关键部分:

  • SKILL.md:告诉 harness 什么时候使用 AI-Q、如何描述任务、输入输出是什么。
  • scripts/aiq.py:负责请求路由、提交异步任务、轮询状态、拉取最终报告。

从开发者视角看,AI-Q Skill 把研究能力从 harness 内部解耦出来。harness 不再需要自己处理每个企业数据源,也不需要手写多轮检索和引用逻辑。

一个简化的调用模型如下:

import os
import time
import requests

AIQ_SERVER_URL = os.getenv("AIQ_SERVER_URL", "http://localhost:8000")

def run_deep_research(question: str) -> str:
    submit = requests.post(
        f"{AIQ_SERVER_URL}/chat",
        json={"message": question, "mode": "deep_research"},
        timeout=30,
    )
    submit.raise_for_status()
    job_id = submit.json()["job_id"]

    while True:
        status = requests.get(f"{AIQ_SERVER_URL}/jobs/{job_id}", timeout=10)
        status.raise_for_status()
        payload = status.json()

        if payload["status"] == "completed":
            return payload["report"]
        if payload["status"] == "failed":
            raise RuntimeError(payload.get("error", "AI-Q job failed"))

        time.sleep(2)

真实的 scripts/aiq.py 会处理更多细节,例如 /chat 请求、异步任务状态、错误恢复和报告格式化。核心思想不变:AI-Q 是研究执行者,harness 是任务委派者。

安装 AI-Q Agent Skill

AI-Q Skill 位于 AI-Q 仓库的 .agents/skills/aiq-research/ 目录,根目录中包含 SKILL.md。默认情况下,辅助脚本会连接 http://localhost:8000,也可以通过 AIQ_SERVER_URL 指向远程服务。

安装过程取决于 harness,但模式相同:把 skill 目录放到工具可发现的位置,并确保 AI-Q server 已启动。

Claude Code

在 Claude Code 中,Skill 通过可发现目录加载。SKILL.md 会告诉 Claude Code:当用户要求多文档研究、企业数据综合、带来源报告或长时间研究任务时,应调用 AI-Q,而不是在当前对话里临时拼接搜索。

Codex

Codex 中,AI-Q Skill 可以作为项目级或用户级能力使用。它特别适合“请基于多个内部文档做技术选型报告”“总结某个组件迁移风险”“比较不同部署方案”这类任务。

Codex 侧不需要知道研究管线内部怎样做 intent classification、clarification、shallow research 或 deep research。它只需要遵循 Skill 的调用协议。

OpenCode

OpenCode 或其他兼容 agent skills 规范的 harness,可以复用同一个 .agents/skills/aiq-research/ 目录。这正是 Skill 机制的价值:研究能力不是绑定某个前端工具,而是可移植能力包。

安全 MCP 集成:AI-Q 作为 MCP Client

企业 deep research 最大的约束往往不是模型能力,而是数据位置和权限。医疗、金融、政府、防务等行业不可能让桌面 Agent 随意读取所有敏感数据源。

因此,源文强调 MCP 集成时的安全边界:AI-Q 可以作为 MCP client 部署在数据所在环境内,连接企业允许的数据源和工具。harness 只提交研究任务,并接收经过综合的报告;敏感数据不必直接暴露给每一个 Agent 前端。

这带来一个更干净的权限模型:

User / Harness
    |
    | research request
    v
AI-Q Skill
    |
    | job submit / polling
    v
AI-Q Server inside enterprise boundary
    |
    | MCP tools, document stores, search services
    v
Enterprise data sources

在这个架构中,企业可以把认证、审计、访问控制和数据驻留策略放在 AI-Q server 侧,而不是散落在每个 harness 里。

把研究员部署到数据所在的位置

Deep research 不只是“搜几篇资料再总结”。一个可靠研究员需要能澄清问题、区分权威来源和低质量来源、记录证据、处理冲突信息,并在结论中说明不确定性。

AI-Q Skill 的关键价值,是把这套研究员能力部署到数据附近。对企业来说,这意味着:

  • 内部文档、工单、代码仓库和数据库可以留在企业边界内。
  • 研究过程可以被服务端统一审计。
  • 多个 harness 可以复用同一套研究能力。
  • 报告中的来源引用可以保持稳定,不会因为前端工具不同而丢失。

一个高质量研究报告至少应该包含:

{
  "question": "是否应该将客服 Agent 接入新的知识库?",
  "summary": "建议先灰度接入低风险队列,并保留人工升级路径。",
  "findings": [
    {
      "claim": "新知识库覆盖多数高频问题,但复杂账单场景仍需人工判断。",
      "source": "internal://kb/evaluation-q2",
      "confidence": 0.84
    }
  ],
  "risks": [
    "权限同步延迟可能导致回答引用过期资料",
    "知识库缺口会提高错误自信回答的概率"
  ],
  "next_steps": [
    "选择低风险队列做两周灰度",
    "记录 AI 回答、引用来源和人工纠正结果"
  ]
}

这种结构比一段自然语言摘要更适合企业落地,因为它可以被评审、追踪和再利用。

一条为研究而建的流水线,而不是临时改造出来的搜索流程

普通 Agent 做研究时,经常把“搜索、阅读、总结”塞进一个长 Prompt。短任务尚可,长任务会出现三个问题:证据丢失、引用不稳定、结论不可复查。

AI-Q 的设计重点,是把研究拆成专门阶段:

  1. 判断用户意图,决定是否需要 deep research。
  2. 如果问题不清楚,先生成澄清问题。
  3. 做 shallow research,快速建立初始上下文。
  4. 做 deep research,跨多数据源收集证据。
  5. 综合结论,保留引用和不确定性。
  6. 对报告质量进行评估。

这条流水线不是为了让输出更长,而是为了让研究过程可控。开发者可以在每个阶段记录中间产物,例如 plan.jsonevidence.jsonldraft.mdfinal_report.md。当结果不理想时,可以定位到底是检索失败、证据不足、综合偏差,还是引用丢失。

Get started

如果团队已经在使用 Codex、Claude Code 或 OpenCode,可以先选择一个低风险研究任务试点,例如内部技术选型、故障复盘资料整理、API 迁移影响分析。把 AI-Q server 部署在能访问相关数据的位置,再把 AI-Q Skill 加入 harness。

第一版不要追求覆盖所有数据源。先验证三件事:报告是否带引用、引用是否可追溯、结论是否能被人工审查。等这条链路稳定后,再扩展到更多企业数据源和更高价值的研究任务。

Deep research 的本质不是让 Agent “写得更多”,而是让它像研究员一样工作:知道去哪里找证据,知道怎样处理不确定性,也知道把结论和来源一起交付给开发者。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐