在大模型应用开发中,传统的单轮对话模式难以应对复杂的长流程任务(如深度行业调研与报告生成)。此类任务通常面临大模型上下文窗口限制、知识库时效性不足以及事实幻觉等问题。本文将介绍一个本人的开源实践项目——DeepResearch Pipeline Agent。该项目基于 Agentic Workflow(智能体工作流)架构,结合动态本地检索(RAG)与异步并发搜索,实现了从任务拆解、多线程信息采集到结构化报告合成的完整链路。

系统架构设计

本系统采用模块化分层设计,确保整体执行的鲁棒性与后续迭代的可扩展性。系统划分为四个核心层级:

  1. 控制层 (Workflow) 基于 LangGraph 构建图状态机,管理节点流转。利用 Checkpointer 实现状态持久化,并在关键节点引入“人在回路” (Human-in-the-loop) 的断点干预机制。

  2. 逻辑层 (Agents) 采用 ReAct 模式将核心业务解耦为三种独立智能体:

  • Planner:负责宏观任务的语义拆解与垂直搜索路径规划。

  • Searcher:负责多路并发数据获取策略的执行。

  • Writer:负责海量碎片化信息的清洗、聚合与长文本 Markdown 渲染。

  1. 工具层 (Tools) 底层集成 FAISS 本地向量引擎、Tavily 全网搜索 API 以及 Jina Reader 网页正文提取服务。

  2. 状态层 (Schema) 依托 TypedDict 与 Pydantic 建立严格的类型约束,保障多智能体协作时上下文数据传递的准确性与确定性。

核心技术实现

  1. 混合检索架构 (Hybrid RAG + Web Search) 系统整合了全网实时搜索与本地私有知识库检索。为了突破传统搜索引擎仅提供片段摘要(Snippet)的局限,系统接入 Jina Reader 提取网页的完整 Markdown 正文,作为大模型推理的上下文输入,有效降低信息缺失导致的逻辑幻觉。

  2. 异步高并发调度 针对 Planner 拆分出的多个子任务,系统由传统的串行执行升级为 Python Asyncio 并发调度。本地检索、网络搜索与多网页抓取同步进行,使整体端到端执行耗时压缩至原有串行模式的 20% 至 30%。

  3. 动态 RAG 与本地化部署 知识库处理引擎内置对 PDF 与 Word 等主流文档的自动化解析。采用 RecursiveCharacterTextSplitter(500字块大小,50字重叠度)进行文本切分。系统引入 FAISS 持久化机制,首载后在本地生成向量索引,避免重复计算。同时,支持加载离线 Embedding 模型(如 HuggingFace 的 all-MiniLM-L6-v2),确保企业内部敏感文档的处理不出内网。

  4. 人工干预机制 全自动流程在应对非结构化研究需求时存在不可控风险。系统在任务规划与数据抓取之间设置了人工校验节点。用户可在终端审查 Planner 生成的搜索计划,确认无误或进行指令微调后,再触发系统进入消耗算力与 API 额度的并发检索阶段。

环境配置与项目运行

项目推荐使用 Python 3.9+ 环境运行。

  1. 获取源码及依赖

git clone https://github.com/1022260464/LangGraph_learnigDemo.git
cd Type_Pipeline-Agent

# 安装核心框架与异步支持库
pip install -r requirements.txt
pip install langgraph msgpack

# 安装本地 RAG 处理组件
pip install pypdf docx2txt langchain-huggingface faiss-cpu

注:若需实现完全离线化运行,需提前将 Embedding 模型下载至项目的 models/ 目录。

  1. 启动服务 将内部参考资料投放至 data/ 文件夹后,执行主程序:

python main.py

运行结果分析

以执行“总结全网AI医疗影像诊断的发展现状与自研产品落地分析”为例:

系统在初始化本地知识库模型后,Planner 依据提示词拆分出多维度的搜索计划并挂起。终端提示等待人工审核。 人工确认后,Searcher 启动并发逻辑,一方面通过 Tavily 获取2024年行业宏观规模、技术突破趋势及竞品数据;另一方面通过本地 FAISS 检索 data 目录下的内部产品(AI-Scan)参数。

最终,Writer 输出结构化的研报。从测试结果看,报告能够将全网公开的宏观趋势数据与本地私有的产品技术指标(如结合 EMR 数据实现 98% 准确率、三甲医院商业化进度)进行逻辑融合。信息溯源清晰,实现了预期的跨模态数据聚合效果。

总结

DeepResearch Agent 提供了一个具备较高工程实操性的 Agentic Workflow 框架参考。通过 LangGraph 的图状态流转,验证了复杂工作流中多智能体并发调度与混合检索机制的有效性。该项目源码适合用于研究多智能体协作及企业级长文本 RAG 系统的构建。

项目源码地址:https://github.com/1022260464/LangGraph_learnigDemo.git

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐