BRTR的成功验证了 "检索即推理" 的新范式——对于结构化数据,让LLM主动探索比被动接受上下文更有效。这不仅是电子表格领域的突破,也为处理数据库、知识图谱等结构化数据提供了新思路。

企业里的Excel表格动辄包含数百万单元格、跨表引用和嵌入式图表,但现有AI方案在处理这类复杂表格时面临三大痛点:

  1. 单次检索的局限:传统RAG只检索一次就生成答案,容易遗漏关键信息
  2. 数据压缩失真:把表格压缩后喂给大模型,会丢失跨表关联和视觉信息
  3. 上下文窗口爆炸:直接塞入完整表格会超出模型处理上限

图片

如图所示,随着表格规模增长,单次检索和压缩方法的准确率急剧下降,而暴力全量输入在5万单元格处就触发了上下文上限。

BRTR框架

BRTR(Beyond Rows to Reasoning)是一个多模态智能体框架,核心创新是 用"迭代式工具调用"替代"单次检索" 。

工作原理

图片

整个流程分为四个阶段:

  1. 多模态索引:将表格切分为行、列、窗口、图片四种块,用向量数据库存储
  2. 智能体规划:把复杂任务拆解为依赖图,并行执行独立子任务
  3. 迭代检索循环:LLM可以多次调用搜索工具(search_rows/columns/windows/images),根据中间结果 refinement 查询
  4. 多格式输出:支持生成分析结论、修改表格、创建图表等

关键设计

  • 上下文预算机制:每次只保留最新检索的图片,旧图片仅保留元数据,防止token爆炸
  • 混合检索:结合向量相似度搜索(Dense)和关键词匹配(BM25),用RRF算法融合结果

实验亮点

1. 嵌入模型选型

测试了5款多模态嵌入模型,NVIDIA NeMo Retriever 1B在表格数据上表现最佳(Recall@10达0.60),成为后续实验的默认选择。

图片

2. 主实验结果

在三个权威基准测试中,BRTR均创下新SOTA:

基准测试

BRTR最佳成绩

相比前代提升

FRTR-Bench

99%

 (GPT-5)

+25个百分点

SpreadsheetLLM

98%

 (GPT-5)

+7个百分点

FINCH

95%

 (Claude Opus 4.6)

+32个百分点

特别值得注意的是,在FRTR-Bench的23道需要解读嵌入式图片的题目中,BRTR仅错2题(均为OCR误读),而单次检索方法仅得65分。

图片

图片

3. 消融实验(表5、图4)

图片

验证各组件贡献:

  • 移除规划器:准确率从88%跌至68%,且token消耗增加40%
  • 移除智能体循环:准确率直接归零,证明多轮推理不可或缺
  • 全量上下文:准确率仅52%,且20%任务因超长无法完成

方案优势总结

  1. 准确率突破:在复杂企业级表格场景下,首次将准确率推近99%
  2. 可解释性:所有操作通过工具调用显式记录,满足审计要求
  3. 成本可控:GPT-5.2在保持98%准确率的同时,token消耗最低(仅20K/查询)
  4. 多模态支持:统一处理表格数据、图表、PDF、网页等异构信息

启发与思考

BRTR的成功验证了 "检索即推理" 的新范式——对于结构化数据,让LLM主动探索比被动接受上下文更有效。这不仅是电子表格领域的突破,也为处理数据库、知识图谱等结构化数据提供了新思路。

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing
https://arxiv.org/pdf/2603.06503
    Logo

    AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

    更多推荐