RAGFlow v0.25.0 于 2026年4月21日发布,这是一次覆盖范围非常广的版本更新,几乎横跨了从文档接入、解析、同步、Agent 能力、界面国际化、模型生态、移动端适配、存储与数据库升级,到安全修复、CLI、Go 服务、API 重构等多个核心方向。对于已经在使用 RAGFlow 的团队来说,这个版本不仅带来了能力增强,也带来了大量稳定性优化、兼容性升级和安全加固。


一、Ingestion Pipeline:解析管道全面增强,模板更丰富,解析能力更强

本次版本在 Ingestion Pipeline 方向的变化非常显著。最核心的更新之一,就是新增了 7 个内置 pipeline 模板,并且这些模板与 RAGFlow 原生文档解析器保持一致。相比之前单一或通用化的处理方式,这次新增模板明显提升了可配置性和落地效率。

同时,官方也明确提到:多个新模板带来了显著的解析改进。 这意味着在实际使用过程中,文档进入知识库前的结构识别、内容切分、格式保持等能力都将得到增强。

除此之外,本次版本还对 ingestion pipeline UI 做了更新,并且加入了preprocess 预处理能力。官方后续还进一步补充了 pipeline add preprocessadd preprocess parameters for ingestion pipeline 等更新,说明预处理并不是简单的 UI 微调,而是已经进入了可配置、可扩展的管道能力中。

本版本还包括以下 pipeline 相关改进:

  • • pipeline 支持 preprocess 参数
  • • pipeline 支持 ONE chunking method
  • • pipeline parser 文档支持补充
  • • pipeline support doc for parser in word
  • • pipeline 支持关闭 VLM parsing 的按钮
  • • pipeline 中增加音视频支持修复
  • • pipeline 中 markdown parser 修复
  • • pipeline canvas category 修复
  • • pipeline template 更新
  • • pipeline parser log 显示修复
  • • pipeline page 样式优化
  • • Refact pipeline
  • • Refact update pipeline template

这些更新说明,RAGFlow 在 ingestion 层已经不只是“能导入”,而是在向“可控、可定制、可调优”的方向继续推进。


二、Data Sources:新增多种数据源,支持删除同步,连接器能力更完整

RAGFlow v0.25.0 在数据源能力上扩展非常明显。官方新增的数据源包括:

  • • Seafile
  • • RSS
  • • DingTalk AI Sheet

其中,Seafile 还新增了库和目录同步范围支持,RSS 也正式进入数据源支持范围,DingTalk AI Sheet 则进一步拓展了企业常见协作数据的接入场景。

除了新增数据源,这一版本还加入了一个非常实用的能力:支持从数据源同步文件删除。
这意味着数据源侧的删除动作不再被忽略,知识库内容可以更准确地与源端保持一致。

围绕数据源与同步,更新还包括:

  • • 支持 Google Drive 优化
  • • 支持 Jira 增量更新遗漏问题修复
  • • 支持 MySQL/PostgreSQL 增量同步字段暴露
  • • 支持 Seafile 库与目录同步范围
  • • 支持数据源更新后重新切块
  • • 支持数据源同步删除文件
  • • 支持 WebDAVConnector 注册
  • • 支持文件类型校验
  • • 支持文件夹上传
  • • 支持文件相关功能补齐
  • • 支持 file ancestor directory lookup
  • • 支持 file list API 重构
  • • 支持 list files 修复

在同步场景下,这些能力意味着 RAGFlow 对企业知识来源的覆盖正在进一步扩张,尤其是针对协作平台、网盘、表格和持续同步场景,实用性很强。


三、DOCX 与其他解析能力:更省内存、更稳定、更适合大文档

v0.25.0 对文档解析内部实现也做了明显优化,尤其是 DOCX 解析策略。

官方明确提到:DOCX parsing strategy with lazy-load support for images,减少内存消耗。
后续提交记录中也有多处相关 refactor,包括:

  • • lazy-load DOCX images to reduce peak memory without changing output
  • • unified lazy image loading for Docx parsers
  • • excel use lazy image loader
  • • refactor word parser lazy image loader

这说明图片懒加载已经成为文档解析体系的重要方向。对大文档、包含大量图片的 Word/Excel 文件来说,这种改动通常意味着更低的峰值内存、更平稳的处理过程,以及更少的加载压力。

此外,本版本还修复和增强了大量解析相关问题:

  • • PDF 绝对页索引混淆问题修复
  • • garbled PDF text 自动 fallback 到 OCR
  • • MinerU 的坐标上下颠倒修复
  • • Paddle OCR 缺失轮廓修复
  • • PDF chunking 参数名修正
  • • markdown table double extraction 修复
  • • html heading mapping 修正
  • • image PDF in ingestion pipeline 修复
  • • epub parsing 支持
  • • Docling parser return type hint 修复
  • • external Docling server via DOCLING_SERVER_URL 支持
  • • respect chunk_token_num for MinerU/docling/paddleocr parsers
  • • fixed parsing status recovery after transient errors
  • • document parsing status check logic 修正

整体来看,v0.25.0 的文档解析更偏向“生产环境可用性强化”,尤其是在异常恢复、OCR 回退、图片处理、内存控制和不同解析器协同方面。


四、Agent:发布能力上线,沙箱执行、图表生成、数据分析模板与记忆系统增强

Agent 是这次版本最值得关注的模块之一。

1. Agent 发布能力正式引入

官方明确新增了:agent publishing capability
这意味着 Agent 不再只是内部配置或调试产物,而是可以进入更完整的发布流转。

对应的更新还包括:

  • • published agent version control
  • • agent 版本历史展示发布状态
  • • agent application can not show Cite 修复
  • • agent 不能发布的问题修复
  • • agent embedded page 与移动端兼容
  • • agent embedded page 不再跳转登录页问题修复
  • • agent 模板标题中文模式显示问题修复
  • • agent form sheet 被 log sheet 遮挡问题修复
  • • agent exploration 页面空对话框报错修复
  • • agent page 样式优化
  • • agent log 导出
  • • agent log time 可选问题修复
  • • agent log 增加 user_id
  • • agent application embedded page 支持隐藏下载按钮

2. 沙箱执行与图表生成

版本中明确写到:Sandboxed code execution and chart generation
同时安全层面也有重要升级:

  • • Adopt Jinja2 SandboxedEnvironment for template rendering
  • • fix security vulnerability using SandboxedEnvironment
  • • sandbox cannot accept large args list 修复
  • • sandbox import error 修复
  • • sandbox attachment metadata 问题修复
  • • sandbox do not attach attachment metadata 修复
  • • sandbox 中中文转英文翻译处理

这说明 Agent 的代码执行与模板渲染在安全性上被进一步加固。

3. 新模板:Data Analysis Agent

官方新增了一个非常重要的模板:Data Analysis Agent
结合 sandbox、chart generation、code execution,可以看出这个模板不是简单的聊天模板,而是面向数据分析任务的完整 Agent 能力组合。

4. 记忆系统增强

版本说明中提到:Memory: ddded user-level memory storage and retrieval.
后续更新又补充了:

  • • record user_id in memory
  • • OceanBase memory get_aggregation
  • • OceanBase memory get_highlight

这表明 RAGFlow 在记忆层面已经开始更加细粒度地支持用户级存储与检索,同时也对不同存储后端的能力进行适配。


五、语言与界面:新增阿拉伯语、保加利亚语、土耳其语,支持 RTL

v0.25.0 的国际化和 UI 方向也非常强。

新增语言支持包括:

  • • Arabic
  • • Bulgarian
  • • Turkish

同时,官方明确写到:UI now supports Right-to-Left (RTL) layout
这对于阿拉伯语等从右向左阅读的语言尤为关键,说明 RAGFlow 在真正走向多语言全球化界面支持。

对应的更新还包括:

  • • enable Arabic in production UI
  • • complete Arabic documentation
  • • Add Bulgarian language support
  • • add Turkish language support
  • • complete Turkish localization
  • • Turkish README translation
  • • remove duplicate “arabic” key in French translations
  • • on-demand import of i18n language pack
  • • language configuration moved to web/.env
  • • standard language codes and time zones unified
  • • replace hardcoded English strings with i18n in floating chat widget
  • • embedded dialog text translation
  • • global navigation bar style adjustment
  • • chat page style optimization
  • • dataset page styles adjustment
  • • knowledge graph、chunk、metadata、agent log styles update

可以看出,这次升级不只是增加语言包,而是从布局、组件、配置方式到文案国际化都进行了较为系统的整理。


六、模型与 Provider:支持更多模型生态,模型提供商持续扩展

RAGFlow v0.25.0 在模型层面的扩展也非常值得关注。官方这次新增了多种模型与 Provider 支持,说明系统正在进一步向“多模型、可插拔、跨生态”的方向演进。

本次更新中比较明确的新增包括:

  • • support Anthropic Claude models
  • • support ZhipuAI
  • • support Mistral
  • • support yandex models
  • • support Jina embeddings
  • • support Qwen3 series models
  • • support GPT-4o-mini
  • • support GPT-4.1
  • • support DeepSeek OCR model
  • • support nv-embed models
  • • support more embedding/rerank/LLM options

从实际意义来看,这类更新有三个层面的价值:

1. 模型选择更灵活

不再局限于单一厂商或少数几类模型,用户可以根据任务类型、成本、语言能力、推理速度和部署环境灵活选择。

2. 生态兼容性更强

新增 Anthropic、ZhipuAI、Mistral、Yandex 等支持,意味着 RAGFlow 对国际与本土模型生态的适配能力更成熟。

3. 检索链路能力更完整

Jina embeddings、nv-embed 等能力的加入,会直接影响向量化、召回效果和检索质量,对 RAG 系统本身是非常关键的增强。

此外,更新中也包括:

  • • model provider configuration improvements
  • • provider UI updates
  • • model option display fixes
  • • selected model persistence improvements
  • • API model and provider refactoring

这说明模型层不仅在“支持更多”,也在“配置更清晰、切换更顺畅、显示更合理”。


七、存储与数据库:OceanBase、SQLite、Redis 等后端适配继续深化

这次版本在底层存储和数据库支持上同样有不少动作,说明 RAGFlow 正在进一步适应企业级部署和多环境落地。

比较重要的方向包括:

  • • support OceanBase for memory aggregation/highlight
  • • support SQLite batch update
  • • support Redis config isolation
  • • support Redis lock
  • • support mysql/postgresql incremental sync exposure
  • • database schema adjustments
  • • vector storage related fixes
  • • storage migration related fixes

这些更新的意义在于:

1. 更适合企业部署

OceanBase、MySQL、PostgreSQL、Redis 等都是常见企业环境组件,支持范围越广,落地阻力越小。

2. 高可用与同步能力更稳

Redis lock、配置隔离等改动,通常意味着并发控制和多环境部署会更可靠。

3. 数据处理效率更高

SQLite batch update、增量同步字段暴露等优化,直接关系到批处理效率和同步准确性。


八、API、CLI、Go 服务与架构重构:平台化能力持续增强

从这次更新的提交内容来看,RAGFlow 内部架构也在做比较大规模的整理。

API 与接口重构

包括:

  • • api refactor
  • • file list API refactor
  • • model and provider API refactor
  • • prompt API fix
  • • agent API improvements
  • • dashboard API fixes
  • • workflow API related fixes

这类变化通常意味着接口边界在重新梳理,有利于后续功能扩展和前后端协同。

CLI 与运维能力

官方提到:

  • • CLI import assistant
  • • CLI app improvements
  • • CLI related fixes

这说明 RAGFlow 正在加强命令行部署、导入和运维可控性,对自动化部署和批量管理很有帮助。

Go 服务

版本中还出现了:

  • • go service fixes
  • • go service runtime related improvements

这意味着系统内部可能仍在推进部分服务化、性能优化或解耦改造。


九、安全修复:本次版本非常重要的升级重点之一

如果说前面很多是“能力升级”,那安全修复就是 v0.25.0 另一条非常重要的主线。

本次更新里,安全相关内容非常明确:

  • • fix security vulnerability using SandboxedEnvironment
  • • use sandboxed Jinja2 environment
  • • validate file type and URL more strictly
  • • prevent unsafe template rendering
  • • disable risky behavior in sandbox execution
  • • fix permission and access control related issues

尤其是模板渲染和沙箱执行这部分,通常都是 RAG/Agent 系统里比较敏感的安全面。
官方显然对这部分做了专门加固,这对于企业部署非常关键。


十、其他值得注意的体验优化与修复

除了以上大模块,v0.25.0 还包含大量“看似细碎、实则很影响体验”的修复和优化,例如:

  • • mobile adaptation improvements
  • • embedded page style fixes
  • • floating chat widget style and i18n improvements
  • • knowledge graph UI fixes
  • • token/page count display fixes
  • • import/export edge cases fixed
  • • pagination and sorting optimizations
  • • log display improvements
  • • empty state and error handling improvements
  • • versioning and history UI fixes

这些更新整体上会让系统更稳定、更顺手,也更适合真实业务场景长期使用。


总结:v0.25.0 是一次“平台化”味道很强的版本

代码地址:github.com/infiniflow/ragflow

整体来看,RAGFlow v0.25.0 不只是一次常规迭代,而是一次非常明显的能力扩张:

  • 文档接入更强:pipeline、preprocess、解析器、OCR、DOCX/Excel 懒加载全面增强
  • 数据源更广:Seafile、RSS、DingTalk AI Sheet 等新增接入
  • Agent 更完整:发布、版本管理、sandbox、数据分析模板、图表生成、记忆系统都更成熟
  • 国际化更彻底:新增阿拉伯语、保加利亚语、土耳其语,并支持 RTL
  • 模型生态更开放:Claude、ZhipuAI、Mistral、Yandex、Qwen3 等持续扩展
  • 底层更稳:数据库、存储、API、CLI、Go 服务、安全都在持续强化

·


我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述
·

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐