ragflow v0.26.3更新全解析:BigQuery接入、SoMark OCR增强、MCP工具扩展、批量上传容错、Go API持续补强与海量修复一次看懂
一、版本总览v0.26.3 重点看什么这一版更新内容非常多但最值得优先关注的有以下几个方向新增Google BigQuery 数据源连接器RAGFlow MCP Server 新增两个 MCP 工具文件摄取中引入SoMark OCR 解析器API 开放Ingest documents端点支持自定义处理流水线批量文档上传支持部分成功单文件失败不再拖垮整个批次全局头部导航重构移动端体验显著改善Ollama 提供商访问模型失败问题被修复聊天消息删除误删上一个会话引用的问题被修复Go 侧 API、CLI、搜索、聊天、会话、Agent、Mindmap 等能力继续扩展大量前后端、解析器、工作流、构建、测试、兼容性和安全问题被清理这意味着v0.26.3 不仅对企业级数据接入更友好也对实际生产部署、移动端使用、复杂文档解析、Agent 运行链路以及 Go 化演进带来了直接价值。二、新特性详解这次到底新增了什么1. Google BigQuery 成为新的数据源连接器在数据源连接器方面RAGFlow v0.26.3 正式引入了Google BigQuery可用于文档摄取增量同步这项能力的意义非常大。它说明 RAGFlow 正在继续加强与企业级数据基础设施的衔接能力。对于已经在使用云数仓、分析平台或者需要从结构化数据源进行持续同步的团队来说这项更新会明显降低接入门槛。2. MCP Server 新增两个工具在 MCP 方面这一版为 RAGFlow MCP Server 新增了两个工具ragflow_list_datasetsragflow_list_chats这两个工具的加入意味着通过 MCP 与 RAGFlow 交互时可以更方便地枚举数据集枚举聊天记录对正在构建外部工具编排、Agent 工作流或跨系统协同能力的开发者来说这属于非常实用的补强。3. 文件摄取集成 SoMark OCR 解析器在文档摄取方面v0.26.3 集成了布局感知型 SoMark OCR 解析器。它的目标非常明确提取并索引复杂文档元素包括但不限于表格图像版面复杂内容这项升级对知识库质量的提升非常关键。很多检索增强生成系统在落地时真正的难点并不只是向量化而是复杂文档结构提取是否准确。SoMark 的加入意味着 RAGFlow 在复杂 PDF、图文混排、表格密集类文档的解析能力上进一步增强。4. API 开放 Ingest documents 端点这一版还开放了Ingest documentsAPI 端点用于通过自定义流水线处理文档。这一更新有两个直接价值开发者可以更灵活地控制文档导入过程某些无法通过原有路径正确解析流水线的场景现在可以通过新的接口完成处理同时更新内容中还明确提到对于/datasets/{dataset_id}/chunks无法解析摄取流水线的场景应使用/documents/ingest。这实际上进一步强化了新端点的定位它是更标准、更适合复杂导入流程的文档摄取入口。三、改进项详解从“能用”到“更好用”1. 批量文档上传支持部分成功后端层面v0.26.3 为批量文档上传引入了部分成功处理机制。这意味着以前一个文件失败可能导致整批上传被丢弃现在单个失败文件不再影响整批有效文件的处理结果这是一个很典型但又非常重要的工程级优化。实际业务中知识库导入经常是批量操作只要某个文档格式异常、权限异常或解析失败就导致整批失败会严重影响运维效率。现在的改动大幅提高了导入可靠性和可用性。2. 全局头部导航重构移动端体验显著提升UI 与 UX 方面这一版对全局头部做了重构能够根据可用屏幕空间在以下两种模式之间动态切换完整桌面导航栏适合移动端的侧边抽屉它解决了此前界面重叠问题并显著提升了移动端使用体验。对于经常在平板、小屏笔记本、甚至手机上查看知识库和聊天界面的用户来说这是一个很有感知的改进。四、官方点名修复的两个关键问题1. Ollama 提供商接入后的模型访问报错被修复此前在配置 Ollama 提供商后系统可能报错Failed to access model(name) using this api key这个问题在 v0.26.3 中已经修复。对于本地模型或私有模型接入场景来说这项修复很关键。2. 删除一组用户与助手消息时误删前一轮引用的问题被修复此前在删除一组用户与助手消息时会因为索引错位误删上一轮对话的引用信息。这个问题已经在 v0.26.3 中修复。这属于聊天链路里非常容易影响用户信任的问题因为它会直接破坏上下文引用的正确性。此次修复非常必要。五、前端与交互层更新细节很多但非常实用这一版前端改动很多除了前面提到的全局头部重构之外还有以下内容增强 UI 组件与整体布局修复用户设置弹窗问题并清理 DOMPurify 相关逻辑修复头像上传失败问题修复新建聊天无法编辑问题调整消息左侧区域宽度为适配内容修复 UI 无法启动问题新增AuthenticatedImg组件用于处理需要授权的图片请求提升普通角色标识的可见性与样式修复 Agent 页面在无标签场景下无法打开筛选器的问题修复 chunk 结果中图片无法加载的问题修复 SessionChat 组件中的引用处理逻辑修复useExportMcp传递 MCP 参数错误导致 JSON 导出文件名不正确的问题隐藏模型设置按钮及相关功能修复发送 Agent 日志日期筛选时应使用本地墙上时钟字符串修复沙箱执行镜像无法展示和下载的问题这些改动看起来分散但背后体现的是RAGFlow 团队在前端可用性、显示准确性、安全性和操作一致性上做了持续打磨。六、文档解析、摄取与知识库处理这一版非常“能打”RAGFlow 的核心竞争力之一就是文档摄取与知识库构建能力而 v0.26.3 在这一块变化非常密集1. SoMark OCR 已接入前文已经提到SoMark 用于复杂文档元素的抽取和索引重点面向表格和图像等复杂内容。2. 支持 DOCX 解析增强本版包含以下与 DOCX 相关的更新修复未编号 DOCX 标题样式的处理问题新增 DOCX 解析器这意味着 Word 文档的解析质量和兼容性进一步增强。3. 深度文档解析增强还修复了以下问题支持解析没有 body 的 HTML 片段保留最终 CSV 成对行号修复 PDF 压缩文件的页数检测问题规范 QA 解析器 ID 键为小写qa修复数据集索引分块配置中 JSONMap 扫描问题修复文件在知识库中无法添加元数据的问题修复获取聊天时出现重复 datasetID 的问题修复 chunk 统计在删除 chunk 后不正确的问题Go 侧允许 list chunks handler 接受 disabled chunk filter修复 chunk 结果无法加载图片修复文档计数在知识库中的问题4. OSS 解析与文件处理继续演进相关改动包括OSS 解析器 Go 重构OSS 解析器不再 post 的特性调整修复下载依赖脚本路径提示并补充原生库文档用.a替换.so以适配pdfium、pdf_oxide、office_oxide从这些变更可以看出RAGFlow 在底层文档处理链路上做了不少兼容性和工程化完善。七、Go API 与 Go 生态这版仍然是“重点建设对象”如果仔细看更新列表会发现 Go 相关内容特别多。这说明 RAGFlow 正在持续推进 Go 后端能力建设与迁移补齐。1. Go CLI 持续增强本版 Go CLI 包含以下更新新增 create 和 drop 命令CLI 命令重构修复 API 命令新增显示用户套餐摘要功能新增管理员命令响应表格功能合并函数相关优化修复列出提供商模型功能修复 MinIO 端口问题2. Go API 新增与补齐能力新增或增强的 Go API 包括新增聊天会话消息删除与反馈接口后续又回滚实现searches/search_id/completionsPOST新增/api/v1/searchbots/mindmap和/api/v1/chat/mindmap将 Box Web OAuth 连接器 API 迁移到 Go实现聊天 completions 的 Go 版本新增 sessions message update实现chatbots/dialog_id/info和searchbots/detail新增/api/v1/chat/recommendation并与/api/v1/searchbots/related_questions做整合3. Go 后端修复很多实际问题包括但不限于修复 searchbot BETA 鉴权修复 retrieval_test 接受 kb_id 数组以及模型识别问题修复/documents/images/:image_id、/documents/:id/preview、/thumbnails的 BETA 鉴权修复项目根目录获取问题修复文档计数问题允许 provider 使用重复 key修复 agent explore 在多个 doc_ids 下的缩略图加载问题修复 agent settings 更新时清空 DSL 的问题修复共享 chatbot session id 长度问题修复无法构建 Go backend修复对文件查询添加 tenant 过滤修复防止文件夹被移动到其自身之内修复 rerunWithDelete 时清理任务取消信号与 chunk 计数器修复聊天中的思考态与图形显示问题整体来看Go 生态已经不再只是“补充实现”而是在逐步成为 RAGFlow 核心能力的重要承载层。八、Agent 能力升级这次更新非常密集Agent 相关改动是 v0.26.3 的另一大重点涵盖能力新增、上下文修复、兼容性处理、监控统计、工具调用等多个层面。1. Agent 上下文与消息处理更稳了修复内容包括将上传的附件注入到 LLM 上下文中当 chat completion 未产生事件时返回 session_id防止 prompt fitting 后生成空的 LLM 用户消息处理 Agent Canvas 的 SSE 和状态序列化中不可序列化对象的问题增加canvas_type过滤和字段到list_agentsAPI修复调用 LLM 不可用时应返回 call failed修复 TuShare 新闻按上游关键词过滤修复 GoogleScholar 在空 JSON 输出和忽略 top_n 的问题2. Agent 新增能力新增能力包括增加 BGPT 结构化文献证据搜索工具新增 CAJAL 科学论文 Agent 模板引入基于 spaCy 的命名实体识别和关系抽取Python 与 Go 输出等价支持更准确的汇总 token 用量统计并把 session、user、输入输出传播到 Langfuse 中用于 Agent 运行跟踪3. Agent 相关修复已多次向 Go 侧移植更新中明确提到了Port 14 upstream agent security / correctness fixes to Go canvasPort agent PRs to GOPort agent PRs to GO - 2这说明 Python 侧已有的能力和修复正在不断同步到 Go 画布与 Go 实现中有助于减少双栈行为差异。九、MCP、Canvas 与连接稳定性链路更完整了MCP 除了新增两个工具外还做了一个非常关键的稳定性修复在 canvas 执行后关闭 MCP 会话避免连接泄漏这个问题如果长期存在会给长时间运行的工作流、复杂 Agent、多次调用的场景带来连接占用和资源泄露风险。修复之后MCP 整体运行可靠性会更高。十、搜索、推荐、Mindmap 与聊天能力继续补强本版在聊天与搜索侧也有一系列增强实现聊天 completions 的 Go 版本增加/api/v1/chat/recommendation与/api/v1/searchbots/related_questions进行整合新增搜索与聊天两个 Mindmap API修复新建聊天无法编辑修复获取聊天时重复 datasetID修复 SessionChat 组件引用处理修复聊天中的思考态与 Figure 展示问题这说明 RAGFlow 已经不仅停留在传统“问答 检索”层面而是持续把搜索、推荐、思维导图、会话引用管理等体验整合到统一交互闭环中。十一、安全、认证与权限控制这一版也没有忽视这一版中有多项与安全和认证相关的更新修复认证中间件在提前拒绝时产生双重响应的问题修复 Box Web OAuth 连接器 API 迁移到 Go修复多个文档图片与缩略图接口的 BETA 鉴权修复 Searchbot BETA 鉴权前端对 Agent rerun 弹窗 HTML 进行存储型 XSS 清洗用户设置弹窗相关清理 DOMPurify 逻辑Python 侧修复仅允许单点登录以及修改密码后强制重新登录这些更新对于企业用户来说尤其重要。因为知识库与文档系统一旦进入组织内部应用认证一致性、XSS 风险、文件访问权限都会直接影响系统可上线性。十二、构建、依赖、兼容性与测试工程质量同步提升工程层面的变化也非常多这些内容虽然不直接面向最终用户但会显著影响部署体验和稳定性。1. 依赖与构建层crawl4ai从 0.8.9 升级到 0.9.0开发环境下 URL 允许任意 host修复 g 11 不兼容问题修复 CI回滚某些 tests.yml CI 变更使用.a替换.so以适配多个原生库修复 Go backend 构建失败增加 web 和 build 启动步骤修复工作流中文件类型识别问题禁用 Agent 测试稳定超时测试改用语义断言用WaitGroup.Go简化代码用t.Context替换context.WithCancelGo lint 修复2. 时间、编码与流式处理层修复时间工具对None或空时间戳回退逻辑及 ISO 8601 解析修复 harness 流式输出在 rune 边界截断文本以保持 UTF-8 有效修复 RedisDB 缺少mget导致的 graphrag 生成报错这些改动体现的是研发侧在持续提高系统健壮性避免那些“偶发但很难排查”的线上问题。十三、文档与说明同步更新在文档方面本版也有一系列同步动作更新发布日期与 CLI 安装命令新增 FAQ增加 v0.26.3 发布说明在 README 与文档中统一版本引用为 v0.26.3修复 PR 模板修正download_deps.py路径提示并补充原生库文档这说明官方不仅在做代码层更新也在同步降低用户的学习和部署成本。十四、完整变更梳理按模块汇总一次看全为了便于收藏和检索下面把本次更新内容按模块完整梳理一遍。1. 新特性新增 Google BigQuery 数据源连接器用于文档摄取与增量同步MCP Server 新增ragflow_list_datasets与ragflow_list_chats文件摄取集成布局感知 SoMark OCR 解析器用于提取和索引表格、图像等复杂元素API 开放 Ingest documents 端点支持使用自定义流水线处理文档2. 体验与架构改进批量文档上传支持部分成功单文件失败不再导致整批丢弃全局头部根据屏幕空间在桌面导航栏与移动端侧抽屉之间切换解决重叠并优化移动端体验UI 组件与整体布局重构增强3. 官方重点修复修复 Ollama 提供商接入后模型访问失败问题修复删除一组用户与助手消息时误删上一轮引用的问题4. 文档解析与知识库相关处理/datasets/{dataset_id}/chunks无法解析摄取流水线问题改用/documents/ingest修复未编号 DOCX 标题样式处理新增 DOCX 解析器解析无 body 的 HTML 片段保留最终 CSV 成对行号修复 PDF 压缩文件页数检测规范 QA 解析器 ID 为小写qa修复数据集索引分块配置中的 JSONMap 扫描问题修复文件元数据无法添加到知识库的问题修复知识库文档计数问题修复 chunk 删除后的统计问题支持 list chunks handler 接受 disabled chunk filter修复 chunk 结果图片无法加载修复获取聊天时重复 datasetID修复 OSS 解析器 Go 重构与 no post 调整修复 pdfium、pdf_oxide、office_oxide 原生库链接方式修复下载依赖脚本路径并补充原生库说明5. 前端与交互修复用户设置弹窗修复与 DOMPurify 清理修复头像上传修复新聊天无法编辑修复消息左侧区域宽度修复 UI 无法启动新增授权图片组件AuthenticatedImg提升普通角色徽章可见性修复 Agent 页面无标签时筛选器无法打开修复 SessionChat 引用处理修复useExportMcp导出文件名传参问题隐藏模型设置按钮与相关功能修复沙箱执行镜像显示与下载修复本地日期字符串发送到 Agent 日志筛选6. Go CLI 与 Go APIGo CLI 新增 create 和 dropCLI 重构、修复 API 命令、增加用户套餐摘要、管理员命令表格、合并函数、修复列出模型、修复 MinIO 端口Go 聊天会话消息删除与反馈 API 先新增后回滚实现搜索 completions POST新增聊天与搜索的 Mindmap APIBox Web OAuth 连接器 API 迁移到 Go实现聊天 completions in Go新增 sessions message update实现 chatbot info 与 searchbot detail新增 chat recommendation 并整合 related questions修复多个 Go 侧鉴权、构建、缩略图、文档计数、查询过滤、文件夹移动、任务取消与计数器清理、共享会话 ID 长度、聊天思考与图形等问题7. Agent 与工具链上传附件注入 LLM 上下文chat completion 无事件时返回 session_id防止 prompt fitting 后产生空用户消息处理 Canvas SSE 与状态不可序列化对象list_agents增加canvas_typeLLM 不可用时返回 call failedTuShare 新闻按关键词过滤GoogleScholar 空 JSON 输出与 top_n 处理修复新增 BGPT 结构化文献证据搜索工具新增 CAJAL 科学论文 Agent 模板新增基于 spaCy 的 NER 与关系抽取Python 与 Go 输出一致汇总 token 用量统计更准确并把 session、user、输入输出传播到 Langfuse多轮将 Agent 修复移植到 Go8. MCP 与连接管理新增ragflow_list_datasets新增ragflow_list_chatsCanvas 执行后关闭 MCP 会话防止连接泄漏9. 安全、认证与权限认证中间件提前拒绝时双重响应修复多个图片、预览、缩略图与 Searchbot 的 BETA 鉴权修复Agent rerun 弹窗 HTML 做存储型 XSS 清洗Python 侧修复单点登录和修改密码后强制重新登录10. 工程、依赖、测试与兼容性crawl4ai升级开发环境 URL 允许任意 hostg 11 兼容性修复CI 修复与部分回滚稳定超时测试修复 harness streaming emit在 rune 边界截断文本保持 UTF-8 合法WaitGroup.Go简化代码t.Context替代context.WithCancelGo lint 修复工作流文件类型识别修复增加 web 和 build 启动步骤禁用 Agent 测试修复 graphrag 生成时 RedisDB 缺少mget11. 文档更新更新发布日期更新 CLI 安装命令新增 FAQ新增 v0.26.3 发布说明README 与文档统一版本号修复 PR 模板更新原生库与依赖脚本说明十五、如何评价 v0.26.3一次面向生产落地的实用版本综合来看RAGFlow v0.26.3 的价值可以概括成以下几点第一数据接入能力继续增强。BigQuery 的加入让 RAGFlow 更适合企业数据场景增量同步能力也更符合真实生产需求。第二复杂文档解析能力再上一个台阶。SoMark OCR、DOCX 解析增强、HTML/PDF/CSV/QA 处理修复说明系统正持续补足文档摄取质量这个决定上限的关键环节。第三Go 化进程明显加速。从 CLI 到 API从聊天到搜索从 Mindmap 到 Box OAuth从会话消息到推荐接口Go 侧已经进入快速补齐阶段。第四Agent 与 MCP 生态更完整。新增 MCP 工具、修复连接泄漏、加强 Agent 上下文注入、完善工具调用与运行跟踪让 RAGFlow 在智能工作流方向更成熟。第五工程质量与可用性显著提升。从移动端导航、批量上传部分成功到认证、XSS、构建、CI、原生库兼容、日志日期、缩略图、图片显示、测试稳定性这些修复虽然碎但非常关键。十六、结语代码地址github.com/infiniflow/ragflow如果你关注的是企业数据源接入复杂文档知识库构建Go API 生态Agent 与 MCP 扩展批量导入稳定性前后端综合可用性那么RAGFlow v0.26.3是一个非常值得重点关注的版本。

相关新闻