WeKnora 功能简介、安装说明及应用指南

wenxing462

1086人浏览 · 2026-04-12 22:22:52

wenxing462 · 2026-04-12 22:22:52 发布

一、项目简介

WeKnora（维娜拉）是由腾讯AI平台团队开发并开源的一款基于大语言模型（LLM）的文档理解与语义检索框架，采用MIT许可证。它专为结构复杂、内容异构的文档场景而打造，通过融合多模态预处理、语义向量索引、智能召回与大模型生成推理，构建起高效、可控的文档问答流程。

WeKnora不是一个单纯的聊天工具或通用AI助手，而是一个极简、专注、有边界的问答工具：用户可以任意上传一段文本作为“即时知识库”，AI将严格依据用户提供的文本内容进行精准、可靠的回答，不编造、不自由发挥。这种“零幻觉”设计，恰恰是企业级应用最需要的确定性。

官网地址：https://weknora.weixin.qq.com
GitHub地址：https://github.com/Tencent/WeKnora

二、核心特性

2.1 技术架构

WeKnora采用现代化模块化设计，构建了一条完整的文档理解与检索流水线，主要包括五大核心模块：

模块	说明
文档处理层	负责多种格式文档的解析与预处理，将非结构化内容转换为结构化数据
知识建模层	通过向量化、分块、知识图谱、索引等技术构建知识表示
检索引擎层	集成多种检索策略，实现高效、精准的内容召回
推理生成层	利用大语言模型对检索结果进行理解和生成
交互展示层	提供直观的用户界面和标准API接口

2.2 六大核心特性

精准理解：支持PDF、Word、图片等文档的结构化内容提取，统一构建语义视图
智能推理：借助大语言模型理解文档上下文与用户意图，支持精准问答与多轮对话
灵活扩展：从解析、嵌入、召回到生成全流程解耦，便于灵活集成与定制扩展
高效检索：混合多种检索策略（关键词、向量、知识图谱），提升检索质量
简单易用：直观的Web界面与标准API，零技术门槛快速上手
安全可控：支持本地化与私有云部署，数据完全自主可控

2.3 v0.2.0 重磅升级亮点

WeKnora于v0.2.0版本迎来重大升级，采用RAG + Agent双驱动模式，并全面进化至基于“推理-行动-观察”循环的新智能体架构：

ReACT Agent模式：支持调用内置工具、MCP工具和网络搜索，通过多次迭代和反思，自主规划、拆解任务并提供全面总结报告
多类型知识库：新增FAQ（常见问题解答）知识库类型，与现有文档知识库形成互补，支持文件夹导入、URL批量抓取、标签分类和在线录入
可配置对话策略：支持灵活配置Agent模型、普通模式模型、检索阈值和Prompt
MCP工具集成：支持通过Model Context Protocol扩展Agent能力
可扩展网络搜索：内置DuckDuckGo，助力Agent获取实时信息
全新UI优化：对话界面支持Agent模式/普通模式一键切换，知识库管理界面全面升级

三、功能模块能力

功能模块	支持情况	说明
文档格式支持	✅ PDF / Word / Txt / Markdown / 图片（含OCR/Caption）	支持图文混排与图像文字提取
嵌入模型支持	✅ 本地模型、BGE / GTE API 等	支持自定义embedding模型
向量数据库接入	✅ PostgreSQL（pgvector）、Elasticsearch	支持主流向量索引后端
检索机制	✅ BM25 / Dense Retrieve / GraphRAG	支持稠密/稀疏召回、知识图谱增强检索
大模型集成	✅ 支持Qwen、DeepSeek等	可接入本地Ollama或调用外部API
问答能力	✅ 上下文感知、多轮对话、提示词模板	支持指令控制与链式问答
部署模式	✅ 本地部署 / Docker镜像	满足私有化、离线部署需求
用户界面	✅ Web UI + RESTful API	适配开发者与业务用户

-44

四、适用场景

应用场景	具体应用	核心价值
企业知识管理	内部文档检索、规章制度问答、操作手册查询	提升知识查找效率，降低培训成本
科研文献分析	论文检索、研究报告分析、学术资料整理	加速文献调研，辅助研究决策
产品技术支持	产品手册问答、技术文档检索、故障排查	提升客户服务质量，减少技术支持负担
法律合规审查	合同条款检索、法规政策查询、案例分析	提高合规效率，降低法律风险
医疗知识辅助	医学文献检索、诊疗指南查询、病例分析	辅助临床决策，提升诊疗质量

-21

五、安装说明

5.1 前置要求

在开始部署之前，请确保系统满足以下要求：

项目	最低要求
操作系统	Linux / macOS / Windows（支持Docker）
Docker	20.10 及以上版本
Docker Compose	2.0 及以上版本
内存	至少4GB（推荐8GB+，本地问答场景推荐16GB+）
磁盘空间	至少20GB可用空间
网络	可访问Docker镜像仓库拉取镜像（首次部署需联网）

5.2 部署步骤

方式一：一键启动（推荐）

# 1. 克隆项目代码
git clone https://github.com/Tencent/WeKnora.git
cd WeKnora

# 2. 配置环境变量
cp .env.example .env

# 3. 一键启动所有服务
./scripts/start_all.sh

方式二：Docker Compose 手动启动

# 克隆代码
git clone https://github.com/Tencent/WeKnora.git
cd WeKnora

# 配置环境变量
cp .env.example .env

# 编辑.env文件，根据实际情况修改配置
vi .env

# 启动容器集群
docker-compose up -d

5.3 关键配置参数说明

配置项	说明
`DB_DRIVER`	数据库类型选择
`STORAGE_TYPE`	存储服务配置
`OLLAMA_BASE_URL`	本地LLM服务地址（如使用Ollama）
`APP_PORT`	后端API服务端口
`FRONTEND_PORT`	前端界面访问端口
`NEO4J_ENABLE`	是否启用知识图谱功能
`EMBEDDING_MODEL`	嵌入模型选择（推荐中文场景使用`bge-large-zh-v1.5`）

5.4 验证部署

启动成功后，可通过以下地址访问服务：

服务	访问地址	说明
Web前端界面	http://localhost:80	主要操作入口
API接口	http://localhost:8080	RESTful API
监控面板（Jaeger）	http://localhost:16686	链路追踪

注册第一个账号后，即可上传文档、创建知识库并开始对话。

5.5 服务停止与清理

# 停止所有服务
docker-compose down

# 停止并删除数据卷（慎用）
docker-compose down -v

5.6 部署注意事项

安全部署建议：从v0.1.3版本开始，WeKnora提供了登录鉴权功能。在生产环境部署时，建议将服务部署在内网/私有网络环境中，避免直接暴露在公网，并配置适当的防火墙规则和访问控制-21。

模型配置建议：为了充分发挥ReACT Agent模式的复杂任务处理能力，建议为Agent配置具有较好推理能力的模型（如DeepSeek v3.1）。

六、应用指南

6.1 知识库构建

WeKnora的知识库系统不仅是简单的文档存储，更是一个智能知识加工平台。通过OCR识别、布局分析、智能分块和向量化处理，将非结构化文档转化为机器可理解的知识单元。

创建知识库的步骤：

访问Web前端界面，点击“新建知识库”
输入知识库名称，选择文档类型（文档知识库或FAQ知识库）
设置访问权限与分块策略
上传文档（支持PDF、Word、Excel、PowerPoint、图片等格式）
系统自动进行OCR识别（如需）、内容提取和分块
查看处理进度与结果预览

知识库类型：

文档知识库：适用于各类非结构化文档的深度理解与检索
FAQ知识库：专用于管理“问题-答案”对形式的结构化知识，特别适合沉淀标准操作流程、产品使用指南、政策咨询等高频查询内容

6.2 混合检索

WeKnora采用创新的混合检索策略，结合了三种检索方式的优势：

检索方式	原理	适用场景
关键词检索（BM25）	传统搜索引擎技术，快速定位相关文档	保证检索的全面性
向量检索	语义相似度匹配，深度理解内容	提升检索的准确性
知识图谱检索	通过实体关系网络关联检索	增强检索的关联性，发现隐含知识

这种混合策略确保了在不同场景下都能获得最优的检索效果。用户可根据具体需求调整检索参数：精确检索提高向量检索权重（适用于技术文档查询），广度检索增加关键词检索比例（适用于探索性研究），关联检索启用知识图谱功能（适用于复杂问题分析）。

6.3 智能问答

WeKnora的问答系统采用混合检索-生成架构，先通过多策略检索获取相关知识片段，再由大语言模型生成精准答案。

主要功能特点：

图文混合呈现：支持在问答结果中展示图表、引用来源和模型的推理过程
多轮对话：支持深入探讨话题，提供更精准的答案
答案溯源：自动标注引用来源，支持追溯答案出处

Agent模式应用：对于复杂任务，可启用Agent模式。Agent能够自主规划、拆解任务，调用知识库检索、联网搜索等工具，最终交付结构化的高质量分析报告。

6.4 知识图谱可视化

开启知识图谱功能后，WeKnora会分析并构建文档内部的语义关联网络。知识图谱不仅帮助用户理解文档内容，还为索引和检索提供结构化支撑，提升检索结果的相关性和广度。通过Neo4j数据库存储图数据，可在Web界面中直观查看文档实体间的关联关系。

6.5 API集成

WeKnora提供了一系列RESTful API，基础URL为/api/v1，可用于创建和管理知识库、检索知识，以及进行基于知识的问答-。这使得开发者能够将WeKnora无缝集成到现有的自动化工作流中，实现批量文档处理、自动化问答等企业级应用场景。

6.6 常用操作命令

操作	命令
查看服务状态	`docker-compose ps`
查看服务日志	`docker-compose logs -f [服务名]`
重启特定服务	`docker-compose restart [服务名]`
进入数据库容器	`docker-compose exec postgres psql -U $DB_USER -d $DB_NAME`

-30

七、总结

WeKnora作为一款由腾讯开源的RAG知识库框架，凭借其模块化架构、多模态文档处理能力、混合检索机制以及创新的Agent智能体架构，为企业级文档理解与智能问答提供了高效、可控、可扩展的解决方案。无论是企业内部知识管理、技术文档中心建设，还是客户服务智能化，WeKnora都能快速实现知识赋能。

项目采用MIT许可证，代码完全开放，支持本地化部署和私有云部署，数据完全自主可控，是企业构建私有知识库系统的理想选择。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

直播预约｜鸿蒙 PC AI 编译框架实战：高效搞定开源库迁移适配

AtomGit开源社区

基于《人工智能智能体互联》国标的 AIP 开源项目在 AtomGit 正式开源

AtomGit开源社区

G-Star 精选开源项目推荐｜第十九期

BuildAdmin 是一个基于 Vue 3、ThinkPHP 6、TypeScript、Vite、Pinia 和 Element Plus 的后台管理系统，面向中后台业务系统快速开发场景。项目提供可视化 CRUD 代码生成、权限管理、Web 终端、数据回收站、字段级修改保护等能力，帮助开发者减少重复后台开发工作。对于需要快速搭建管理后台、业务配置台或二开系统的团队来说，它提供了一套相对完整的工程