【论文阅读】KnowPath: An LLM-Supported Knowledge Graph Construction and Path Finding Framework to Explaina

0X218

374人浏览 · 2026-05-04 19:27:01

0X218 · 2026-05-04 19:27:01 发布

【论文阅读】KnowPath: An LLM-Supported Knowledge Graph Construction and Path Finding Framework to Explainable MOOC Recommendations 一个支持LLM的知识图谱构建与路径寻找框架，支持可解释的mooc推荐

摘要

现有问题：慕课资源的普及需要高级课程推荐系统，现有系统难以提供可解释性推荐
KnowPath是一种面向慕课的新型阅读系统，能够生成可解释的有效推荐。利用LLM构建知识图谱，捕捉实体之间的复杂关系，用强化学习与学习者的偏好对齐。

引言

现有方法的局限性：
1.知识图谱构建依赖专家标注，价格昂贵且复杂，需要专家深度参与，费时费力
2.强化学习的奖励模型，奖励维度单一。同名课程可能差别巨大，奖励模型必须多维，才能根据学习者需求调整推荐。

本文提出：

LLM构建知识图谱，减少对专家的依赖
多目标奖励模型，考虑课程推荐准确性，学习内容的有用性，正确性和简洁性
路径可解释性，强化学习+知识图谱探索路径，为推荐提供明确理由

方法

在这里插入图片描述

基于学习者的知识图谱构建
1.从源数据到文本切块
（提高处理效率，信息准确性，适应大模型输入限制）
800 tokens
TextTiling+LDA结合，动态调整文本块大小，提高鲁棒性，适应不同领域的词汇和结构

2.从文本切块到元素实例
（LLM提取实体与关系，并将提取数据作为元素实例构建知识图谱）
实体类型：learners，schools，courses，categories，teachers，concepts多阶段提取
关系提取，不同实体之间的关系类型，“学生注册课程”“老师教授课程”
enrolled：“学习者”注册“课程”
teaches：“讲师”教授“课程”
has_concept：“课程”包含“概念”
belongs_to：“课程”属于“类别”
provides：“学校”提供“课程”
区别于传统知识图谱只建模知识点之间的关系，慕课推荐考虑的实体与关系更多
以元组形式输出（实体，关系，实体）

3.从元素实例到元素摘要
（利用LLM识别实体的隐含关系，增强知识图谱表达力）
LLM生成摘要，对关系进一步细化和整合，能提炼出更有用的隐含信息；同时生成摘要，能统一和对齐相关表述
KnowPath知识图谱：每个三元组都有短摘要关联，表达能力更丰富

通过强化学习实现基于路径的知识图谱增强推荐
RLHF符合人类偏好的可解释推荐，采用多阶段方法保证RM可解释性
1.多目标奖励模型的设计和训练
多维度数据----奖励（帮助性，正确性），惩罚（冗长）
将多目标RM与基于KG的嵌入方式结合，捕捉复杂的实体关系，优化推荐流程
2.混合专家策略的实施
门控网络，根据关键信息动态调整奖励目标
RL Agent 利用路径引导推荐课程
3.调整冗长偏见和优化奖励目标
惩罚+门槛网络解决冗长偏误
在这里插入图片描述

把 prompt x 和 response y 输入 LLM 做特征提取，经过回归层输出5维评分。训练阶段对照人工标注计算损失、更新参数，训练出自动打分的奖励模型。与此同时，MoE门控网络读取 prompt x 的语义特征和 KG 嵌入，动态计算各维度权重 α，最终将5维分数加权合并成标量 Rscore，送给 RL 智能体指导寻路。

在这里插入图片描述
奖励公式=推荐要有用（任务奖励）、路要走得合理（合法性）、要越走越接近学员真正需要的课（相似度）

在这里插入图片描述
奖励模型评估候选课程对学员的质量，输出多维分数 r′r’
r′，同时门控网络读取学员请求的特征，动态决定各维度的权重 α，两者合并得到标量R。训练阶段R作为信号不断调整RL智能体的策略参数，让智能体学会在KG上优先走"对这个学员有意义"的边。训练完成后，智能体按学好的策略在KG上寻路，走出一条完整路径，最后生成推荐课程和解释。

引入冗长性惩罚，让奖励目标与与冗长性目标相关性为0，不会路径越长奖励越高

讨论Discussion
KnowPath创新点
（1）同名课程，内容差异大：KnowPath使用LLM生成简短摘要，能区分同名课程的不同内容。知识图谱中，有对课程的多维度描述，能区分课程。课程与概念之间的关系，课程与老师学校之间的关系也能区分。
（2）强化学习缺乏透明性：多维度奖励模型，从正确性，帮助性，冗长性多个维度定义推荐的有效性。为每条推荐路径提供清晰的理由。
（3）MoE混合专家策略，计算知识图谱中的异质路径，推荐一个课程、学习材料、教师等的异质序列，这些元素的推荐可以被解释为复杂的推荐路径。

本文的学习者建模
1.慕课平台的历史学习记录，已注册课程，历史搜索记录
2.学习者的学习反馈，课程评价
知识图谱中，学习者与其他实体间的互动隐式反映学习者的兴趣与学习轨迹

实验

Q1：KnowPath能否提供准确的推荐？KnowPath与其他竞争对手相比如何？
在这里插入图片描述

Q2：KnowPath的推荐能让人看懂吗？
路径即解释
在这里插入图片描述
79%：学过这门课的同学，还选了另一门课
11%：教过这门课的老师，还教了另外一门课
6%：这门课的所属类别下，还有其他课

长度为5时，Know Path一共发现21种路径模式，但是最主要的4种占比94%
Q3：KnowPath的解释够精简吗？去掉重要特征后推荐会变差吗？
Fidelity忠诚度：解释重要特征对推荐结果的重要性
（删去一定比例的重要节点，预测概率变化大，说明重要特征对推荐结果影响很大）
Sparsity稀疏度：解释用了多少特征，特征越少越精简
（只用极少数几种路径模式能覆盖绝大多数推荐）（高频模式）

结论

贡献：
1.LLM+RL+KG准确可解释的课程推荐
2.路径长度5是最优选择——准确率最高、计算成本可接受、解释够短不会让用户看不懂
3.路径可解释性

未来工作：
针对学员提问，首先进行匹配工作，再去KG中搜索
（把请求文本转换成图结构，再去知识图谱中寻找相似子图）

个人想法

Q&A
RL智能体在知识图谱上寻找路径时，是不是每次都选择得分高的路径
训练阶段，按概率探索，随机尝试，每走完一条路径收到Rscore，用PPO算法更新策略参数，提高好的路径下次被选中的概率
推理阶段，按照策略选择概率最高的边

多目标奖励模型的训练
特征提取：prompt X和response Y拼接后输入LLM，把文本转换成数字向量，便于处理计算
回归层：利用权重矩阵，将高维向量映射为五个维度分数
损失函数：比较预测分数与人工标注，反向更新传播参数

路径长度的含义
路径长度就是智能体在知识图谱上走了几步，路径越长，推荐理由越丰富

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

深度解析：企业如何通过 AI Agent Harness Engineering 提升利润率与人效倍数

2024年以来，AI Agent已经从技术概念变成企业降本增效的核心抓手，但Gartner最新数据显示：82%的企业AI Agent项目停留在POC阶段，仅13%的企业真正从AI Agent落地中获得了超过预期的利润率提升。核心痛点在于企业普遍缺乏对AI Agent的统一治理、编排、度量和安全管控能力，零散的Agent应用不仅无法形成合力，还会带来幻觉风险、数据泄露、重复建设等额外成本。

AtomGit开源社区

我用Trae在7天内做了一个外卖调度AI Agent

我用Trae在7天内做了一个外卖调度AI Agent美团校园AI Hackathon 2026 · 赛道四（配送分配优化）参赛项目复盘关键词：多智能体架构 · 自适应进化 · LLM熔断器 · Spec驱动开发 · 10秒硬时限

AtomGit开源社区

知识库问答的置信度评估

系统基于给定知识库内容生成的回答，与知识库事实匹配、符合用户真实意图、准确可用的概率，取值范围为0到1，得分越高代表回答越可信。和普通LLM生成置信度的核心区别是：KBQA的置信度有明确的「事实基准」——也就是给定的知识库内容，而不是依赖大模型本身的参数知识，所以评估结果的客观性和可解释性要强得多。我是资深AI工程师，专注于大模型落地、KBQA系统搭建，曾主导多个金融、政务领域的KBQA项目落地，