【论文阅读】KnowPath: An LLM-Supported Knowledge Graph Construction and Path Finding Framework to Explaina
【论文阅读】KnowPath: An LLM-Supported Knowledge Graph Construction and Path Finding Framework to Explainable MOOC Recommendations 一个支持LLM的知识图谱构建与路径寻找框架,支持可解释的mooc推荐
摘要
现有问题:慕课资源的普及需要高级课程推荐系统,现有系统难以提供可解释性推荐
KnowPath是一种面向慕课的新型阅读系统,能够生成可解释的有效推荐。利用LLM构建知识图谱,捕捉实体之间的复杂关系,用强化学习与学习者的偏好对齐。
引言
现有方法的局限性:
1.知识图谱构建依赖专家标注,价格昂贵且复杂,需要专家深度参与,费时费力
2.强化学习的奖励模型,奖励维度单一。同名课程可能差别巨大,奖励模型必须多维,才能根据学习者需求调整推荐。
本文提出:
- LLM构建知识图谱,减少对专家的依赖
- 多目标奖励模型,考虑课程推荐准确性,学习内容的有用性,正确性和简洁性
- 路径可解释性,强化学习+知识图谱探索路径,为推荐提供明确理由
方法

基于学习者的知识图谱构建
1.从源数据到文本切块
(提高处理效率,信息准确性,适应大模型输入限制)
800 tokens
TextTiling+LDA结合,动态调整文本块大小,提高鲁棒性,适应不同领域的词汇和结构
2.从文本切块到元素实例
(LLM提取实体与关系,并将提取数据作为元素实例构建知识图谱)
实体类型:learners,schools,courses,categories,teachers,concepts多阶段提取
关系提取,不同实体之间的关系类型,“学生注册课程”“老师教授课程”
enrolled:“学习者”注册“课程”
teaches:“讲师”教授“课程”
has_concept:“课程”包含“概念”
belongs_to:“课程”属于“类别”
provides:“学校”提供“课程”
区别于传统知识图谱只建模知识点之间的关系,慕课推荐考虑的实体与关系更多
以元组形式输出(实体,关系,实体)
3.从元素实例到元素摘要
(利用LLM识别实体的隐含关系,增强知识图谱表达力)
LLM生成摘要,对关系进一步细化和整合,能提炼出更有用的隐含信息;同时生成摘要,能统一和对齐相关表述
KnowPath知识图谱:每个三元组都有短摘要关联,表达能力更丰富
通过强化学习实现基于路径的知识图谱增强推荐
RLHF符合人类偏好的可解释推荐,采用多阶段方法保证RM可解释性
1.多目标奖励模型的设计和训练
多维度数据----奖励(帮助性,正确性),惩罚(冗长)
将多目标RM与基于KG的嵌入方式结合,捕捉复杂的实体关系,优化推荐流程
2.混合专家策略的实施
门控网络,根据关键信息动态调整奖励目标
RL Agent 利用路径引导推荐课程
3.调整冗长偏见和优化奖励目标
惩罚+门槛网络 解决冗长偏误
把 prompt x 和 response y 输入 LLM 做特征提取,经过回归层输出5维评分。训练阶段对照人工标注计算损失、更新参数,训练出自动打分的奖励模型。与此同时,MoE门控网络读取 prompt x 的语义特征和 KG 嵌入,动态计算各维度权重 α,最终将5维分数加权合并成标量 Rscore,送给 RL 智能体指导寻路。

奖励公式=推荐要有用(任务奖励)、路要走得合理(合法性)、要越走越接近学员真正需要的课(相似度)

奖励模型评估候选课程对学员的质量,输出多维分数 r′r’
r′,同时门控网络读取学员请求的特征,动态决定各维度的权重 α,两者合并得到标量R。训练阶段R作为信号不断调整RL智能体的策略参数,让智能体学会在KG上优先走"对这个学员有意义"的边。训练完成后,智能体按学好的策略在KG上寻路,走出一条完整路径,最后生成推荐课程和解释。
引入冗长性惩罚,让奖励目标与与冗长性目标相关性为0,不会路径越长奖励越高
讨论Discussion
KnowPath创新点
(1)同名课程,内容差异大:KnowPath使用LLM生成简短摘要,能区分同名课程的不同内容。知识图谱中,有对课程的多维度描述,能区分课程。课程与概念之间的关系,课程与老师学校之间的关系也能区分。
(2)强化学习缺乏透明性:多维度奖励模型,从正确性,帮助性,冗长性多个维度定义推荐的有效性。为每条推荐路径提供清晰的理由。
(3)MoE混合专家策略,计算知识图谱中的异质路径,推荐一个课程、学习材料、教师等的异质序列,这些元素的推荐可以被解释为复杂的推荐路径。
本文的学习者建模
1.慕课平台的历史学习记录,已注册课程,历史搜索记录
2.学习者的学习反馈,课程评价
知识图谱中,学习者与其他实体间的互动隐式反映学习者的兴趣与学习轨迹
实验
Q1:KnowPath能否提供准确的推荐?KnowPath与其他竞争对手相比如何?
Q2:KnowPath的推荐能让人看懂吗?
路径即解释
79%:学过这门课的同学,还选了另一门课
11%:教过这门课的老师,还教了另外一门课
6%:这门课的所属类别下,还有其他课

长度为5时,Know Path一共发现21种路径模式,但是最主要的4种占比94%
Q3:KnowPath的解释够精简吗?去掉重要特征后推荐会变差吗?
Fidelity忠诚度:解释重要特征对推荐结果的重要性
(删去一定比例的重要节点,预测概率变化大,说明重要特征对推荐结果影响很大)
Sparsity稀疏度:解释用了多少特征,特征越少越精简
(只用极少数几种路径模式能覆盖绝大多数推荐)(高频模式)
结论
贡献:
1.LLM+RL+KG准确可解释的课程推荐
2.路径长度5是最优选择——准确率最高、计算成本可接受、解释够短不会让用户看不懂
3.路径可解释性
未来工作:
针对学员提问,首先进行匹配工作,再去KG中搜索
(把请求文本转换成图结构,再去知识图谱中寻找相似子图)
个人想法
Q&A
RL智能体在知识图谱上寻找路径时,是不是每次都选择得分高的路径
训练阶段,按概率探索,随机尝试,每走完一条路径收到Rscore,用PPO算法更新策略参数,提高好的路径下次被选中的概率
推理阶段,按照策略选择概率最高的边
多目标奖励模型的训练
特征提取:prompt X和response Y拼接后输入LLM,把文本转换成数字向量,便于处理计算
回归层:利用权重矩阵,将高维向量映射为五个维度分数
损失函数:比较预测分数与人工标注,反向更新传播参数
路径长度的含义
路径长度就是智能体在知识图谱上走了几步,路径越长,推荐理由越丰富
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)