2026山东大学项目实训个人工作记录（一）

2301_80218503 · 2026-04-08 21:52:34 发布

作者： 李丞 (AI模块开发)
时间： 2026年04月08日
项目阶段： 需求与设计阶段

作为MemeMind项目的核心大脑，AI模块承担着从海量噪音中识别“金子”（热梗）并将其转化为结构化知识的重任。根据项目任务书要求，本模块需实现热梗的自动发现、候选词筛选、百科内容生成及合规性初筛。本报告旨在对AI模块进行详细的需求拆解与性能分析，确保后续开发工作的顺利进行。

根据任务书指标，AI模块的需求主要分为三个子系统：热梗挖掘子系统、内容生成子系统和质量安审子系统。

2.1 热梗挖掘子系统

输入源： 每日不低于100GB的原始文本数据（来自微博、B站、贴吧等）。
核心任务： 在海量文本中识别出“新词”或“异常高频词”。
筛选逻辑：
- 新颖性检测： 需建立词库基线，识别出近期爆发（单日提及量增长>500%）的新词。
- 置信度评分： 对候选词进行打分，输出每日20-50个高置信度候选。
- 准确率目标： 人工抽样准确率不低于60%。

2.2 内容生成子系统 (LLM Pipeline)

2.3 质量安审子系统

为了满足项目验收标准，AI模块必须在以下性能维度上进行严格把控：

指标维度	具体目标值	技术挑战与策略
吞吐量 (Throughput)	每日处理 100GB+ 原始文本	需采用流式处理或分布式计算框架（如Spark/Flink）进行预处理，避免单机瓶颈。
生成效率	单次生成任务 < 10秒	需优化Prompt工程，选择响应速度快的模型（如Qwen-Plus/Turbo），并设计重试机制。
经济成本	单词条成本 < 0.05元	必须监控Token消耗，采用“先小模型筛选，后大模型生成”的策略，避免无效调用。
准确率	候选词准确率 >60%	需结合规则（TF-IDF, TextRank）与轻量级AI模型（如BERT微调）进行初筛，减少LLM压力。
成功率	生成任务成功率 >95%	需设计完善的错误处理（Error Handling）和Fallback机制（如切换模型或重试）。

基于上述需求，我初步规划了以下技术栈：

数据预处理层：
- 工具： Python (Jieba, HanLP) 进行中文分词。
- 算法： 基于统计的突发词检测算法（如HOT SAX）或基于预训练模型的文本相似度计算（Sentence-BERT），用于从100GB数据中快速去重和聚类，筛选出异常词。
大模型应用层 (LLM Ops)：
- 模型选择： 考虑到中文语境和成本，首选 通义千问 (Qwen) 系列模型（如Qwen-Max或Qwen-Turbo），因为其对网络用语理解较好且性价比高。
- Prompt Engineering： 必须设计包含“思维链 (CoT)”的提示词，引导模型先思考梗的来源，再生成释义，最后举例。
后处理与安审层：
- 规则引擎： 使用正则表达式匹配敏感词。
- 事实校验： 调用搜索引擎API或知识图谱接口进行简单的事实核对（如“该梗是否在某时间点前已存在”）。

风险一：LLM产生幻觉（一本正经胡说八道）
- 应对： 在Prompt中强调“不确定时请回答未知”，并引入RAG（检索增强生成）技术，先检索全网资料再生成答案。
风险二：网络热梗更新极快，模型知识滞后
- 应对： 不依赖模型的预训练知识，而是将模型作为“文本生成器”，所有事实依据均来自实时抓取的原始数据。
风险三：Token成本超支
- 应对： 设置Token上限，对输入文本进行摘要处理，只保留关键上下文给LLM。