短视频内容量化评分Rubric(打分表)
·
短视频内容量化评分Rubric(打分表)
版本:v1.0(2026-04-18)
适用场景:Qwen3-VL-8B(或同等视频理解模型)+ LLM Prompt 批量分析短视频(15-60秒为主),适用于垂直领域(如TCM护理科普、NEV汽车、新能源部件、人形机器人等)。
核心目标:将“主观优点”转化为可量化、可重复、可对比的结构化指标,便于构建RAG语料库,并与平台真实反馈(完播率、3秒留存率、点赞/评论/转发率)做因果关联分析。
使用说明(必读)
- 输入要求:模型需先抽帧(推荐FPS=3-5)+ 全视频ASR转录 + 前3秒/后3秒单独分析 → 一次性输出JSON格式(见文末Schema)。
- 评分原则:每项0-10分,采用锚点式描述(0-2/3-5/6-7/8-10),避免模型幻觉。必须同时给出“理由+证据”(引用具体秒数、文案、画面)。
- 权重建议(总分100分,可按垂直领域微调):
- 脚本结构与节奏:25分
- 文案与语言:25分
- 内容专业性与垂直价值:20分
- 视觉/音频生产力:15分
- 笑点/情感钩子:10分
- CTA与转化力:5分
- 与平台指标关联:每条视频分析后,额外记录平台数据,后续用统计工具计算“高分维度 vs 高完播率”的相关系数,形成“爆款特征画像”。
- 校验机制:每100条视频人工复核10条,调整Rubric锚点;模型一致性用Kappa系数监控(目标>0.85)。
完整Rubric打分表
维度1:脚本结构与节奏(权重25分)
(核心影响3秒留存率和完播率)
| 分数 | 描述(锚点) | 可量化指标 | 证据要求(必须引用) |
|---|---|---|---|
| 0-2 | 无结构、平铺直叙,观众3秒内流失 | 前3秒无钩子;全片节奏单一 | 具体秒数+文案 |
| 3-5 | 基本有开头-中间-结尾,但节奏平 | 钩子强度弱;转场<3次/30秒 | 秒数+转场次数 |
| 6-7 | 结构清晰,节奏有起伏 | 前3秒钩子中等;中段1-2次情绪峰值 | 具体峰值秒数 |
| 8-10 | 黄金结构(3秒吸睛+多峰值+强收尾),高完播潜力 | 前3秒留存预期>70%;节奏起伏≥3次;平均每10秒1次“节点” | 秒数+节点类型(问题/金句/画面反转) |
维度2:文案与语言(权重25分)
(口语化 vs 专业化平衡是爆款关键)
| 分数 | 描述 | 可量化指标 | 证据要求 |
|---|---|---|---|
| 0-2 | 纯书面语/教科书式,观众听不懂或无共鸣 | 口语化指数<30%;句长>20字占比>50% | 统计句长、口语词数量 |
| 3-5 | 部分口语化,但专业术语生硬 | 口语化指数30-60%;专业词未解释 | 列出未解释的专业词 |
| 6-7 | 口语+专业平衡较好,易懂 | 口语化指数60-80%;每段至少1句“接地气”过渡 | 示例口语词+过渡句 |
| 8-10 | 极致口语化+精准专业(“大白话讲硬核知识”),高转发潜力 | 口语化指数>80%;专业词解释率100%;金句密度≥1句/15秒 | 金句列表+秒数 |
子指标(模型需单独输出):
- 口语化指数 = (口语词+短句占比)×100%
- 专业化指数 = (正确专业词数量 / 总专业词)×100%(错误扣分)
维度3:内容专业性与垂直价值(权重20分)
(垂直领域核心竞争力)
| 分数 | 描述 | 可量化指标 | 证据要求 |
|---|---|---|---|
| 0-2 | 泛泛而谈,无干货或错误知识 | 干货点<2个;出现明显错误 | 错误点列表 |
| 3-5 | 有基础知识,但深度不够 | 干货点2-4个;无新颖点 | 干货点列表 |
| 6-7 | 干货充足,符合垂直领域主流认知 | 干货点5-7个;有1个实用技巧 | 技巧描述 |
| 8-10 | 干货密度高+独家/前沿洞见,观众“学到真东西” | 干货点≥8个;至少1个“平台罕见”点 | 罕见点说明+秒数 |
维度4:视觉与音频生产力(权重15分)
(Qwen3-VL最擅长提取的部分)
| 分数 | 描述 | 可量化指标 | 证据要求 |
|---|---|---|---|
| 0-2 | 画面混乱/音频差,干扰信息多 | 信息密度过高或过低;BGM不匹配 | 具体问题描述 |
| 3-5 | 基本清晰,特效/转场普通 | 转场3-5次;字幕覆盖率<70% | 转场次数+字幕比例 |
| 6-7 | 画面干净、节奏感强,音频与画面同步 | 特效使用恰当;BGM情感匹配度高 | 匹配度说明 |
| 8-10 | 专业级(运镜/特效/字幕/音效)高度协同,提升留存 | 字幕同步率>95%;画面信息密度最优(每秒≤3个焦点) | 具体运镜/音效示例 |
维度5:笑点/情感钩子(权重10分)
(直接驱动点赞/评论/转发)
| 分数 | 描述 | 可量化指标 | 证据要求 |
|---|---|---|---|
| 0-2 | 无笑点/情感,平淡 | 笑点密度=0;高赞评论无“哈哈”类 | 评论引用 |
| 3-5 | 偶尔有轻幽默 | 笑点密度0.2-0.5个/10秒 | 笑点秒数 |
| 6-7 | 笑点适中,引发共鸣 | 笑点密度0.5-1个/10秒;情感峰值≥2次 | 峰值秒数 |
| 8-10 | 高密度金句/反转/共情,评论区高赞集中 | 笑点密度>1个/10秒;Top50评论≥30%提及笑点 | 高赞评论截取 |
维度6:CTA与转化力(权重5分)
(结尾决定下一步行动)
| 分数 | 描述 | 可量化指标 | 证据要求 |
|---|---|---|---|
| 0-2 | 无CTA或生硬 | 无引导语 | - |
| 3-5 | 有CTA,但不突出 | 1次弱引导 | 引导语 |
| 6-7 | CTA清晰且自然 | 1-2次强引导(“点赞收藏”“试试这个穴位”) | 引导语+秒数 |
| 8-10 | 多重CTA+紧迫感,转化率高 | ≥3次CTA+利益点驱动 | 利益点描述 |
总分计算与爆款分级
- 总分 = 各维度加权求和(满分100)
- 爆款等级(供RAG标签使用):
- 85-100:S级(高概率爆款,可直接复刻核心特征)
- 70-84:A级(值得借鉴)
- 55-69:B级(一般)
- <55:C级(需大幅优化)
模型输出JSON Schema(直接复制进Prompt)
{
"video_id": "string",
"vertical_domain": "string",
"dimensions": {
"script_structure": { "score": 0-10, "reason": "string", "evidence": "string" },
"copywriting": { "score": 0-10, "oral_index": "xx%", "pro_index": "xx%", "reason": "...", "evidence": "..." },
"content_value": { "score": 0-10, "dry_goods_count": 0, "reason": "...", "evidence": "..." },
"visual_audio": { "score": 0-10, "reason": "...", "evidence": "..." },
"humor_hook": { "score": 0-10, "density_per_10s": 0.0, "reason": "...", "evidence": "..." },
"cta": { "score": 0-10, "reason": "...", "evidence": "..." }
},
"total_score": 0-100,
"platform_metrics_correlation_note": "string(可选:与完播率/留存率关联分析)"
}
这个Rubric已经完全可直接嵌入Qwen3-VL Prompt中使用(我可以下一条立刻给你完整Prompt模板)。
它既保证了量化客观性,又保留了垂直领域灵活性(你可以按TCM护理再加“穴位演示清晰度”“禁忌事项提醒”等子维度)。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)