短视频内容量化评分Rubric(打分表)
版本:v1.0(2026-04-18)
适用场景:Qwen3-VL-8B(或同等视频理解模型)+ LLM Prompt 批量分析短视频(15-60秒为主),适用于垂直领域(如TCM护理科普、NEV汽车、新能源部件、人形机器人等)。
核心目标:将“主观优点”转化为可量化、可重复、可对比的结构化指标,便于构建RAG语料库,并与平台真实反馈(完播率、3秒留存率、点赞/评论/转发率)做因果关联分析。

使用说明(必读)

  1. 输入要求:模型需先抽帧(推荐FPS=3-5)+ 全视频ASR转录 + 前3秒/后3秒单独分析 → 一次性输出JSON格式(见文末Schema)。
  2. 评分原则:每项0-10分,采用锚点式描述(0-2/3-5/6-7/8-10),避免模型幻觉。必须同时给出“理由+证据”(引用具体秒数、文案、画面)。
  3. 权重建议(总分100分,可按垂直领域微调):
    • 脚本结构与节奏:25分
    • 文案与语言:25分
    • 内容专业性与垂直价值:20分
    • 视觉/音频生产力:15分
    • 笑点/情感钩子:10分
    • CTA与转化力:5分
  4. 与平台指标关联:每条视频分析后,额外记录平台数据,后续用统计工具计算“高分维度 vs 高完播率”的相关系数,形成“爆款特征画像”。
  5. 校验机制:每100条视频人工复核10条,调整Rubric锚点;模型一致性用Kappa系数监控(目标>0.85)。

完整Rubric打分表

维度1:脚本结构与节奏(权重25分)

(核心影响3秒留存率和完播率)

分数 描述(锚点) 可量化指标 证据要求(必须引用)
0-2 无结构、平铺直叙,观众3秒内流失 前3秒无钩子;全片节奏单一 具体秒数+文案
3-5 基本有开头-中间-结尾,但节奏平 钩子强度弱;转场<3次/30秒 秒数+转场次数
6-7 结构清晰,节奏有起伏 前3秒钩子中等;中段1-2次情绪峰值 具体峰值秒数
8-10 黄金结构(3秒吸睛+多峰值+强收尾),高完播潜力 前3秒留存预期>70%;节奏起伏≥3次;平均每10秒1次“节点” 秒数+节点类型(问题/金句/画面反转)
维度2:文案与语言(权重25分)

(口语化 vs 专业化平衡是爆款关键)

分数 描述 可量化指标 证据要求
0-2 纯书面语/教科书式,观众听不懂或无共鸣 口语化指数<30%;句长>20字占比>50% 统计句长、口语词数量
3-5 部分口语化,但专业术语生硬 口语化指数30-60%;专业词未解释 列出未解释的专业词
6-7 口语+专业平衡较好,易懂 口语化指数60-80%;每段至少1句“接地气”过渡 示例口语词+过渡句
8-10 极致口语化+精准专业(“大白话讲硬核知识”),高转发潜力 口语化指数>80%;专业词解释率100%;金句密度≥1句/15秒 金句列表+秒数

子指标(模型需单独输出):

  • 口语化指数 = (口语词+短句占比)×100%
  • 专业化指数 = (正确专业词数量 / 总专业词)×100%(错误扣分)
维度3:内容专业性与垂直价值(权重20分)

(垂直领域核心竞争力)

分数 描述 可量化指标 证据要求
0-2 泛泛而谈,无干货或错误知识 干货点<2个;出现明显错误 错误点列表
3-5 有基础知识,但深度不够 干货点2-4个;无新颖点 干货点列表
6-7 干货充足,符合垂直领域主流认知 干货点5-7个;有1个实用技巧 技巧描述
8-10 干货密度高+独家/前沿洞见,观众“学到真东西” 干货点≥8个;至少1个“平台罕见”点 罕见点说明+秒数
维度4:视觉与音频生产力(权重15分)

(Qwen3-VL最擅长提取的部分)

分数 描述 可量化指标 证据要求
0-2 画面混乱/音频差,干扰信息多 信息密度过高或过低;BGM不匹配 具体问题描述
3-5 基本清晰,特效/转场普通 转场3-5次;字幕覆盖率<70% 转场次数+字幕比例
6-7 画面干净、节奏感强,音频与画面同步 特效使用恰当;BGM情感匹配度高 匹配度说明
8-10 专业级(运镜/特效/字幕/音效)高度协同,提升留存 字幕同步率>95%;画面信息密度最优(每秒≤3个焦点) 具体运镜/音效示例
维度5:笑点/情感钩子(权重10分)

(直接驱动点赞/评论/转发)

分数 描述 可量化指标 证据要求
0-2 无笑点/情感,平淡 笑点密度=0;高赞评论无“哈哈”类 评论引用
3-5 偶尔有轻幽默 笑点密度0.2-0.5个/10秒 笑点秒数
6-7 笑点适中,引发共鸣 笑点密度0.5-1个/10秒;情感峰值≥2次 峰值秒数
8-10 高密度金句/反转/共情,评论区高赞集中 笑点密度>1个/10秒;Top50评论≥30%提及笑点 高赞评论截取
维度6:CTA与转化力(权重5分)

(结尾决定下一步行动)

分数 描述 可量化指标 证据要求
0-2 无CTA或生硬 无引导语 -
3-5 有CTA,但不突出 1次弱引导 引导语
6-7 CTA清晰且自然 1-2次强引导(“点赞收藏”“试试这个穴位”) 引导语+秒数
8-10 多重CTA+紧迫感,转化率高 ≥3次CTA+利益点驱动 利益点描述

总分计算与爆款分级

  • 总分 = 各维度加权求和(满分100)
  • 爆款等级(供RAG标签使用):
    • 85-100:S级(高概率爆款,可直接复刻核心特征)
    • 70-84:A级(值得借鉴)
    • 55-69:B级(一般)
    • <55:C级(需大幅优化)

模型输出JSON Schema(直接复制进Prompt)

{
  "video_id": "string",
  "vertical_domain": "string",
  "dimensions": {
    "script_structure": { "score": 0-10, "reason": "string", "evidence": "string" },
    "copywriting": { "score": 0-10, "oral_index": "xx%", "pro_index": "xx%", "reason": "...", "evidence": "..." },
    "content_value": { "score": 0-10, "dry_goods_count": 0, "reason": "...", "evidence": "..." },
    "visual_audio": { "score": 0-10, "reason": "...", "evidence": "..." },
    "humor_hook": { "score": 0-10, "density_per_10s": 0.0, "reason": "...", "evidence": "..." },
    "cta": { "score": 0-10, "reason": "...", "evidence": "..." }
  },
  "total_score": 0-100,
  "platform_metrics_correlation_note": "string(可选:与完播率/留存率关联分析)"
}

这个Rubric已经完全可直接嵌入Qwen3-VL Prompt中使用(我可以下一条立刻给你完整Prompt模板)。
它既保证了量化客观性,又保留了垂直领域灵活性(你可以按TCM护理再加“穴位演示清晰度”“禁忌事项提醒”等子维度)。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐