note

创意任务评测不能只看一个总分,必须分成 3 层:

  1. 硬性底线层:有没有事实错误、逻辑断裂、明显病句、跑题、违规
  2. 任务能力层:有没有完成该类任务最核心的目标
  3. 审美风格层:有没有高级感、感染力、记忆点、文学性,是否有“机器味”

一、统一评测框架

创意任务评测不能只看一个总分,必须分成 3 层:

  1. 硬性底线层:有没有事实错误、逻辑断裂、明显病句、跑题、违规
  2. 任务能力层:有没有完成该类任务最核心的目标
  3. 审美风格层:有没有高级感、感染力、记忆点、文学性,是否有“机器味”

建议所有创意任务都采用下面这套统一结构:

1)评分结构

总分 = 基础质量分(20)+ 任务核心分(60)+ 高级审美分(20)

其中:

  • 基础质量分:通顺、完整、无硬伤
  • 任务核心分:该任务最核心的能力
  • 高级审美分:风格、感染力、新鲜度、记忆点

2)评分方式

建议同时使用两种:

A. 维度打分(绝对分)

每个维度打 1~5 分或 1~10 分,再加权汇总。
适合做:

  • 模型横向对比
  • 长期看趋势
  • 分析哪个维度弱

B. 两两比较(Pairwise)

给 judge 两个候选结果,只判断:

  • A 更好 / B 更好 / 接近
  • 并说明在哪些维度更好

适合做:

  • 新旧模型 A/B
  • Prompt 策略对比
  • 偏好数据筛选

在创意任务里,pairwise 往往比绝对打分更稳定,因为审美任务很难保证绝对分尺度一致。


二、文学创作评测体系

文学创作的核心不是“信息传达”,而是语言质感 + 情绪感染 + 人物真实感 + 叙事牵引力

文学创作评测表(100分)

一级维度 二级维度 分值 评测要点 常见低分问题
基础质量 语言通顺与可读性 10 语句是否自然顺畅,无明显病句、歧义、重复 病句、堆砌形容词、句式僵硬
基础质量 结构完整性 10 是否有相对完整的段落组织、起承转合或情绪推进 东一段西一段,像拼接
核心能力 文风一致性 15 是否保持统一文风,是否符合题设(如冷峻、细腻、克制、诗性) 前后风格漂移,像多个人写的
核心能力 情绪表达与感染力 15 情绪是否自然渗透,能否引发共鸣,而非口号式表达 “他很悲伤”这类直给,缺少感染
核心能力 人物塑造 15 人物是否有辨识度、行为和语言是否一致、是否有真实感 人物像工具人,台词同质化
核心能力 叙事张力 15 是否有推进力、悬念、冲突或内在牵引,不松散不平 平铺直叙,像流水账
高级审美 语言表现力 / 意象细节 10 是否有具体细节、有效意象、节奏变化和表达层次 空泛抒情,无抓手
高级审美 新颖度 / 陌生化表达 5 是否避免陈词滥调,是否有新鲜表达 套话、鸡汤化、模板化
高级审美 文学性 / 余味 5 是否有留白、含蓄、回味感,而非“把意思说尽” 过度总结、过度升华

文学创作的扣分项 / 一票否决项

类型 建议处理
严重跑题 直接降到 60 以下
明显逻辑断裂 扣 10~20
人物行为严重不自洽 扣 5~15
AI 套话浓重(如“仿佛命运的齿轮开始转动”这类泛化句) 扣 5~10
过度解释情绪、过度总结主题 扣 5~10

文学创作更科学的评测建议

文学创作最好不要只看单条分数,建议拆成三种子集:

  • 抒情类
  • 人物片段类
  • 短篇叙事类

因为同一个模型可能很会写氛围,但不会写人物对话;或者会写短场景,不会控长叙事。
所以文学创作评测最好输出:

  • 总分
  • 文风分
  • 情绪分
  • 人物分
  • 张力分
  • 子集分布

这样更利于找问题。


三、剧情编写评测体系

剧情编写和文学创作不一样,它更偏结构工程
它看的是:设定能不能立住、冲突能不能推起来、节奏会不会崩、反转合不合理。

剧情编写评测表(100分)

一级维度 二级维度 分值 评测要点 常见低分问题
基础质量 逻辑清晰度 10 情节因果是否清楚,事件顺序是否明确 前因后果不清,跳步严重
基础质量 结构完整性 10 是否具备起始、发展、转折、收束 像提纲而不是剧情
核心能力 世界观 / 设定一致性 15 人物设定、规则、背景约束是否自洽 世界规则乱改,设定崩塌
核心能力 冲突设计 15 是否有明确冲突,冲突是否足够驱动剧情 没矛盾,剧情推不动
核心能力 节奏控制 15 信息释放是否合理,张弛是否有变化 一上来全讲完,或拖沓
核心能力 反转合理性 15 反转是否有伏笔支撑,是否意外但合理 硬拐、强行反转
核心能力 人物动机合理性 10 人物行为是否符合其目标、性格和处境 为剧情服务而行动
高级审美 戏剧张力 / 可看性 5 是否让人想继续看,是否有“钩子” 平淡无悬念
高级审美 创新性 5 设定、桥段、冲突组合是否新鲜 套路感重
高级审美 场景表现力 / 画面感 5 是否有可视化的场景和镜头感 全是概述,缺乏画面
高级审美 情绪回收 / 收束力度 5 结尾是否有效完成情绪或主题闭环 虎头蛇尾

剧情编写的关键扣分项

类型 建议处理
设定自相矛盾 扣 10~20
人物动机失真 扣 5~15
反转没有铺垫 扣 10
节奏塌陷(中段无推进) 扣 5~10
结尾收不住 / 强行上价值 扣 5~10

剧情编写更合理的专项评测

剧情类强烈建议增加两个专项指标:

1. 设定记忆一致性测试

给长上下文设定,看模型后续是否记住并遵守。
例如:

  • 角色不能说谎
  • 某世界不能出现现代科技
  • 某角色怕水却下水救人

这个维度对剧情模型很重要。

2. 伏笔-回收链路测试

评测:

  • 是否埋了伏笔
  • 伏笔是否有效触发反转
  • 回收是否自然

这比单看“反转好不好”更科学。


四、营销文案评测体系

营销文案和前两类最大的不同是:
它最终不是为了“美”,而是为了传播和转化
所以一定要把“审美”和“商业目标”分开看。

营销文案评测表(100分)

一级维度 二级维度 分值 评测要点 常见低分问题
基础质量 语言清晰度 10 是否易读易懂,表达明确,不绕 表达含混、太虚
基础质量 信息完整性 10 产品/卖点/行动指令是否讲清楚 漏核心信息
核心能力 目标受众匹配 15 语气、利益点、表达方式是否匹配目标人群 对年轻人写得像公文
核心能力 品牌调性一致性 15 是否符合品牌一贯气质和人设 品牌感弱,像 generic 文案
核心能力 核心卖点提炼 15 是否抓住真正有竞争力的利益点 说了一堆没重点
核心能力 传播性 / 可传播表达 10 是否适合被记住、转述、扩散 平庸、无传播抓手
核心能力 转化导向 10 是否有明确行动引导,能推动点击/购买/咨询 只会描述,不会转化
高级审美 记忆点 / slogan 感 5 是否有可记忆短句、钩子表达 看完就忘
高级审美 创意性 / 差异化 5 是否避免行业套话,是否有新鲜表达 千篇一律
高级审美 情绪调动能力 5 是否能激发兴趣、认同、焦虑、欲望、期待等 太冷、太平
高级审美 场景代入感 5 是否让用户想到具体使用场景 空喊卖点,无场景

营销文案的强制扣分项

类型 建议处理
虚假夸大 / 不合规表述 一票否决或直接低分
品牌调性严重跑偏 扣 10~20
没有 CTA(行动号召) 扣 5~10
卖点与目标人群错位 扣 10
套话严重(如“开启美好生活”) 扣 5~10

营销文案更科学的评测建议

营销文案最好按场景拆开评:

  • 品牌向文案
  • 效果转化文案
  • 社媒传播文案
  • 电商详情页卖点文案
  • 短视频口播文案

因为它们权重完全不同。比如:

  • 品牌广告更重调性、记忆点、情绪价值
  • 电商文案更重卖点提炼、清晰度、转化
  • 社媒文案更重钩子、节奏、传播感

所以一个更落地的做法是:

品牌向文案权重示例

  • 品牌调性一致性:25
  • 记忆点:20
  • 情绪调动:15
  • 受众匹配:15
  • 创意性:15
  • 基础质量:10

转化向文案权重示例

  • 卖点提炼:25
  • 转化导向:20
  • 受众匹配:15
  • 清晰度:15
  • 场景代入感:10
  • 传播性/记忆点:15

五、一个更实战的“评分档位说明”

只写分值还不够,真正做评测时,必须给每个维度定义分档,否则不同评审理解不一致。

建议统一用 5 档:

分数档 定义
1分 明显失败,严重不符合要求
2分 较弱,存在明显缺陷
3分 合格,完成基本要求但亮点不足
4分 较好,整体成熟,少量瑕疵
5分 优秀,明显优于一般水平,有专业质感

例如“人物塑造”维度:

分档 描述
1分 人物行为混乱,语言无辨识度
2分 有基本角色设定,但较扁平
3分 角色基本成立,有一定一致性
4分 人物鲜明,行为语言自然统一
5分 人物立体真实,有复杂性和记忆度

这一步非常重要,因为它直接影响 LLM judge prompt 和人工标注指南。


六、实际落地时用的最终评测表

下面这个是最推荐的版本:维度分 + 扣分项 + 总评项


1)文学创作最终版

维度 分值
语言通顺与可读性 10
结构完整性 10
文风一致性 15
情绪表达与感染力 15
人物塑造 15
叙事张力 15
语言表现力 / 细节意象 10
新颖度 5
文学性 / 余味 5
总分 100

附加:

  • 机器味明显:-5~-10
  • 跑题严重:-10~-30
  • 惊艳表达明显:+3~+5

2)剧情编写最终版

维度 分值
逻辑清晰度 10
结构完整性 10
世界观 / 设定一致性 15
冲突设计 15
节奏控制 15
反转合理性 15
人物动机合理性 10
戏剧张力 / 可看性 5
创新性 5
场景表现力 / 画面感 5
情绪回收 / 收束力度 5
总分 110

如果你要严格 100 分制,可以把最后三个 5 分项压缩成合计 10 分。
更推荐下面这个 100 分版:

维度 分值
逻辑清晰度 10
结构完整性 10
世界观 / 设定一致性 15
冲突设计 15
节奏控制 15
反转合理性 15
人物动机合理性 10
戏剧张力 / 可看性 5
创新性 5
场景表现力与收束力度 10
总分 100

3)营销文案最终版

维度 分值
语言清晰度 10
信息完整性 10
目标受众匹配 15
品牌调性一致性 15
核心卖点提炼 15
传播性 10
转化导向 10
记忆点 5
创意性 / 差异化 5
情绪调动能力 5
场景代入感 5
总分 105

压成 100 分制推荐版:

维度 分值
语言清晰度 10
信息完整性 10
目标受众匹配 15
品牌调性一致性 15
核心卖点提炼 15
传播性 10
转化导向 10
记忆点 5
创意性 / 差异化 5
情绪调动与场景代入 5
总分 100

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐