读AI即未来：普通人用好人工智能的18大工作场景03实施指南

躺柒

83人浏览 · 2026-05-08 07:00:00

躺柒 · 2026-05-08 07:00:00 发布

1. 伙伴

1.1. 从创作精美的视觉艺术作品、撰写引人入胜的文字内容，到开发复杂的数据模型、实现重复性流程的自动化，生成式人工智能的能力广泛且具有变革意义

1.2. 作为一种高效工具，既能提升生产力、激发创造力，更能为以往难以解决的复杂问题提供解决方案

1.3. 在软件工程领域，开发者通过“赛博格”模式，即微软所说的“副驾驶”（Copilot）模式，借助代码仓库GitHub与生成式人工智能协同工作，已显著提升了工作效率

1.3.1. 人类始终拥有最终控制权，并承担相应的责任与义务
1.3.2. 人工智能的作用是“辅助”，而非剥夺人类的自主性与控制权

1.4. 人类往往难以理解抽象概念

1.5. 不要因为出现了一项酷炫的新技术，就试图改写人类的历史与行为动机

1.6. 你的人工智能助手或许令人印象深刻，但它容易出错，有时还会为了迎合它所理解的你的期望而“说谎”

1.7. 纵观计算机发展历史不难发现，最成功的新兴技术往往很快就会被赋予人类特征

2. 实施指南

2.1. 五项原则

2.1.1. 明确你要解决的具体问题
2.1.2. 清楚“良好”乃至“更优”的标准究竟是什么
- 2.1.2.1. 解决问题的目标不应是追求完美，而应是显著改善现状
- 2.1.2.2. 至少要比现有做法好得多，或者足以证明实施变革所投入的成本是值得的
2.1.3. 清晰认识生成式人工智能能提供哪些帮助，以及它可能存在的局限性
- 2.1.3.1. 需要在探索人工智能方案时保持好奇、严谨的态度，并秉持审慎怀疑的态度
2.1.4. 始终以负责任、合法且符合伦理的方式行事
2.1.5. 保持掌控权
- 2.1.5.1. 绝不能将产品或服务的控制权让渡给人工智能

2.2. 以原则为导向的技术应用方法之所以有用，是因为所有人都能理解

2.2.1. 优秀的技术变革本质上应是跨学科的

2.3. 并非只有数据科学家才需要了解正在发生的事情

2.3.1. 应努力让组织中的每个人都明白正在使用哪些人工智能、如何使用，以及用于何种目的

2.4. 一款基于文本的大语言模型，与一款专注于视频内容的扩散模型似乎截然不同，理应采用不同的实施规则

2.4.1. 以原则为导向的方法之所以有效，正是因为它刻意采用了高层级、宽范围的设定

3. 评估

3.1. 评估人工智能模型是最困难的事情之一

3.2. 指标

3.2.1. 困惑度
- 3.2.1.1. 困惑度指的是模型在预测下一个词元（通常是一段文本或图像）时的不确定程度
- 3.2.1.2. 困惑度越低，表明模型在生成有用序列方面的性能越好
- 3.2.1.3. 困惑度越高，模型输出的连贯性、恰当性就越差
3.2.2. 双语对照分数
- 3.2.2.1. Bilingual Evaluation Understudy, BLEU
- 3.2.2.2. BLEU是一种用于衡量机器生成的文本与参考文本之间相似度的评估指标，广泛应用于机器翻译和文本摘要领域，以评估生成内容的质量
- 3.2.2.3. 该指标在语言翻译任务中尤为常用
3.2.3. 摘要重现关键内容分数
- 3.2.3.1. Recall-Oriented Understudy for Gisting Evaluation, ROUGE
- 3.2.3.2. ROUGE基于N-gram、最长公共子序列和词语对，评估生成文本与参考文本之间的重合度
- 3.2.3.3. 和BLEU一样，它也常用于摘要任务评估
- 3.2.3.4. ROUGE分数越高，表明摘要性能越好
3.2.4. 弗雷歇起始距离
- 3.2.4.1. Fréchet Inception Distance, FID
- 3.2.4.2. FID用于衡量生成图像与真实图像的特征向量分布之间的距离
- 3.2.4.3. FID值越低，表明生成图像与真实图像之间的相似度越高
- 3.2.4.4. 该技术在评估图像生成模型时尤为有用
3.2.5. 人工评估
- 3.2.5.1. 由人类评估员对生成内容的质量、连贯性、创造性和真实性进行的主观评估
3.2.6. 多样性指标
- 3.2.6.1. 用于衡量模型输出的多样性和独特性
- 3.2.6.2. 多样性指标有助于确保模型不会生成重复或过于相似的输出，这一点对创意类任务而言至关重要
- 3.2.6.3. 在故事生成领域，若模型在给定相同提示时，能生成多个情节和角色各异的故事，那么它在多样性上的得分就会很高
- 3.2.6.4. 如果生成的故事极为相似，其多样性得分就会很低
3.2.7. 对抗准确率
- 3.2.7.1. 用于衡量模型抵御“恶意输入”的鲁棒性，这类输入的目的是欺骗或混淆模型
- 3.2.7.2. 在实际应用中评估模型的安全性和可靠性时，这是一项重要测试
- 3.2.7.3. 一个鲁棒性强的模型则会正确地续写“垫子上”，无视那些有意或无意混淆它的干扰信息
3.2.8. 推理速度与计算效率
- 3.2.8.1. 用于衡量输出所需的时间和计算资源
- 3.2.8.2. 对于估算模型可能产生的运营成本而言必不可少
- 3.2.8.3. 在语音助手等实时应用场景中，能在一秒内生成响应的模型被认为是高效的
- 3.2.8.4. 如果模型生成响应需要几秒钟或消耗大量计算能力，那可能就不适合时间敏感的场景

3.3. 模型能力测评

3.3.1. 指标有助于理解模型的单项性能，但测评可以帮助企业理解模型在其业务场景中的实际表现
3.3.2. 图像生成
- 3.3.2.1. 2023年，斯坦福大学的研究人员开发了文本到图像模型的整体评估体系测评—HEIM（Holistic Evaluation of Text-to-Image Models）
3.3.2.1.1. 从12个维度（以及上百个指标）评估DALL·E和Stable Diffusion等模型

3.3.2.1.2. 图像—文本对齐

3.3.2.1.3. 图像质量

3.3.2.1.4. 美学

3.3.2.1.5. 原创性

3.3.2.1.6. 推理能力

3.3.2.1.7. 知识

3.3.2.1.8. 偏见

3.3.2.1.9. 毒性

3.3.2.1.10. 公平性

3.3.2.1.11. 鲁棒性

3.3.2.1.12. 多语言能力

3.3.2.1.13. 效率
3.3.3. 代码生成
- 3.3.3.1. 作为人工智能领域已被“充分验证”的成功用例，如今几乎所有软件工程师都在使用大语言模型
- 3.3.3.2. HumanEval

3.3.3.2.1. 由OpenAI的研究人员开发的一个测评方案，专门用于评估语言模型的代码生成能力

3.3.4. 代理行为
- 3.3.4.1. 人工智能代理构建在基础模型之上，旨在依托自然语言理解与生成能力来完成特定任务
- 3.3.4.2. 这些任务对应的应用形式通常包括聊天机器人、虚拟助手、内容生成器、编码助手或研究助手
- 3.3.4.3. 代理常用的测评工具是AgentBench，该工具于2023年开发，曾在8种不同场景中评估了超过25个大语言模型代理的准确性
3.3.5. 真实性与准确性
- 3.3.5.1. TruthfulQA是一项针对大语言模型的测评，涵盖38个领域，基于800多个问题构建
3.3.6. 通用推理能力
- 3.3.6.1. 人工智能模型最令人印象深刻的进展之一，便是“通用推理能力”的拓展
- 3.3.6.2. “专家级人工智能的大规模多学科多模态理解与推理测评”（Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI,MMMU）