吴恩达课程笔记：AI Prompting for Everyone

ChenChen_913

775人浏览 · 2026-05-08 14:47:46

ChenChen_913 · 2026-05-08 14:47:46 发布

课程名称： AI Prompting for Everyone

课程地址： https://www.deeplearning.ai/courses/ai-prompting-for-everyone/

授课老师： 吴恩达（Andrew Ng）

上线时间： 2026 年 5 月

课程时长： 3 小时 4 分钟

适用人群： 纯小白或者想系统回顾 AI 提示词用法的人

更好阅读体验见飞书： https://zcnvxfsiud9i.feishu.cn/docx/C0J0dMpozo0eMVxaLuSckLtunGh

课件获取： 见上面飞书地址中

Module 1: Finding Information（信息检索与获取）

1.1 The AI novice and the AI power user（初学者与高阶用户）

我们可以从 AI 新手和 AI 高阶用户这两个视角来区分，看看会使用 AI 和不会使用 AI 会产生什么不同的效果。

询问有难度的问题

AI 初学者：

他们倾向于向 AI 询问一些简单的问题，例如：“塔可钟现在还有双层塔可饼吗？”

AI 高阶用户：

他们会给 AI 布置更具挑战性的任务，引导 AI 进行深度思考。

例如，当我想买车时，我会将几款目标车型的具体信息（如空间尺寸、性能参数、保险费用等）提供给 AI，然后要求它基于这些信息为我提供选购建议。AI 经过分析后，会生成一份详细的报告。

提供正确的上下文

AI 初学者：

他们倾向于使用简短的提示词，或者期望 AI 能填补自己未提供的信息。虽然 AI 很聪明，但如果它对你的问题缺乏足够的了解（即缺少足够的上下文信息），那么它只能给出一些非常笼统的回答。

例如，我直接让 AI 为我写一份自我评估，然后提交给老板。

但 AI 并不知道我这一年具体做了什么，由于没有提供具体信息，它只能生成一份非常笼统的评估报告。

AI 高级用户：

他们对 AI 有同理心，但不会过度拟人化。他们会站在 AI 的角度思考，问自己：AI 是否真的足够了解我？

因此，他们会给 AI 上传大量信息，可能是一张项目跟踪图的截图、最近的项目文档，或是语音备忘录中关于项目的笔记。然后，他们会让 AI 基于这些上传的信息，撰写一份自我评估，再提交给老板。

得到最真实的反馈

AI 初学者：

如果我向 AI 提出一个带有偏见的问题，那么得到的答案也会带有偏见，因为 AI 会试图输出我想听的话。

例如，我可能会这样问：“我有一个很棒的商业点子，请评价一下它。”

由于我在问题中已经声明这是一个“很棒”的点子，并且这是我的点子，AI 为了取悦我，就会给出迎合我的回答。

AI 可能会说：“这个点子太棒了！”，这种现象被称为“谄媚（sycophancy）”。

AI 高级用户：

我会倾向于提出中立的问题，不给 AI 任何关于我希望或不希望得到什么答案的暗示。

或者，我会给 AI 设定一些规则和评分标准，告诉它如何生成最终答案，使其更客观。

例如，我会让 AI 评价我的某个商业点子，要求它进行客观评价，不要编造事实，并使用我提供的评分标准和规则，比如从市场前景、潜在问题、竞争优势等方面进行评价。

这样，AI 就会给出更客观的答案。比如，它可能认为这个点子只能得 50 分或 60 分，并解释为什么分数这么低。

利用 AI 写作

AI 初学者：

我会给 AI 一些很简短的提示，比如直接让它写一篇关于 BlackBerry 的博客。然后 AI 会生成一大段文字，但这些文字看起来往往像一些垃圾内容。

AI 高级用户：

我不会直接让 AI 动手写作。我会先让它为文章拟定大纲，然后对大纲进行评审，并经过多次迭代来塑造文章。完成这些步骤后，再让 AI 起草文章。

或者，我会上传一份我的笔记，然后让 AI 根据笔记为这篇博客文章拟定大纲，这样 AI 就能明白我想讨论什么。

在它给出大纲后，我会提供反馈，指出我对大纲哪些部分满意，哪些不满意。

然后经过多次迭代和沟通，直到我对大纲感到满意为止。

接着，我会针对大纲的每一点进行展开，并对每一点的内容进行反复的迭代和沟通，直到每一点的叙述都让我满意。

以此类推，大纲中的每一点都经过反复的迭代，最终形成一篇完整的文章。

这时，就是把 AI 当作一个思维伙伴，让它和自己一起探索写作的不同方向。

不要过分关注 AI 的那些低智错误

AI 初学者：

AI 在 2022 年和 2023 年时犯的错误比现在要多得多，但人们总是关注那些广为流传的低智错误，这让他们误以为 AI 犯的错误可能比以前更多了。

有两个比较常见的例子：

“Strawberry”这个单词里有几个“r”？很多 AI 可能会回答有两个“r”。
我家离洗车店只有 50 米，我想去洗车，那么我是开车去还是走路过去？有些 AI 也会建议你直接走过去。

但这些案例并不能代表 AI 的真实能力。

AI 高级用户：

我知道 AI 能带来巨大的价值，它通过以下任务展现其实力：

深度调研与分析
（a）执行深度调研任务
（b）撰写研究报告
个人数据处理
（a）获取个人数据（如心率、跑步等健康数据）
（b）对数据进行深度分析与讨论
技术开发与构建
它可以协助我构建网站、开发小程序等。

1.2 Pretrained knowledge（预训练知识）

AI 系统通过阅读海量文本进行学习，在吸收了来自互联网等渠道的信息后，它便能够预测各种行为模式。

实用建议与冷门知识

AI 能够回答各类问题。例如：

（a）实用建议：如果你问“手机掉进汤里怎么办”，它能提供有效的应对方案。

（b）科普解释：对于“猫为什么会盯着墙看（仿佛看见了鬼魂）”，它能解释这是因为猫能察觉到人类通常忽略的细微声音和动作。

广泛的知识储备

由于 AI 在互联网上阅读了巨量内容，它甚至掌握了许多鲜为人知的冷门知识。

例如：关于多年前被送上太空的黑胶唱片：NASA 曾在 20 世纪 70 年代发射了“旅行者一号”探测器，它目前距离地球约 250 亿英里。

AI 知道这些事，并能告诉你那张黑胶唱片上的具体内容。

AI 模型基于多种数据源进行训练

这些信息源主要来自互联网，而对海量信息知识源进行训练所产生的内容，就是“预训练知识”。

“预训练”是一个专业术语，实际上，AI 系统的训练分为多个步骤，而这正是最初的步骤之一。

简单来说，预训练就是 AI 学习的内容来源，可能包括：

社交媒体（如 Reddit）：包含类似“你必看的电影是什么”这类问题的答案。
书籍：比如关于乐高微型城市的书。
百科全书：如维基百科上关于“仙女面包”的文章。
专业文献：包括大量的新闻文章、研究论文以及 Quora 等网络论坛上的大量文本。

数以万计的词语被用于训练 AI 模型。由于不同类型的数据在互联网上出现的频次不同，预训练知识往往反映了训练数据中的频率或模式：

普遍经验：烹饪、名人或电影等话题在网上非常普遍，因此 AI 会接触到大量相关文本。
专业领域：相比之下，更专业的话题（如天文学术语“类星体”）在网上的文章就少得多。
语言差异：尽管大多数互联网内容是英文，AI 也会从其他语言中学习。以粤语为例，虽然有超过 1800 万使用者，但粤语的网络数据可能不到全部内容的 0.1%。

最后，有些东西是 AI 模型完全不了解的，比如你公司的秘密专有数据。这些数据不会公开在互联网上，因此 AI 无法从中学习。

请添加图片描述

总之，思考数据在互联网上出现的频率，可以作为一条很好的经验法则，用来判断 AI 系统回答的可靠程度。

AI 模型展现出惊人的理解能力

现在，由于 AI 所学数据的原因，它有时能表现出令人惊讶的理解力。

例如，如果你打字很快，打错了某些单词，比如把“can you cook eggs in the microwave？”打成了“can you cook eggs in microwav”，它依然能够理解。

它实际上能很好地理解这类拼写错误，几乎就像你在问“能否在微波炉里煮鸡蛋”一样，AI 也能理解“不能在微波炉里煮鸡蛋”这种生活常识。

AI 之所以擅长理解拼写错误，是因为它确实从许多可能包含打字错误的来源中学到了东西。如果你上网看看，经常会看到拼写错误的短语。因此，当你使用 AI 时，虽然不鼓励你故意使用错误拼写，但如果你打字很快且带有一些错别字，也不必太担心，直接把提示词发给 AI 就可以了，无需花太多时间去修正每一个细小的语法错误。

请添加图片描述

但现在有一个很大的缺点：很多 AI 的信息源也存在一些误解和过时的信息。所以，使用 AI 的一项关键技能，就是如何通过提示，让它给出的回答反映出更少的误解，并且不会过度依赖过时的信息。

了解预训练知识，能帮助你更好地预测 AI 的回答。但这种预训练知识并不足以应对所有应用场景，尤其是那些需要实时信息的场景。

因此，你需要借助网络搜索。接下来，我们就进入下一节，讨论 AI 的联网搜索能力。

1.3 Web search（联网搜索）

大模型的训练存在一个“知识截止日期”。这意味着，模型从网络或各类信息平台获取的信息，都截至某个特定日期。对于该日期之后发生的事件或信息，模型无法直接获知。

换句话说，AI 阅读互联网内容仅截止到某个时间点，其知识在此刻被“冻结”。

然而，现实世界在那个时间点之后仍在继续发展：新电影上映、新书籍出版，或者新的网络热梗（如 Six Seven 表情包）不断涌现。

那么，AI 模型如何处理这些新信息呢？答案是利用网络搜索。通过搜索，AI 能够回答那些发生在知识截止日期之后的问题。

可能触发网络搜索的实例

特定关键词触发
- 以 ChatGPT 为例，当你询问某些特定问题时，就会触发其搜索功能。
- （a）例如，你问：“2025 年的 Six Seven 表情包是什么？”
- （b） “2025 年”这个关键词就是一个信号，让 AI 意识到需要从更新的在线信息中寻找答案，因为这可能是在其知识储备之后才出现的内容。
实时性较强的信息
- 例如，你要求：“请帮我找到山景城附近评价很高的健身房。”
- “评价高”的标准、或者健身房是否“关门”这类信息，是动态变化的，因此很可能触发搜索。
小众或专有领域信息
- 比如你问：“奶酪滚落是什么意思？”
- 由于这是一个相对小众的信息，互联网上的相关文本可能不多，AI 可能会通过搜索来获取准确答案。

为了更清晰地理解这一点，我们可以做个对比。有些问题 AI 可以利用“预训练知识”直接回答，例如：

手机掉进汤里怎么办？
为什么猫会盯着墙看？
旅行者一号飞船上的磁带有什么内容？

这些都属于互联网上的常识性内容。

但如果涉及以下三类信息，AI 就需要进行网络搜索：

时事或最近发生的事情（如 Six Seven 表情包）
特定的位置信息（如附近的健身房）
其他类型的专有领域信息或冷门信息

以 OpenAI 的 ChatGPT 5.4 模型为例（假设其知识截止日期是 2025 年 8 月），如果 Six Seven 表情包是在此日期之后出现的，模型便无法知晓，只能通过网络搜索来获取最新信息并给出答案。

网络搜索的两种触发方式

AI 自行决定进行网络搜索：

当 AI 遇到上述所说的三种情况时，会自动触发网络搜索

用户明确触发网络搜索：

通过点击搜索按钮
在提示词中写明“请对此进行网络搜索”

并非所有 AI 模型都启用了网络搜索功能，但大多数流行的模型都具备此能力。

总之，网络搜索能让 AI 用当前信息来补充其预训练知识。

但和所有网络搜索一样，它可能会返回不可靠的来源。因此，如何让 AI 使用更可靠的来源以获得更可信的答案，就是下一节要讨论的内容。

1.4 Web search sources（联网搜索溯源）

当你上网搜索时，可能无法找到想要的东西，因为搜索存在局限性。

例如，找到的信息可能已经过时，或者来源不准确。

但你可以绕过这些限制，让 AI 为你提供更准确、更及时的答案。

引导 AI 参考权威的信息来源

问题现状

如果你问 AI：“灰色市场的肽类补充剂有多安全？”

它可能会去搜索社交媒体帖子、Reddit 等公共论坛，或者销售肽类补充剂的网站。

因此，AI 给出的答案往往会倾向于“它们是安全的”，但这可能并不准确。

优化策略

如果你促使 AI 采用官方来源，或查阅由研究机构支持的研究报告，它就会去参考世界卫生组织（WHO）、食品药品监督管理局（FDA）或欧洲药品管理局（EMA）等资源。

通过这种方式，AI 有望给出更可靠、更科学可信的答案。

联网搜索依托于广泛的大众化数据源

AI 的网络搜索通常是从一些比较流行的资源获取信息的。无论是人类使用 Google 或 Bing 搜索，还是由 AI 完成搜索，都倾向于引用更流行的来源。

根据一份报告，AI 模型引用最多的网站依次是：

Reddit
维基百科
YouTube
Google

这些来源的可信度参差不齐。互联网上充斥着来自社交媒体、博客和论坛的文本内容，而经过科学验证、高度可靠的来源信息则要少得多。

在这里插入图片描述

因此，如果你不引导 AI 选择你偏好的信息来源，它就可能倾向于从最容易获取的文本中提取信息，而这些信息往往不是最可靠的。

以刚才的问题为例：“灰色市场的肽类补充剂有多安全？”

a）如果不加引导，模型给出的答案可能主要建立在社交媒体、博客和论坛的信息上，只有很少一部分会参考可靠来源。

b）如果你明确要求它使用来自官方组织的来源，它就会更多地从这些可靠渠道提取信息。

在这里插入图片描述

联网搜索可能提取自过时的数据源

网络搜索的另一个限制是网页可能会过时，这会导致 AI 模型无法提供最新的信息。

举个例子，有人曾问 AI：如何在内华达州亨德森找到跑步的地方。

这是一个针对特定地点的小众查询，系统因此触发了网络搜索，并找到了一个慢跑地点列表。

但不幸的是，AI 给出的答案是从一个二十多年前的网页中提取的。网页中提到的地点是一所学校，与几十年前不同，它现在已经不再对外开放了。

联网搜索是一个多环节的流程

为了理解 AI 如何搜索网络并使用信息，下面就来解释一下网络搜索在底层是如何运作的。

想象一下，你正在向一个由两人组成的客服团队提问：

面向用户的 AI 模型：这是你直接与之对话的模型。
作为助手的第二个模型

第一个模型可以请这个助手帮忙进行网络搜索。

当你发送提示词时，你实际上是在与第一个模型（面向用户的 AI 模型）对话。它偶尔会呼叫这个辅助 AI 模型（即第二个 AI），并下达指令：“请帮我进行一次网络搜索，以获取更多信息。”

随后，这个辅助 AI 模型会在网络搜索引擎上进行搜索。这与我们人类使用的谷歌、必应等引擎非常相似。它的操作流程如下：

（1）基于提示词执行联网搜索

（2）扫描并检索搜索结果

（3）筛选并剔除无关结果

（4）归纳并总结发现

接着，第二个辅助 AI 模型会将这些总结摘要返回给第一个模型，第一个模型再利用这些总结信息，为你生成最终的答案。

在这里插入图片描述

在这个过程中，有一个有趣的特殊情况需要注意：面向用户的 AI 模型并没有完整阅读它为你引用的所有网页，它看到的只是那些网页的摘要。

这有时会导致它误解某个底层网页的实际内容，这就是为什么你可能会看到一些好笑的结果：AI 引用了一个网页，并声称该网页证明了某个结论，但如果你亲自去看那个网页，会发现它实际上并不支持 AI 所说的内容。

下面我们通过一个例子来具体理解网络搜索的过程。

如果你问面向用户的 AI 模型（它就像和你直接对话的客服），比如：“在徒步前往马丘比丘之前，我应该知道什么？”

搜索与扫描：

第二个模型会进行网络搜索，使用类似“马丘比丘许可证”、“马丘比丘天气”或“社会习俗”等关键词。它会扫描返回的结果，就像你浏览谷歌搜索结果页一样，决定哪些内容相关，并过滤掉不相关的信息。

总结与生成：

第二个模型会总结最相关的网页内容，并将其提供给第一个 AI 模型，由第一个模型为你生成最终答案。

AI vs. 搜索引擎

那么，什么时候该用 AI 模型，什么时候又该用网络搜索引擎呢？

搜索引擎的优势：

（1）快速浏览多个来源

（2）导航到特定网站（例如，当你忘记了某个网站的名字时，搜索引擎能帮你找到它）

（3）以原始形式查看数据（比如，你想购买 2013 款本田思域的空气滤清器，并且明确知道要去某个特定网站下单）

AI 模型的优势：

（1）获得综合信息：当你需要从多个来源整合信息时，AI 非常高效

（2）处理复杂信息：例如，搜索带有优缺点权衡的内容，并希望进行综合评估

（3）对比得出结论：通过对比多个来源，得出一个更周全的结论。

在这里插入图片描述

AI 模型能够进行网络搜索，并高效地整合多个网页的结果，这能节省你亲自阅读所有内容的时间。

总结来说，你可能已有良好的谷歌或其他搜索引擎使用习惯，这些习惯在使用具备网络搜索功能的 AI 大模型时同样有用，例如寻找并核实可靠来源。

但如果你想超越仅搜索几页网页的模式，AI 模型能够进行一种范围更广的研究，即“深度研究”，这是一项非常强大的能力，我们将在下一节讨论这个。

1.5 Using deep research（深度调研功能的使用）

有时你会希望 AI 不仅能综合少数几个信息源，而是能整合更多，也许是几十个来源，并进行大量思考，从而给出一个经过深入研究、质量上乘的答案来回应你的问题。

AI 深度调研实例

像 ChatGPT 这样的流行 AI 工具，就配备了这种深度研究模式。

举个例子，如果你想请 AI 帮你规划一个万圣节鬼屋，我会写一个提示词

请协助我为万圣节在自家庭院布置一个鬼屋：
- 地理位置：加利福尼亚州，帕罗奥图
- 庭院规模：约 500 平方英尺（约 46.5 平方米）
- 全方位体验需求：需包含烟雾机、音效、真人演员，并能够应对源源不断的“不给糖就捣蛋”的访客。

让它帮我布置一个位于我家前院的鬼屋。我会提供一些背景信息，以及我希望达到的体验效果。

这样，我给它提供了充足的上下文，以便它能为我制定出合适的方案。

有了这样的提示词后，AI 会先制定一个研究计划。它可能会思考需要研究哪些类型的资料，很多 AI 会让你来批准或修改这个研究计划。如果我对计划满意，通常会直接启动研究，除非我发现明显的错误。

然后，它会立即开始在线搜索。例如，这个任务可能从收集关于许可证规定、分区法规等信息开始。

接着，它会阅读一些网页，并综合目前学到的内容。

之后，它可能决定进行更多搜索，以收集消防安全指南。

再往后，它可能去寻找装饰创意。

所以，它大致遵循最初的研究计划，但也有灵活性，可以在认为必要的领域深入挖掘。

经过一段时间的搜索（可能是几分钟），它最终会为你撰写一份详细的研究报告。这个过程就是智能体 AI 的一个例子。这里的“智能体”指的是，在研究过程中，AI 模型拥有一定的自主决策权，可以自行决定下一步做什么，比如是否进行额外的搜索。

这样，AI 的输出就可能是一份相当详尽、经过深思熟虑的规划，包含不同部分的概述，以及你可能需要考虑的事项，比如结构、监管框架、安全等等。

如果你使用谷歌的 Gemini AI 来完成这类任务，它有一个很好的特性：可以轻松地将完成的深度研究转换成网页、信息图或其他多种形式。

深度调研执行流程示例

下面我们来具体说明 AI 深度探索是如何运作的。

在制定研究计划后，AI 实际上可以同时发起多个网页搜索，并行获取多个网页，这是使用 AI 深度搜索的一大优势：它不必一次只进行一次搜索，而是可以同时进行很多次，从而在获取大量网页时非常高效。

AI 还能快速评估所有这些来源的相关性，并据此决定是否要使用不同的搜索词进行额外的网络搜索。

经过几轮循环，包括进行网络搜索、评估来源、决定是否需要回头获取更多信息，AI 最终会判定研究是否完成。

然后，它会汇总并综合所有下载的页面，生成一份附有引用的报告。

在这里插入图片描述

联网搜索 vs。深度研究

何时使用 AI 的网络搜索功能：

它擅长处理诸如“帮我找一家评价高的健身房”或“迪拜这周的天气怎么样”这类查询。

何时使用 AI 的深度研究功能：

它擅长综合多种观点的任务，例如：“我想了解每日步数对长期健康的影响”，或者“我想搜索最新有科学依据的文章，仔细思考答案，而不是仅仅复述网上常见的说法”。

再比如，如果我想深入分析天气如何影响迪拜的旅游业，深度研究不会只采用社交媒体上的一两个流行答案，而是会查阅天气资料、旅游数据和迪拜的相关信息，真正思考各种影响因素。

这就是深度研究特别有用的场景。为了给你一个更清晰的思考框架，以下是何时使用网络搜索与深度研究的对比：

网络搜索

（a）当你有一个单一的、基于少量来源、几秒钟就能找到答案的问题。

（b）正如我们所见，网络搜索可以由用户手动触发，也可以由 AI 自动触发。

深度研究

（a）深度研究旨在得出更复杂的结论，这可能涉及回答多个问题，或探讨一个问题的多个维度。

（b）如果用户手动完成这类工作，可能需要花费几分钟甚至几小时，并且需要综合许多信息源。

（c）深度研究通常需要用户明确触发，大多数 AI 模型不会自动使用此模式，因为这会让用户等待好几分钟才能得到答案，除非你在用户界面中主动选择它。

在这里插入图片描述

信息检索：内容回顾

接下来，我们回顾一下 Module 1 的全部内容。

使用预训练知识场景：基本事实与常识

如果你问：“我的手机掉到汤里去了怎么办？”，AI 不需要查找任何在线来源，这种情况下我们不担心信息的时效性，它会在几秒内给出答案。这适合查找基本事实、定义，以及互联网上常见事物的总结。

使用联网搜索场景：即时与位置信息

如果你让 AI 推荐一个评分比较高的体育馆，它可能会使用网络搜索，参考几个来源，并找到相对最新的信息。这可能需要几十秒才能返回答案。这适合处理即时类或位置信息类的内容。

使用深度研究场景：深度研究

深度研究通常会参考十几个甚至更多的来源，以获取最新信息。它需要花费几分钟甚至更长时间来返回答案，但它善于回答复杂的问题，特别是那些需要综合多种知识来源的问题。

在这里插入图片描述

Module 2: AI as a Thought Partner（将 AI 视为思维伙伴）

2.1 Brainstorming with Al（与 AI 进行头脑风暴）

拥有一位人类专家作为合作伙伴固然很好，但如果没有现成的专家，AI 实际上可以填补这个角色，帮助你了解很多事情，成为一个非常有用的资源。

首先，头脑风暴就是一个很好的切入点。现在很多人会让 AI 帮忙头脑风暴，生成一个想法列表，但更有效的方式是把 AI 当作一个头脑风暴的伙伴，而不仅仅是让它输出列表。

AI 在帮助人们进行头脑风暴方面非常有价值，下面分享几种方法

AI 擅长生成多样化的方案

AI 非常擅长生成大量选项，有一个常见的创造力测试，要求人们为一块砖头想出 200 种潜在用途。这其实挺难的，有些人会想到当镇纸、当花盆或盖房子，但要列出 200 个例子并不容易。

如果你问 AI，它很可能给你提供很多想法，而你的角色是评估这些选项，从中挑选出你喜欢的。

头脑风暴的一个常见原则是“想法越多越好”，让 AI 生成海量想法供你筛选，是找到一两个好方法的有力途径。这也是 AI 最常见的用法之一。

头脑风暴应以提供上下文为起点

这种方式是给 AI 提供更多背景信息，让它协助你头脑风暴，并与其进行更长时间的迭代（Iteration），也就是进行更长的来回对话，以帮助你获得更好的选择。

（a）通用情况：如果你只说“帮我制定一份锻炼计划，我 38 岁，有 10 磅哑铃，每天有 50 分钟时间”，AI 可能会给出比较通用的常识性答案，比如三个锻炼计划，从 10 个深蹲和 10 个俯卧撑开始。

（b）创意情况：如果你想要更多的选择，就需要提供更多上下文。比如你说：“我坚持不了这些计划，给我一些窍门来保持正轨。我有一个蹦床和一只猫。”

通过这些额外的背景信息，AI 就能提供与蹦床和猫相关的锻炼选项。这是一种非常独特的健身方式，它可能会建议你尝试“蹦床间歇训练”，或者设计一种由“猫触发”的微锻炼（比如，每次看到猫摇尾巴就做一小段运动）。

AI 模型具备一定的原生创造力

AI 大模型本身具备一定的原生创造力，因为它们是在海量的互联网文本上训练出来的。这些文本包含了大量不同的想法，其中不乏有创意的内容。

由于 AI 的输出具有随机性，如果你多次提问“帮我制定一份锻炼计划”，它可能会给出几份略有不同的答案。

但如果你问的是基础问题，那么常识性且相对通用的回答（比如俯卧撑、深蹲等）就更有可能出现。我们可以用一个概念图来理解：

在这里插入图片描述

横轴：AI 回应的独特程度（即创造性）

（a）左边是常见的常识性回答，比如举重练习、哑铃弯举。

（b）中间是稍微独特一些的回答，例如“头上顶个瑜伽砖单脚站立”。

（c）右边是真正有创意的回答，比如“猫触发的微锻炼”。

纵轴：AI 给出这些不同种类回应的概率

结果显示，AI 更倾向于给出常识性的回应，而非高度独特的创意回应。

这背后的原因是：AI 是用互联网文本训练的，而互联网上有大量关于“哑铃弯举”的文本，却极少有关于“猫触发微锻炼”的内容。对于大多数问题而言，这种倾向其实是可以接受的。

AI 模型倾向于给出符合常识的回答

AI 倾向于提供常识性的回答，因为互联网上的平均信息通常是符合事实且相当普遍的。比如当你询问“世界上最高的建筑是什么”时，正确答案是哈利法塔；大多数互联网文本都会指向这个答案，只有极少数会提到其他建筑。因此，互联网上最常见的回答通常就是这些事实性信息。

但如果你正在进行头脑风暴，AI 给出这种“均值信息（Average information）”和“最常见回答”的结果，就可能导致你得到的建议全是深蹲、俯卧撑，而几乎不会出现“蹦床间歇”或“带猫锻炼”这种独特的环节。这就是为什么让 AI 参与头脑风暴时，你往往会得到很多常识性的点子，而非更有创意的想法。

让 AI 生成高质量的创意想法

如果你想获得更高质量、更有创意的 AI 想法，可以参考以下策略

提供丰富的上下文

使用基本的提示词只会得到平庸的回答。但如果你给 AI 更多上下文，比如你的年龄、水平，甚至告诉它你有一只猫且在深蹲时难以保持动力。这些信息会将 AI 推入更相关、更具创意的空间，从而给出定制化的答案。

与 AI 进行迭代

当你试图构思创意时，可能有太多的上下文可以提供，你可能不确定该优先告诉 AI 什么。事实证明，与 AI 进行迭代是非常有效的技巧。

例如，我想请 AI 帮我制定一个偿还债务的计划。我有以下债务信息：

（a） 1,100 美元的信用卡债务，利息 19%，每月最低还款 40 美元

（b）一笔学生贷款，利率为 8%

（b）一笔 900 美元的家庭贷款

在提供了这些背景信息后，不要只让 AI 给出一个唯一的方案，而是要求它提供三到五个选项供你选择。

AI 可能会提出几个不同的计划：

计划一：流动性优先，保留现金

计划二：优先消除最高利率的贷款

计划三：优先偿还家庭贷款

通过反馈筛选关键信息

面对上述计划，我还没有给 AI 足够的上下文来让它了解我的偏好。此时，最有效的方法是针对这些选项给出反馈：

“我不喜欢计划一，它太被动了。”

“我更倾向于先偿还那笔利率 19% 的贷款。”

“我忘了一件事，我实际上有 450 美元的现金即将到账，而且我很快也要搬家。”

有了这些额外的信息，AI 就能在原有计划一、二、三的基础上进行调整，或者重新生成三个全新的计划。

通过这种对计划给出反馈的过程，你实际上是在不断优化 AI 的思考模型。

总结一下，如果你正在进行头脑风暴，请尽可能提前向 AI 提供相关的背景信息。然后，让它提供几个不同的规划选项，你针对这些选项给出反馈，并要求它基于反馈再次迭代。重复这个过程几次，直到你得到一两个确实满意且细节充实的想法为止。对 AI 提出的方案进行反馈，是找出哪些信息对 AI 决策最有效的关键机制。

在这里插入图片描述

2.2 Context（上下文关联）

大多数人在活跃的工作记忆中，只能同时处理大约 7 件事。这就是为什么记住一张大约 7 项的购物清单勉强可行，但要记住一张 15 或 20 项的清单，就困难得多。

然而，我们可以利用 AI 庞大的上下文能力：一些大型 AI 模型的上下文窗口可以容纳数十万个词。

下面我们来探究一下 AI 模型的上下文是如何工作的。

AI 可以基于海量的上下文进行推理

AI 模型能够阅读并分析大量的上下文信息。例如，如果你想选一套公寓，可以上传数百页的租赁合同、租客评价和周边地区统计数据，然后让 AI 阅读所有这些内容，为你分析每个选项的优缺点。

你可能会这样提示它：“请列出每套公寓的优缺点，在回答前请仔细阅读所有材料并深入思考。”

顺便一提，“认真思考”或“非常认真思考”是另一种常见的提示技巧。

什么是上下文（Context）呢？

上下文是指 AI 在生成个性化回复时所依据的所有文本和文件。

如果你只给 AI 一个简单的提示，比如“学习物理和动物学各有什么优缺点？”，它给出的回复会非常有限和空泛，因为你提供的上下文太少了。

但如果你提供更多信息，比如你的职业评估结果和高中课程表，让 AI 了解你正在上什么课，再问同样的问题，所有这些额外的上下文将帮助 AI 给出更个性化、质量更高的回答。

在考虑给 AI 提供什么上下文时，可以想象一下：一位值得信赖的顾问需要哪些信息，才能深入思考并给你一个关于你个人情况的好建议？而一位对你一无所知的聪明顾问，在被问到“学习物理和动物学各有什么优缺点”时，最多也只能给出一个相当泛泛的回答，因为它没有关于你的任何具体信息。正如上面例子所示，缺少与你相关的上下文，回答就无法量身定制。

AI 模型自带预设的上下文

AI 在启动时就拥有一定量的内置上下文，目前领先的 AI 模型可能能够接受多达约 75 万个词的上下文，这大约相当于《哈利·波特》系列前四到五本书的体量，是相当大量的文本，也相当于数天连续不断的演讲。

因此，很多人低估了可以提供给 AI 模型的信息量和上下文规模。

当你向 AI 提问时，默认情况下，它的上下文会包含以下内容：

首先，有一个叫做“系统提示词”的部分，AI 模型通过它来了解当前日期、模型名称、基本能力，以及帮助用户的一般性指令。

其次，如果你的 AI 能够使用工具（比如网络搜索引擎），它的上下文中还会包含关于这些工具是什么以及如何使用它们的文字描述。例如，它会知道什么是网络搜索引擎以及应该如何操作它。

在这里插入图片描述

对话是上下文的一部分

在你写下提示词之前，AI 的上下文已经包含了系统提示词（System prompt）和上述两类描述（Tool definitions），当你写下提示词时，它会被添加到 AI 的上下文中，然后 AI 会使用所有这些内容作为输入来生成回复。

在这里插入图片描述

上下文越多通常越好

你输入的提示词以及 AI 的回复，共同构成了“对话历史”。

这段历史会逐步累积，并添加到 AI 的上下文中。

如果你一开始就为 AI 提供了更多上下文，比如一个相当长的提示词，或者上传几份关于你的健身日程和偏好的文件，那么所有这些信息都可以被纳入模型的上下文，用于生成回复。

如果你继续对话，比如你说：“我喜欢第一个计划中的这一点，但不喜欢第三个计划中的那一点。”你所说的内容会被添加到上下文中。在这个头脑风暴的工作流里，额外的回复会进一步丰富上下文。这就是为什么每当 AI 进行多轮交互并生成更多答案时，它都能知晓到目前为止对话历史中的所有内容。

切题的上下文更好

想象一下，你之前曾向它请求过健身计划，而它已经给出了几个方案。

如果你转而对这些计划提出反馈，并突然转向一个完全不同的方向说：“现在为我妈妈制定一个健身计划。”

在这种情况下，AI 所拥有的大量上下文（包括你的日程安排和健身偏好）其实和你现在的问题并不相关。

除非你们两个人一起锻炼，否则这些信息对于为你母亲制定计划来说反而会成为干扰，并可能导致系统生成更糟糕的回答。事实上，很难判断这个回答是否受到了之前不相关上下文的影响。

因此，当你需要切换到不相关的主题时，最好开启一个新的对话。这样就能清空之前的上下文，仅以新的提示词或信息开始，确保这些内容只对你当前想要解答的新问题有帮助。

2.3 AI desktop apps（AI 桌面端应用）

AI 正在超越单纯的聊天界面，你可能听说过像 Claude Cowork、Microsoft Copilot 或 Google Antigravity 这样的应用，它们能在你的许可下，从你的计算机自主收集上下文信息。这意味着它们可以查找并读取你电脑上的文件，从而获取完成任务所需的信息。

这是一种使用 AI 的新方式，下面是一个 AI 桌面应用的常见用例

假设你一直在研究某个主题，并且有一个杂乱的文件夹，里面装满了各种 PDF 研究报告、图片等文件。你可以使用这类应用，让它读取文件夹中的所有文件，然后根据发现的内容，提出新的整理方案。

在这种情况下，AI 能够查看文件夹，并执行一系列操作，包括重命名文件、移动文件、创建子目录，最终实现更合理的整理结果。

AI 桌面应用的工作原理

这个过程通常是这样工作的：

（1）探索阶段：当你让它去整理一个文件夹时，它首先会了解里面有什么，自动查看不同文件的命名方式和内容。

（2）提出方案：在充分了解文件夹内容后，它会提出一个初步的重新组织方案。

（3）反馈与完善：如果你对初步方案不完全满意，可以给出进一步的指令，告诉它如何处理这些数据。它会不断改进方案，直到提出一个完善的版本。

（4）执行指令：当用户对方案满意并下达执行指令后，AI 就会开始工作，重新整理文件夹，使所有文件变得井井有条。

这就是 AI 桌面应用的工作原理，它们由 AI 模型驱动，具备 AI 预训练的知识，并拥有一套工具（如网络搜索和文件处理工具），能够在你的计算机上执行搜索、整理、移动和重命名等操作。

当使用桌面应用在计算机上执行任务时，最佳实践的工作流程如下：

（1）告诉 AI 你想要完成的任务（例如，组织某个文件夹）。

（2）让 AI 系统提出一个行动计划，但先不要让它执行。

（3）审查这个计划，并提出你的意见，必要时让它更新计划。

（4）当你对计划感到满意时，再告诉它去执行。

AI 桌面应用中的上下文管理

这些 AI 桌面应用的强大之处在于，它们能够自动探索文件，并通过读取文件来管理上下文信息。

相比之下，如果你使用传统的 AI 聊天界面，你必须事先决定上传哪些文件来提供上下文。

例如，你需要制定一份拍摄日程表，可能得手动上传一份拍摄流程的概述文件。

但在 AI 桌面应用中，如果你在拍摄文件夹中启动 AI 应用，并告诉它“制定本周的拍摄日程”，AI 可以自行探索该文件夹。

它会查看有哪些文件，加载相关信息，甚至能发现一些细节（比如某位剧组成员的生日就在拍摄期间），从而在日程中加入庆祝活动。

AI 桌面应用的安全使用

关于安全使用这些 AI 桌面应用，有一个重要的注意事项：

桌面应用拥有访问、编辑甚至删除文件的权限，虽然误删文件的情况非常罕见，但确实发生过。

因此，建议你选择最相关的文件夹来运行 AI 桌面应用，而不是直接在主文件夹中运行并授予它访问所有文件的权限。

建议的做法是：

仅授予 AI 访问特定文件夹中它真正需要的文件子集。

当系统发出权限请求时，仔细审查，确保你清楚它在读取和写入什么内容。

只让 AI 访问你希望它知道的文档，并且只允许它写入你指定的文件位置。

其他注意事项：

当 AI 桌面应用删除文件时，它通常不会将文件移入回收站，因此这些文件可能无法恢复。

如果它编辑一个文件，其行为与你手动编辑略有不同，特别是经过 AI 编辑的文件通常没有编辑历史记录，因此如果它做出了你不喜欢的更改，将无法回退。

在这里插入图片描述

2.4 Reasoning with AI （利用 AI 进行逻辑推理）

深度思考示例

AI 拥有非常强大的推理能力，这意味着，在给定合适的上下文时，它们能够执行需要严格且长时间思考的任务。

越来越多的人将 AI 用作一个推理引擎，下面来看一个具体实例：

长时间思考有助于得到更好的回答，例如，如果你正在选购汽车，并在多款车型之间权衡，你可能会上传车辆的规格表、保险计划、车贷报价等大量文件，然后向 AI 提问：“这辆车的优缺点有哪些？请阅读所有内容，认真思考后回答。”

随后，AI 可能会思考相当长的时间来阅读文档，或许也会进行一些在线搜索，仔细考虑评估标准，然后为你生成一份分析不同汽车优缺点的报告。

这就像人研究购买哪辆车，本身就需要收集大量信息并花时间思考利弊。

随着 AI 的进步，它们执行常识任务的能力已经快速增长。下面是 Meta 的一项研究，该研究根据人类完成不同任务所需的时间来衡量任务的难度级别。

在这里插入图片描述

纵轴表示 AI 完成这些任务的效果。

比如：像在网上查找一个事实这样的任务，可能只需要人类几秒钟，总结几页文本可能需要人类一小时，写一篇博文需要几小时，审核法律文件或探索复杂的网络安全漏洞，则可能需要人类更多时间。

大约在 2024 到 2025 年，AI 大模型已经能够执行那些从几秒到数十分钟的任务。

而在 2025 年，AI 开始拥有可观的成功率，来完成那些人类所需时间越来越长的任务。

现在，AI 模型已经能够完成以前人类需要好几个小时才能完成的任务。

通常，AI 不需要花费和人类完全一样的时间（比如 10 小时）来完成一个任务，但也会比仅需几秒钟的任务更久一点。这正是推理模型所实现的，让 AI 能够进行长时间思考，以完成这些更复杂的任务。

如果你还记得那个“strawberry”里面有几个“r”字母的例子，那是一个人类只需几秒钟就能完成的任务。

在几年前，AI 有时也会把这个事做错。正是在那个时代（大概 2023、2024 年），你或许听过这样的建议：告诉 AI 模型要“逐步思考”，因为那时候这确实是很好的建议。

但现在这个建议已经基本过时了，我不再告诉我的 AI 需要“逐步思考”，相反，我更可能会直接告诉它“要认真思考”，它明白这意味着什么，并且应该执行长时间的推理。

AI 推理不一定是逐步的，而是以更复杂的方式来完成任务。

你可以向 AI 模型提出更复杂的问题，例如：“每辆车的优缺点是什么？”或者“查看所有这些上下文，并帮助创建一个定制播客的脚本。”对于这些更复杂的任务，我建议尝试使用更好的模型。

AI 推理模式的工作原理

如果你要求 AI 规划一份关于一天内游览罗马五个地标的最快方式的攻略，那么它可能需要收集相当多的信息：

通过网络搜索、查看地图距离、估算步行时间、查询开放时间、重新排序站点等等，然后生成一个优化后的行程。

这个推理过程可能需要 AI 进行长时间的思考，并反复收集额外信息，然后再思考更多，直到对答案满意为止。

你可以把 AI 推理看作这样一个过程：

阶段一：输入你的提示词和其他上下文（文件、网站、图片等），AI 会通过这些上下文进行一段时间的推理或思考。

阶段二：根据推理结果和所获取的信息，AI 就能够决定是否提前完成任务，并给你最终答案。

阶段三：在思考了一段时间后，它可能决定需要使用其他工具来收集更多信息，比如通过网络搜索（如果你用的是 AI 桌面应用，那么它可能会读取计算机上的更多文件）

阶段四：AI 会利用在阶段三获取的额外上下文进行进一步的推理，这一阶段中它可能再次重复阶段三的步骤，即：调用工具收集更多信息

AI 可以进行多轮信息收集和更长推理的过程，直到它认为答案足够完美。

在这里插入图片描述

如何激发 AI 的推理能力

大部分的 AI 模型的使用界面都会有一个深度思考的功能选项，如果你选择了这个功能，那么就等于是把 AI 切换到了推理模式。

另一种比较直白的方式就是直接在提示词中明确地要求 AI“要非常认真地思考这个问题”，AI 一般就会听从你的指示，或者说你在提示词中使用“Ultra think”这个短语，那么 AI 就会将其理解为要认真思考用户的问题。

相比之下，同样的问题，使用推理模式会耗费更多时间，具体时间的长短还是取决于任务的复杂度和难易度。

建议多给模型布置困难的任务，看看它能为你做什么，这样才能最大限度的使用 AI 的推理能力。举个例子，如果你正在创建一家初创公司，你可以给它提供大量关于这件事的上下文，并告诉它“为一个资金有限的私人初创公司设计一个顶级方案”。

建议多给 AI 模型布置真实的工作任务，那些你需要仔细思考的真实问题，或者你想要解决的日常痛点。尝试给它提供尽可能多的上下文，即人类专家完成任务所需要的全部信息，以确保 AI 模型拥有足够的信息去执行任务。

注意：如果你希望 AI 对复杂问题进行详尽的推理，我建议你使用当前最好的 AI 模型。因为这些最新模型通常比 6 到 12 个月之前的 AI 模型更优秀。

总结一下与推理型 AI 协作的四项核心法则：

提供详细的上下文，尽可能多的提供背景信息
尝试给他布置困难的任务，最大限度地使用 AI 的推理能力
手动触发 AI 的思考模式
始终选用当下最顶尖的模型

在这里插入图片描述

2.5 Sycophancy（模型的“谄媚”现象）

AI 模型具有迎合用户的倾向

AI 会以各种方式取悦你，这是因为它接受过这样的训练。它们极力想说你爱听的话，这种现象被称为“谄媚”。

而写好提示词的关键就是要避免谄媚，所以在构建提示词的时候需要以中立的态度提问、保持语境清晰并实事求是，尽量的把 AI 回答的答案引向一个比较客观中立的方向。

举一个例子，你正在考虑和办公室办公相比，远程工作有哪些利弊，你可能会像 AI 这样提问：“你认为远程工作比在办公室办公要更好吗”

你这种提问方式就暗示了你想要得到的答案，AI 很可能会回答：“是的，远程办公有很多优势。”

相反，如果你这样提问：“办公室工作效率更高，这个说法属实吗？”那么 AI 很可能同意你的观点，即办公室工作效率更高，并列举其显著优势。

因此，AI 的回答取决于你如何提问。

AI 会倾向于用户自身的偏好和偏见，而 AI 的这种谄媚，很难使用户做出客观的和基于事实的决策

《华盛顿邮报》对 ChatGPT 回复的一项研究发现，它更倾向于使用“没错”、“好观点”、“你在正确的方向上”这类短语表示赞同，相比之下，它很少说“不太对”、“事实并非如此”或“实际上”等等。

AI 强烈赞同用户的倾向大约是其不赞同的十倍，某些 AI 模型甚至说过这样的话：“伙计，你刚才说了一些很深刻的东西，100%正确。”

虽然有些用户比较喜欢 AI 的这种谄媚，而且在某些时刻，AI 的这种谄媚可能满足了用户的某些心理需求，但其实 AI 一味赞同用户说的任何话，对个人发展来说没有太大的用处。

AI 谄媚现象的成因分析

AI 使用大量的人类反馈训练成了有用的助手，正是因为有这些人类的反馈，才加剧了 AI 的谄媚行为

例如，如果你问 AI：“我觉得做个内向的人更好，你不觉得吗？”

如果 AI 回复：“这是一个有趣的想法。下面是我倾向于同意的原因……”

因为这是个令人愉快、让人感觉良好的回答，所以大多数人会同意这种回复，并给 AI 正反馈，然后点赞或者推荐。

但如果 AI 说：“不一定，内向者和外向者都有各自的取舍。”

很多人对于后一种回答就没那么舒服，因此他们不太可能给这样的回答点赞，甚至可能拉踩。

“谄媚”行为表面友好，实则损害输出质量

由于前面说的人类反馈机制，AI 被训练的时候，它就会生成更多能获得点赞的、正向的回答。

于是，AI 学会了更微妙地迎合人们的观点，这便导致了谄媚现象的出现。

AI 谄媚虽然感觉很有帮助，但实际上降低了回答的质量。

AI 谄媚有时候容易被察觉，比如你说“我对这篇论文非常自豪”，AI 大概率会同意你。

但有时候也很难被察觉，如果你说“分析这些数据，并找出本季度所有积极的业绩指标”，这时候你微妙地暗示了 AI 去寻找公司业绩的积极方面，因此它更可能说出类似这样的话：“数据清楚地表明，收入增长强劲，留存率改善，利润率提升”，而较少指出负面问题。

中立化的提问方式

为了避免阿谀奉承，请使用比较中立的提问问题方式，并避免给出任何关于你想听到的答案的暗示。

例如，如果你问“碳税对小企业有害吗？”，你实际上是在暗示 AI 你希望得到什么答案。

相比之下，更中立的提示会是：“碳税对小企业有何影响？”

如果 AI 读到后面的这个问题，它并不清楚提问者想要什么答案，因此 AI 更难表现出谄媚行为。

再比如，你问 AI：“你同意 AI 会创造很多工作岗位吗？”，AI 可能就会说同意。

但是，如果我不希望 AI 只告诉我我想听的话，你可以问：“你对 AI 对就业的影响有何看法？”又或者，不要问“远程工作会降低员工生产力吗？”，你可以问：“远程工作和办公室工作的生产力相比如何？”

在这里插入图片描述

一种常见的提问方式就是列出两个选项，比如远程和办公室工作。

然后，只询问两者的优缺点，但不要暗示我在这两个选项中更倾向于哪一个。

对抗 AI 的谄媚倾向

可以从以下三个方面

使用中立的提问方式，比如“请从一个作家的角度去评价这篇短文”
直接询问比较客观中立的评论，比如你可以这样问 AI：客观公平的评论上述内容，
开启一个新的对话，重新提问，从而得到一些新的观点

在这里插入图片描述

2.6 Writing with AI（辅助写作）

AI 垃圾内容（Slop）的成因和现象分析

日常的写作输出可以使用 AI 辅助，但是写作是一个深度思考的过程，如果仅仅要求 AI 为你写作，往往会导致生成一些 AI 水文，这些水文与人类花费心思写出来的文章会大不相同。

许多人可能已经注意到，AI 写作通常包含比正常人类写作输出更多的长破折号（长划线）。

在社交媒体网站 BlueSky 上，这种使用趋势在 ChatGPT 发布后有所上升。

“AI 水文”指的是由 AI 生成的内容，如果你不仔细阅读，它看起来还不错。

它的一个特征就是：也许每个句子单独读起来都写得很好，但整篇文章缺乏实质内容，感觉没有经过太多深入的思考。

这些句子它们听起来空洞，在某种程度上又显得用力过猛。

AI 独特的写作风格源于它倾向于过度使用某些词语和模式。AI 倾向于使用更少的独特词汇，并且过多地使用某些单词和短语。

例如，AI 倾向于过多使用“细致入微”和“深入探究”这两个词。它也比大多数人更倾向于使用三项排比，并且更少使用名词，留下诸如“这是一篇结构稳健且极具洞察力的论文”这样的短语，还有这种“不是······，而是······”的表达方式。

事实上，在社交媒体上，这种“不是 X，而是 Y”的措辞太多了，其中 X 和 Y 通常都是模糊的概念，比如：“这不是关于基础设施，而是关于架构”。很多这种模糊的短语，它们缺乏深刻的思想。

有趣的是，由于大量使用 AI 模型，人类自己也开始听起来更像 AI 了。自 ChatGPT 发布以来，人类在博客和演讲中使用“深入探究”这个词的次数更多了，无论是在即兴演讲还是有准备的演讲中都是如此。

所以，这不仅仅是人们使用 AI 来写稿子，看起来人们正在通过与 AI 的大量互动，吸收了 AI 的语言模式或对话模式。

通过渐进式大纲进行写作

使用“渐进式大纲法”，不需要 AI 立刻写出最终的文稿，而是让 AI 先列个大纲，然后根据自己的想法和意见和 AI 反复的交流去修改这个大纲，最后让 AI 根据这个修改好的大纲去生成最终的文本

举一个例子，我现在向 AI 提问：“我正在写一篇文章，探讨『使用 AI 的小型团队比不使用 AI 的大型团队行动更迅速（效率更高）』。请帮我寻找支持和反对这一假设的研究证据。”

需要说明的是，这并不是一个中立的提示词，我的本意不是让 AI 帮我判断“小型 AI 团队是否行动更快？”

但这个提示词并没有把 AI 向更中立客观的方向上引导，而是要求 AI 从特定视角撰写文章。

你可以让 AI 去研究“支持与反对该假设”的证据，AI 可能会进行在线搜索，并找到少量相关文章。

接下来如果你想为文章构思几种方案，那么可以要求 AI 和你一起进行头脑风暴，并创建三种不同的大纲方案。在这个过程中，你可以要求 AI 输出一些反驳性的观点，同时你也可以上传一些你了解的 AI 团队的资料作为背景信息。

基于这些输入，AI 可能会反馈几种关于文章大纲的方案。

方案一可能是先讲述三个故事，再以一个中心论点结尾；

方案二则可能探讨 AI 团队的不同工作模式等等。

然后，你可以按照使用 AI 进行头脑风暴的常见方法进行下一步。

你可能会对这些方案给出反馈，例如，你可能会说：“我们采用方案一，保留所有故事，但把中心论点移到第一个故事之后。”

同时，你可能会提议增加一个历史类比，比如：“90 年代皮克斯创作《玩具总动员》的故事非常鼓舞人心。当时皮克斯作为一家小公司，仅用一个非常小的团队就制作出了第一部全电脑动画长片。”

根据你的反馈，AI 会生成一份修订后的大纲。如果你对大纲满意，就可以让它将每个标题扩展成要点列表，而不必立即写成最终文本。

接着，你可以对要点给出更多反馈，并进行迭代修改，最后再让它生成文章的正文。

构建大纲可提升内容审校效率

从大纲开始能加快你的审阅速度。假设你正在写一篇有趣的文章，比如“飞鼠能否携带椰子？”，与其让 AI 直接生成最终文本，不如先让它和你一起处理大纲和要点。

如果你直接要求它从头开始写正文，它可能会写出一些你不满意的句子。这时你只能逐词修改，但每个词的改动只能影响局部，而段落的其余部分保持不变。

相反，如果你先写大纲，并对其中某个部分不满意，那么修改大纲将导致最终文章中对应的整个段落发生巨大变化。这就是为什么与 AI 系统就大纲进行迭代具有很高的杠杆效应：你只需调整大纲中的几个词，就能引发文章很大的改变。这最终成为一种更高效的方式，帮助你理清并调整文章中想要表达的内容。

在这里插入图片描述

2.7 AI critique（AI 评议与反馈）

分块编辑

很多时候我们希望让 AI 帮助润色和修改自己写的文章，AI 很擅长做这种任务，而且他也总是有时间去阅读你的作品。前面已经学习了如何避免 AI 谄媚的方法，但是怎么样才能够让 AI 对我们的文章有高质量的编辑和评价呢？

让 AI 逐渐编辑你的文章，比如一次只编辑一句或一页，一段，而不是一次性编辑整篇文章。

在每个段落上做一点头脑风暴，直到你敲定了一个段落，再继续下一个。例如，如果有人写了这样的句子：“公众认为实现 AGI（即通用人工智能），意味着计算机会和人一样聪明。”你可以请 AI 帮你头脑风暴几种不同的表达方式。它可能会给出一种有力的表达、一种远见的表达，或者一种对话式的表达。

根据你的编辑目标，先和 AI 进行反复交流，直到选出一种你喜欢的改写版本。

在你敲定这一点之后，再继续处理第二句或第二段，用 AI 稍微雕琢一下，然后再继续下一句和下一段，如此下去，直到完成整篇文章。

这种依次处理一篇长文中的一小部分的做法，能让工作流程更容易掌握。

完善的评估细则能让 AI 保持客观

现在如果你想针对你写的整篇文章得到一个高质量的评价或反馈，AI 可以做到这一点

如果你想获得高层次、全面的反馈，针对你所写的整篇文章，事实证明 AI 也能帮上忙。但由于这是『自我评估（既当选手又当裁判）』，AI 通常很难成为一个优秀的客观评判者。

例如，如果你写了一篇科幻短篇小说，讲述一名宇航员走出飞船，而你不进一步指示就让 AI 去批评它，那么 AI 可能会说你做的一切都很出色。

相比之下，有一个非常有用的技巧可以引导 AI 如何评估你的作品，以提供更有帮助的批评性反馈。

那就是给它一个评分标准。例如，你可以写一个评分标准，明确最重要的评判准则是什么，并据此来打分或评判作品。

你可以说，角色塑造占 25 分（满分 100 分），情节占 25 分，世界观构建占 25 分，写作技巧占 25 分，并建立一个分数系统。

然后，你还要提供详细的说明，解释如何评估每一项准则。

例如，在评估角色时，可以问“每个主要角色是否有明确的目标？”这占 10 分；“两个角色之间的互动是否自然？”这占 1 分，等等。

给 AI 非常具体的评判标准，能帮助它更加客观。关于这些准则需要注意的一点是，每一条都必须定义得非常清晰、毫不含糊。这样对于每段文字，每一条准则要么成立要么不成立，没有中间状态。

这些完全客观的准则迫使 AI 以客观、明确且不含糊的标准来审视你提供的任何内容。

注意：如果你不确定用什么评分准则或评分标准，你可以和 AI 一起头脑风暴来制定这个评分标准，而且 AI 其实也很擅长这一点。

在你写完评分标准后，你就可以把评分标准和故事一起提供给 AI，并在你的提示词中要求 AI 保持客观。

例如：“批评所附的科幻小说，给每个类别打分，最后把分数加总。”

用提示词引导 AI 保持客观

通过给 AI 这些非常明确的指令，并说明如何加总分数，它就有望对你的故事给出更客观的评价。

如果你愿意，还可以让它提供改进建议，以便在评分标准所关注的维度上做得更好，从而获得更聚焦的改进方向。

相比之下，一个设计不佳的评分标准会助长 AI 的谄媚现象，导致评价模糊或不够客观。

例如，如果你说“我将修改这篇科幻故事，请给它打个百分制的分数”，这个提示词有一个奇怪之处：你首先要求一个总分。这只会促使 AI 直接跳到结论，先给出总分，然后再按类别（如角色、情节、世界观构建和写作技巧）打分。

而且这些类别定义模糊，因为我们没有告诉 AI 如何给角色、情节等具体打分。这样会导致 AI 先给出一个分数，然后为其辩护，而不是根据详细的评分细则仔细评估，再相加得出更有深度的分数。

相比更客观的评分细则，这种直接给出总分的评判方案，会给出虚高的分数。

跨模型审查

除了让 AI 评判它自己产生的成果外，我们还可以让不同的 AI 大模型进行互相的评估。

例如，如果你让 ChatGPT 编写一款花哨的角色扮演游戏的用户手册，它可能会为你生成一个文件。你可以给 ChatGPT 提供一个评分细则，让它批评自己的工作。

但一个巧妙的方法是找一个不同的 AI（比如 Gemini），并给它一个评分细则，让 Gemini 来批评 ChatGPT 的工作，或者反之亦然。

这种跨模型的审查，即用一个 AI 模型审查另一个 AI 模型的输出，有助于整合两个不同 AI 模型的知识，通常能带来更好的结果。

相比让一个模型仅凭自己的结果进行自我审查，在这种情况下使用多个模型可能会带来微小的性能提升。

尝试不同的 AI 模型，防止思维僵化

事实证明，AI 正在迅速发展，而在不同的时间点，不同模型在不同任务上会表现得更好。

因此，定期尝试不同的 AI 模型将有助于你保持敏锐，并不断磨练出“关于哪个模型更适合哪个任务”的直觉。

AI 具有所谓的“锯齿状能力”。如果用一个圆圈代表人类所能完成的任务（无论是在工作还是个人场景中），AI 在某些事上可以做得比任何人都好，比如快速阅读大量网页，或解决棘手的数学问题。但也存在许多任务，AI 做得不如人类。

但是有些任务 AI 做得比人类差，而有些则比人类好得多。这种“锯齿状”的能力分布，在不同 AI 模型之间也存在差异，导致它们各自擅长的任务也不同。

此外，AI 模型领域的市场竞争非常激烈，像 ChatGPT、Claude、Gemini 等模型提供商持续发布更优的版本。因此，最适合你当前任务的模型可能会迅速变化。正因如此，建议将同一个提示词输入多个主流模型，比较它们的输出结果，以此来判断哪些 AI 更适合你所关心的具体任务。

在这里插入图片描述

Module 3: Working with Multimedia & Code（多媒体处理与代码开发）

3.1 Working with multimedia data（多媒体数据处理）

AI 模型可以生成图像、视频、语音、音乐、代码及更多内容

我们之前主要用 AI 生成文本，但其实 AI 也能产生更丰富的输出类型，比如图像、视频等，这被称为多模态输出。多模态输出设计中的提示词会有所不同，因为多模态交互通常更慢、成本也更高，但这些能力能让你用 AI 完成更多任务。

AI 模型可以生成图像、视频、语音，甚至音乐和代码。你可能见过 AI 生成的各种有趣、有创意的图像。

吴恩达老师分享了一个他自己使用 AI 生成图像的案例：他女儿 7 岁生日时想要一个独特的蛋糕设计，而且她喜欢猫，于是吴老师就用 AI 生成了一些蛋糕图像来探索设计。然后，他把 AI 生成的蛋糕图片交给了蛋糕店，糕点师傅根据图片制作出了一个真实的 3D 蛋糕。在这个例子中，AI 生成图像的功能成了一个头脑风暴工具，用来探索不同的蛋糕设计，最终变成了一个大家都喜欢的真实蛋糕。

除了生成图像，吴老师也用 AI 进行了视频生成的探索。

他展示了一个有趣的视频，视频中一个人不断缩小，最后变得像蚂蚁一样小。

这种视频以前可能需要昂贵的特效才能制作，但现在 AI 可以直接生成。

在这里插入图片描述

同样，AI 也可以生成语音。吴恩达老师展示了他的语音克隆效果，以至于他的父母一方都无法分辨那是 AI 生成的声音。可见，AI 语音克隆技术确实越来越好了。

最后，AI 还能生成代码，吴老师也提到了一个例子：他的女儿喜欢猫和黄色，当老师希望班里的孩子们打字能更快一点时，吴老师就用 AI 生成了一款打字游戏。

在游戏里，如果按对了字母，就能看到小猫被喂食的有趣动画。

输入和输出有着非常丰富的组合形式

当你使用语言模型时，有很多种组合输入和输出的方式。

例如，你可以输入文本和图像。具体你可以输入一张万圣节服装的灵感图片，然后让 AI 帮你规划万圣节服装。

在这种情况下，AI 可能会输出各种文本，帮你头脑风暴一些外星人主题的服装创意。

或者，你也可以将音乐上传给 AI 并提问：“帮我规划我的鬼屋。”AI 则可能会以这些为输入，同时生成文本以及一个融入了你提供的恐怖音效的鬼屋设计视频。

某些数据类型的生成速度较慢，且成本更高

AI 模型能够使用这些输入类型。

这些输入类型大多相对容易使用，其中一些作为输入的成本可能稍高一些，但差异并不大。

相比之下，生成不同类型的输出，所需的时间和成本差异则非常大。有些数据类型生成起来非常慢，并且比其他类型昂贵得多。

文本输出在时间和成本上往往处于低端，因此 AI 生成文本非常高效。

事实上，现代 AI 始于大型语言模型（LLM）。由于它始于语言，所有这些模型都非常擅长处理文本，在这方面效率很高。

生成语音的成本通常更高一些，生成图像的成本比语音更高，生成视频则比图像还要高得多。

生成单个视频输出所需的时间非常长，成本也更高。

在这里插入图片描述

多媒体生成技术已取得显著进展

图像生成在过去几年里呈周期性发展。例如，在 2020 年，生成一个视频可能会有各种瑕疵。

相比之下，现在的 AI 视频生成效果要好得多，并且可以自动与生成的音频同步。AI 语音生成也进步了很多，几年前，AI 生成的语音可能比较模糊，像一个快坏掉的收音机；而现在生成的语音听起来非常有表现力，像真人一样自然。

多模态场景：提示词准则依旧行之有效

如果你在生成多模态数据，之前学到的一些技巧，比如给模型足够的上下文，或者使用更好的 AI 模型，这些相对容易应用的技巧也可以用于多模态生成。

但其他一些技术，例如生成多个选项，虽然你仍然可以这样做，但如果现在每个选项都需要几分钟来生成，那就变得更难应用了，因为你最终需要等待很长时间。

如果你想迭代很多设计，也会变得更加困难，因为每次生成都很耗时或昂贵。但如果你有耐心多等一会儿，所有这些技术也同样适用于生成音频、图像和视频等。

能力越大，责任越大

AI 技术可以被用于善或恶。以语音生成为例，如果你录制了一个播客，想做一些小修补，用今天的 AI 语音生成技术可以很方便地做到，只需重新合成一两个说错的词。

或者，如果你正在制作视频游戏，想给角色赋予逼真的声音，越来越多的游戏设计师正在使用 AI 语音生成来实现这一点。

这也确实引发了一个重要问题，即关于配音演员的生计。

同时，我也认为 AI 语音生成非常有价值，它让更多人，包括那些无法接触到优秀配音演员的开发者，更容易制作出有趣的视频游戏。

与这些有益用途相反，也存在一些明显有害的用途。不幸的是，诈骗事件有所增加，有人会使用 AI 声音克隆冒充他人，或假装某人的亲属遇到紧急情况并要求紧急汇款。有益的应用有很多，希望我们每个人都能将这些技术用于有益和负责任的目的。

3.2 Image understanding（图像理解）

在提示词中使用图像

在与 AI 交流时，上传图像可以为 AI 提供更丰富的上下文。

例如，你可以上传希望 AI 看到的某样东西的照片、手写文字的照片，或者任何难以用语言描述的内容。

比如，一张吴老师在白板前讲解 AI 概念的照片。将这张照片交给 AI，即使照片中老师的头部遮挡了部分白板文字，且文字是手写、有些潦草，AI 也能大致识别出老师在讲解什么内容。

在这里插入图片描述

微小细节易被忽略

AI 模型在识别图像时有一个弱点：它们往往以较粗的粒度观察图像，可能会漏掉精细的细节。

如果你将两张外观相似的体育器材图片传给 AI，并直接问“这些健身器材是什么”，AI 可能会给出一个答案，说它们是同一种东西。

但这可能是错的，因为很多健身器械在略微模糊的镜头下看起来确实很像。

因此，目前的 AI 还不擅长观察图像的细节，比如区分“臀推机”和“腿弯举机”。

相比之下，如果你上传一张特征明显的物体图片，并让 AI 为它写一则销售广告，AI 通常可以做得很好，因为这是一个视觉上非常独特的物体。

在这里插入图片描述

图文结合的提示方式

当你上传图片时，也可以给出复杂的指令，告诉 AI 如何处理。

例如，上传一张收据图片，你可以问 AI：“我该付的账单是多少？我点了哪些菜？”在这种情况下，AI 计算正确的概率很高。它阅读这类文字的能力并不差，但确实会犯错。因此，对于高风险的应用，不要完全信任它。但如果你只想快速看一眼结果，并且愿意花几秒钟复查，那么 AI 的表现还是不错的。

在这里插入图片描述

AI 甚至擅长查看一些手写文字稿，如果你将一些比较潦草的手稿图片上传给 AI，让它转录出来，它通常能做得相当不错。因此，如果你上传这样的图像并给出提示，比如“根据这些手写信件建立家族历史档案”，AI 虽然不能准确无误地读出所有内容，但或许能对这项任务做出合理的尝试。

在这里插入图片描述

在提示词中添加多张图像

你不仅可以上传单张图片，有时也可以上传多张。

例如，如果你刚结束一次头脑风暴，拍下了笔记、便利贴和白板的照片，你可以将这些图片和笔记一起上传给 AI 模型，让它总结今天头脑风暴会议上的想法。同样，它大概能很好地解读这些图片。

AI 可以得出一些总结，但这些总结可能不完美，因此需要人工复查。不过，这种行为能帮你加速整理会议笔记。

总的来说，AI 模型能够读取图像中的基本文字，但在视觉理解上可能会漏掉细节，因为它往往以较粗的粒度观察图像。有时，你也可以上传多张图片，为 AI 提供更丰富的上下文。

在这里插入图片描述

3.3 Image generation（图像生成）

图像生成器具备图像编辑能力

当你输入一张图像并要求编辑时，比如这张童年的照片，中间是吴老师的一位童年朋友。这是一张陈旧、有些褪色的老照片。

如果你将它上传到 AI 模型，要求去除炫光和粗糙纹理，并调整为更自然的宽高比，它就能生成一张更清晰、被修复好的精美照片。

在这里插入图片描述

构建图像生成提示词

如果你不确定如何编写提示词，可以让基于文本的 AI 模型帮你生成。

比如，如果你让它为“一只猫在夜间秘密经营咖啡店”这个场景生成提示词，AI 文本模型可能会写出这样的内容：

“一家奇幻童趣的夜间咖啡馆，由一只机灵的橘色小猫经营，小猫穿着迷你小围裙，在吧台后萃取浓缩咖啡；店内氛围温馨治愈，卡通画风……”

注意，这里设定了背景、角色细节以及情绪或风格。如果你不喜欢其中任何细节，可以按照自己的喜好修改。

而像这样的提示，可能会生成下边这张可爱的照片。

在这里插入图片描述

图像语言：视觉表达的逻辑

擅长视觉艺术的人拥有描述图像的特定语言。比如，有电影风格、水彩画风格、赛博朋克风格、动漫风格等等。

艺术爱好者擅长编写提示词，因为他们理解图像的语言，并能用更精确的词汇描述他们想要的外观。

因此，如果你想真正擅长生成图像，就值得学习一些关于图像语言的知识，以理解如何精确描述不同的图像。

现在有一个邪修方法：将已有的图像上传给 AI 模型，并问 AI 它会如何描述这些图像，从而反推出一些图片的提示词。

这可能会给你带来新的见解，让你了解哪些类型的词汇可以用来描述哪些类型的图像。

图像生成的工作原理

图像生成使用的技术与文本生成截然不同，当 AI 生成文本时，它是一段一段地产生输出，每次生成几个字符。

相比之下，生成图像时，它不是每次生成几个像素，而是一次性生成整个图像。

具体来说，在训练过程中，当 AI 模型查看图片（可能是在线找到的图片）来学习图片的样子时，它通常会查看图片的说明文字或描述。

例如，“一个放在木盆上的小盆栽植物”。

然后，它会学习从一张看起来像纯噪声的图像（只是一个随机像素值的网格）开始，逐步地从图像中移除或减去噪声。

图像会从一张纯噪声的网格开始，逐步去噪，最终生成一张清晰的盆栽植物图片。

这正是语言模型在训练中反复练习的过程。执行这个去噪任务的模型被称为扩散模型。

当你输入提示词，比如“一张桌面上盆栽植物的图片”，AI 模型就会启动这个过程：从一张纯噪声图像开始，逐步去除噪声，最终生成你想要的图像。关键在于，它通过学习去噪，也能呈现出人们脑海中所想象的画面。

在这里插入图片描述

扩散模型具有随机性输出特征且存在生成错误

扩散模型的输出具有随机性，也可能会犯一些特定类型的错误。

例如，如果你反复生成“一盆植物”，每次运行算法都可能产生不同的图像。

很多人也观察到，扩散模型倾向于生成长相怪异的手，手指数量常常不是五个，并且经常输出乱码文本，比如某些字母、单词或中文字符出现严重拼写错误。

此外，它还可能造成角色前后不一致。例如，让它生成一部卡通片，角色的头发在多张图片中可能会发生变化。

不过，现在的 AI 模型已经变得更擅长解决这些问题。例如，像 NVIDIA 这样的模型，可以让你上传多篇研究论文，并要求它生成一张信息图，它能很好地处理文字，使其看起来基本合理。

或者，如果你让它生成一部卡通片，更前沿的模型可以生成角色相当一致的画面，正如你看到的，这部卡通片的帧与帧之间角色看起来非常相似，文字显示也相当不错。

在这里插入图片描述

图像生成可能面临速度较慢且成本较高的问题

与生成文本的模型相比，图像生成可能更慢、更昂贵。生成一小段文本，很多 AI 模型可能在几秒钟内完成，花费不到一美分；而生成长篇文本或需要长时间思考的任务，花费则会更多。

相比之下，生成一张图像可能需要几十秒，花费几美分。而且它是一次性生成整张图像，通常没有提前停止的选项。

正因图像生成成本高昂得多，我们迭代图像的能力通常更加有限，如果要生成视频，那就更困难了。

3.4 Building apps（应用程序构建）

设计游戏

用这条提示词可以构建一个游戏：开发一款允许放置障碍物并设定目标的游戏，并能对我设计的场景进行物理模拟。下面是游戏界面：

在这里插入图片描述

另一个例子是让 AI 生成一个烟花展示。这是提示词：“开发一个交互式烟花应用。实现点击屏幕时，烟花从底部升空并绽放的效果”，然后 AI 创建了这个应用，玩起来也很有趣。

在这里插入图片描述

利用这些“构建模块”来提示并生成你的应用

如果你尝试写一条提示词，告诉 AI 为你构建一个简单的应用，这里有一些你可以考虑包含的模块。

在你的提示词中，首先指定你想要创建的目标是什么。

接下来，指定输入是什么，即用户需要向系统输入什么。

最后，指定输出是什么，也就是应用要向用户显示什么。

例如，在刚才的烟花提示词中，我们告诉 AI 的目标是生成一个有趣的烟花模拟器。输入是“我想点击屏幕”，输出是“看到五彩斑斓的烟花”。

在这里插入图片描述

除了娱乐和游戏，你还可以制作更有用、更具功能性的应用，帮你节省时间，或者让生活更轻松。

比如，你可以创建一个工作时间计时器，叫做“番茄钟”。这是一种人们用来给工作或学习计时的工具，通常是 25 分钟工作，穿插 5 分钟休息。

或者，你可以创建一个账单计算器，在这里你可以输入账单总额和需要分摊的朋友人数，它应该能告诉你每人应付多少钱。

或者，构建一个着装选择器应用，帮你基于天气决定穿什么。

这些应用每一个在日常生活中都很有趣，或者很有用。而且，如果你刚接触用 AI 制作应用，它们也是比较好的起点，因为它们相当简单，每一个都有具体、定义明确的任务。它们也不需要上传额外的文件或外部信息。它们也是那种你可以打开、使用一小会儿，然后关闭的东西。

3.5 Data analysis（数据分析）

分析您的个人数据

如果你有来自个人健康记录的数据，比如你使用了一款追踪心率的应用，或者记录了跑步时间，又或者你拥有公司的销售数据，以及其他几乎所有你能在电子表格中看到的数据类型，AI 都非常擅长为你编写代码来分析这些数据，并尝试提取有用的见解。

下面我们来看一些能启发你的例子。如果你有跑步追踪数据，你可以将其下载到电子表格中，然后上传给 AI 并询问：“我的速度和距离进展如何？”

AI 可能会花一些时间编写代码来分析数据，并可能为你生成图表，甚至提供一些见解。

又或者，如果你经营一家小企业，并拥有销售数据的电子表格，你可以上传数据并询问 AI：“关于本月的销售，你能告诉我什么？”AI 会分析一会儿，实际上可能会编写代码来计算月收入或创建图表，并尝试向你展示它发现的任何见解。AI 做数据分析通常不像真正的人类数据科学家那样精细，但为了高效地提取基本观点和见解，AI 模型可以做得相当不错。

AI 模型具备代码编写与运行能力

AI 是如何编写和执行代码的呢？事实证明，它在底层的工作方式，即编写并执行（或运行）代码的能力，就像 AI 可能使用的任何其他工具一样。

你已经看到 AI 可能拥有执行网络搜索或读写文件的工具。有些 AI 还有一个专门用于运行计算机程序或代码的工具。

这个能力通常在需要处理数据，或者进行某种计算、绘制图表时被使用。在这种情况下，AI 可以生成一堆代码，然后使用这个工具来运行代码，从而为用户生成结果。

我们之前看到过一个推理模型如何利用提示词和上下文进行推理，并偶尔决定是否需要使用网络搜索工具来获取更多信息。

同样，它不仅能选择使用网络搜索工具，还能使用代码执行工具。借助该工具，AI 可以编写一个基本的计算机程序来分析数据、计算平均值、绘制图表，或者完成任何为得到最终答案所需的事情。

在这里插入图片描述

从数据中获取洞察

让我们看一个具体例子，假设你经营一家奶茶店，你可能想观察随时间变化的销售趋势，来回答诸如“你的新饮品相对于现有饮品卖得好吗？”这样的问题。如果你手头有销售数据，AI 可以帮你处理。你可以将销售数据作为文件附加，并写下这样的提示：“哪些饮品的销量变化最大？请画成图表。”

然后，AI 会经历一个智能体分析数据并绘制图表的过程：检查数据，计算销量的月度变化，并对你的数据进行智能分析，以帮助你获得有用的见解。例如，它可能会说：“我注意到一些清晰的模式，大多数饮品表现平平，但有四款脱颖而出。我现在为这些绘制图表。”

这样，它就不会绘制所有饮品，而是识别并聚焦于最有趣的那些。

接着，它可能会生成一张图表，时间在横轴上，销量在纵轴上，每种饮品用不同颜色表示。例如，草莓抹茶在春天畅销，芒果绿茶和草莓柠檬水在夏天畅销，等等。图表还可能添加彩色高亮，让这些趋势更加突出。于是，仅用几分钟，你就能得到一张非常有用的图表。从这张图表中，你可能会得出结论：草莓抹茶的春季促销效果很给力。

在这里插入图片描述

AI 何时选择通过编程解决问题

所以，如果你有像销售数据或个人数据这样的数据，并且对从中获取见解感兴趣，我建议你尝试这种类型的分析。

如果你正在使用一个能够运行代码的 AI 模型，它什么时候会选择这么做呢？

我们已经看到，对于某些问题，它可以使用预训练知识。如果你问的是一个可以用互联网上的常识来回答的问题，它已有的知识很可能就足够了。

如果你问的是一个实时的具体问题，那么 AI 可能就会启用网络搜索功能，帮你获取更好的答案。

如果你有一个更复杂的问题，可能需要多次相关搜索，比如为你的万圣节房屋想出一个完整的计划。

对于那些需要计算或作图的查询，就是它最有可能为你编写和运行代码的情况，通过运行代码来精确执行任务。

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

第T7周：咖啡豆识别

1. 数据加载与预处理 (tf.data)在深度学习中，高效的数据管道是加速训练的关键。快捷加载：使用 tf.keras.utils.image_dataset_from_directory 可以直接从本地文件夹结构中加载图片，它会自动将子目录的名称作为数据的分类标签（按字母顺序排列）。数据集性能优化（三大核心方法）：shuffle()：打乱数据顺序，防止模型记忆数据的输入顺序，提升泛化能力。pr

AtomGit开源社区

企业级mvc高校办公室行政事务管理系统管理系统源码｜SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

AtomGit开源社区

前后端分离Spring Boot可盈保险合同管理系统系统｜SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

AtomGit开源社区

所有评论(0)

查看更多评论

ChenChen_913

@ChenChen_913

已为社区贡献3条内容

吴恩达课程笔记：AI Prompting for Everyone

ChenChen_913

Module 1: Finding Information（信息检索与获取）

1.1 The AI novice and the AI power user（初学者与高阶用户）

询问有难度的问题

提供正确的上下文

得到最真实的反馈

利用 AI 写作

不要过分关注 AI 的那些低智错误

1.2 Pretrained knowledge（预训练知识）

实用建议与冷门知识

广泛的知识储备

AI 模型基于多种数据源进行训练

AI 模型展现出惊人的理解能力

1.3 Web search（联网搜索）

可能触发网络搜索的实例

网络搜索的两种触发方式

1.4 Web search sources（联网搜索溯源）

引导 AI 参考权威的信息来源

联网搜索依托于广泛的大众化数据源

联网搜索可能提取自过时的数据源

联网搜索是一个多环节的流程

AI vs. 搜索引擎

1.5 Using deep research（深度调研功能的使用）

AI 深度调研实例

深度调研执行流程示例

联网搜索 vs。 深度研究

信息检索：内容回顾

Module 2: AI as a Thought Partner（将 AI 视为思维伙伴）

2.1 Brainstorming with Al（与 AI 进行头脑风暴）

AI 擅长生成多样化的方案

头脑风暴应以提供上下文为起点

AI 模型具备一定的原生创造力

AI 模型倾向于给出符合常识的回答

让 AI 生成高质量的创意想法

2.2 Context（上下文关联）

AI 可以基于海量的上下文进行推理

AI 模型自带预设的上下文

对话是上下文的一部分

上下文越多通常越好

切题的上下文更好

2.3 AI desktop apps（AI 桌面端应用）

AI 桌面应用的工作原理

AI 桌面应用中的上下文管理

AI 桌面应用的安全使用

2.4 Reasoning with AI （利用 AI 进行逻辑推理）

深度思考示例

AI 推理模式的工作原理

如何激发 AI 的推理能力

2.5 Sycophancy（模型的“谄媚”现象）

AI 模型具有迎合用户的倾向

AI 谄媚现象的成因分析

“谄媚”行为表面友好，实则损害输出质量

中立化的提问方式

对抗 AI 的谄媚倾向

2.6 Writing with AI（辅助写作）

AI 垃圾内容（Slop）的成因和现象分析

通过渐进式大纲进行写作

构建大纲可提升内容审校效率

2.7 AI critique（AI 评议与反馈）

分块编辑

完善的评估细则能让 AI 保持客观

用提示词引导 AI 保持客观

跨模型审查

尝试不同的 AI 模型，防止思维僵化

Module 3: Working with Multimedia & Code（多媒体处理与代码开发）

3.1 Working with multimedia data（多媒体数据处理）

AI 模型可以生成图像、视频、语音、音乐、代码及更多内容

输入和输出有着非常丰富的组合形式

某些数据类型的生成速度较慢，且成本更高

多媒体生成技术已取得显著进展

多模态场景：提示词准则依旧行之有效

能力越大，责任越大

3.2 Image understanding（图像理解）

在提示词中使用图像

微小细节易被忽略

图文结合的提示方式

在提示词中添加多张图像

3.3 Image generation（图像生成）

图像生成器具备图像编辑能力

联网搜索 vs。深度研究