1. 伙伴

1.1. 从创作精美的视觉艺术作品、撰写引人入胜的文字内容,到开发复杂的数据模型、实现重复性流程的自动化,生成式人工智能的能力广泛且具有变革意义

1.2. 作为一种高效工具,既能提升生产力、激发创造力,更能为以往难以解决的复杂问题提供解决方案

1.3. 在软件工程领域,开发者通过“赛博格”模式,即微软所说的“副驾驶”​(Copilot)模式,借助代码仓库GitHub与生成式人工智能协同工作,已显著提升了工作效率

  • 1.3.1. 人类始终拥有最终控制权,并承担相应的责任与义务

  • 1.3.2. 人工智能的作用是“辅助”​,而非剥夺人类的自主性与控制权

1.4. 人类往往难以理解抽象概念

1.5. 不要因为出现了一项酷炫的新技术,就试图改写人类的历史与行为动机

1.6. 你的人工智能助手或许令人印象深刻,但它容易出错,有时还会为了迎合它所理解的你的期望而“说谎”​

1.7. 纵观计算机发展历史不难发现,最成功的新兴技术往往很快就会被赋予人类特征

2. 实施指南

2.1. 五项原则

  • 2.1.1. 明确你要解决的具体问题

  • 2.1.2. 清楚“良好”乃至“更优”的标准究竟是什么

    • 2.1.2.1. 解决问题的目标不应是追求完美,而应是显著改善现状

    • 2.1.2.2. 至少要比现有做法好得多,或者足以证明实施变革所投入的成本是值得的

  • 2.1.3. 清晰认识生成式人工智能能提供哪些帮助,以及它可能存在的局限性

    • 2.1.3.1. 需要在探索人工智能方案时保持好奇、严谨的态度,并秉持审慎怀疑的态度
  • 2.1.4. 始终以负责任、合法且符合伦理的方式行事

  • 2.1.5. 保持掌控权

    • 2.1.5.1. 绝不能将产品或服务的控制权让渡给人工智能

2.2. 以原则为导向的技术应用方法之所以有用,是因为所有人都能理解

  • 2.2.1. 优秀的技术变革本质上应是跨学科的

2.3. 并非只有数据科学家才需要了解正在发生的事情

  • 2.3.1. 应努力让组织中的每个人都明白正在使用哪些人工智能、如何使用,以及用于何种目的

2.4. 一款基于文本的大语言模型,与一款专注于视频内容的扩散模型似乎截然不同,理应采用不同的实施规则

  • 2.4.1. 以原则为导向的方法之所以有效,正是因为它刻意采用了高层级、宽范围的设定

3. 评估

3.1. 评估人工智能模型是最困难的事情之一

3.2. 指标

  • 3.2.1. 困惑度

    • 3.2.1.1. 困惑度指的是模型在预测下一个词元(通常是一段文本或图像)时的不确定程度

    • 3.2.1.2. 困惑度越低,表明模型在生成有用序列方面的性能越好

    • 3.2.1.3. 困惑度越高,模型输出的连贯性、恰当性就越差

  • 3.2.2. 双语对照分数

    • 3.2.2.1. Bilingual Evaluation Understudy, BLEU

    • 3.2.2.2. BLEU是一种用于衡量机器生成的文本与参考文本之间相似度的评估指标,广泛应用于机器翻译和文本摘要领域,以评估生成内容的质量

    • 3.2.2.3. 该指标在语言翻译任务中尤为常用

  • 3.2.3. 摘要重现关键内容分数

    • 3.2.3.1. Recall-Oriented Understudy for Gisting Evaluation, ROUGE

    • 3.2.3.2. ROUGE基于N-gram、最长公共子序列和词语对,评估生成文本与参考文本之间的重合度

    • 3.2.3.3. 和BLEU一样,它也常用于摘要任务评估

    • 3.2.3.4. ROUGE分数越高,表明摘要性能越好

  • 3.2.4. 弗雷歇起始距离

    • 3.2.4.1. Fréchet Inception Distance, FID

    • 3.2.4.2. FID用于衡量生成图像与真实图像的特征向量分布之间的距离

    • 3.2.4.3. FID值越低,表明生成图像与真实图像之间的相似度越高

    • 3.2.4.4. 该技术在评估图像生成模型时尤为有用

  • 3.2.5. 人工评估

    • 3.2.5.1. 由人类评估员对生成内容的质量、连贯性、创造性和真实性进行的主观评估
  • 3.2.6. 多样性指标

    • 3.2.6.1. 用于衡量模型输出的多样性和独特性

    • 3.2.6.2. 多样性指标有助于确保模型不会生成重复或过于相似的输出,这一点对创意类任务而言至关重要

    • 3.2.6.3. 在故事生成领域,若模型在给定相同提示时,能生成多个情节和角色各异的故事,那么它在多样性上的得分就会很高

    • 3.2.6.4. 如果生成的故事极为相似,其多样性得分就会很低

  • 3.2.7. 对抗准确率

    • 3.2.7.1. 用于衡量模型抵御“恶意输入”的鲁棒性,这类输入的目的是欺骗或混淆模型

    • 3.2.7.2. 在实际应用中评估模型的安全性和可靠性时,这是一项重要测试

    • 3.2.7.3. 一个鲁棒性强的模型则会正确地续写“垫子上”​,无视那些有意或无意混淆它的干扰信息

  • 3.2.8. 推理速度与计算效率

    • 3.2.8.1. 用于衡量输出所需的时间和计算资源

    • 3.2.8.2. 对于估算模型可能产生的运营成本而言必不可少

    • 3.2.8.3. 在语音助手等实时应用场景中,能在一秒内生成响应的模型被认为是高效的

    • 3.2.8.4. 如果模型生成响应需要几秒钟或消耗大量计算能力,那可能就不适合时间敏感的场景

3.3. 模型能力测评

  • 3.3.1. 指标有助于理解模型的单项性能,但测评可以帮助企业理解模型在其业务场景中的实际表现

  • 3.3.2. 图像生成

    • 3.3.2.1. 2023年,斯坦福大学的研究人员开发了文本到图像模型的整体评估体系测评—HEIM(Holistic Evaluation of Text-to-Image Models)​

    3.3.2.1.1. 从12个维度(以及上百个指标)评估DALL·E和Stable Diffusion等模型

    3.3.2.1.2. 图像—文本对齐

    3.3.2.1.3. 图像质量

    3.3.2.1.4. 美学

    3.3.2.1.5. 原创性

    3.3.2.1.6. 推理能力

    3.3.2.1.7. 知识

    3.3.2.1.8. 偏见

    3.3.2.1.9. 毒性

    3.3.2.1.10. 公平性

    3.3.2.1.11. 鲁棒性

    3.3.2.1.12. 多语言能力

    3.3.2.1.13. 效率

  • 3.3.3. 代码生成

    • 3.3.3.1. 作为人工智能领域已被“充分验证”的成功用例,如今几乎所有软件工程师都在使用大语言模型

    • 3.3.3.2. HumanEval

3.3.3.2.1. 由OpenAI的研究人员开发的一个测评方案,专门用于评估语言模型的代码生成能力

  • 3.3.4. 代理行为

    • 3.3.4.1. 人工智能代理构建在基础模型之上,旨在依托自然语言理解与生成能力来完成特定任务

    • 3.3.4.2. 这些任务对应的应用形式通常包括聊天机器人、虚拟助手、内容生成器、编码助手或研究助手

    • 3.3.4.3. 代理常用的测评工具是AgentBench,该工具于2023年开发,曾在8种不同场景中评估了超过25个大语言模型代理的准确性

  • 3.3.5. 真实性与准确性

    • 3.3.5.1. TruthfulQA是一项针对大语言模型的测评,涵盖38个领域,基于800多个问题构建
  • 3.3.6. 通用推理能力

    • 3.3.6.1. 人工智能模型最令人印象深刻的进展之一,便是“通用推理能力”的拓展

    • 3.3.6.2. “专家级人工智能的大规模多学科多模态理解与推理测评”​(Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI,MMMU)​

3.4. 使用这个模型是否会比我们目前的做法更好?

3.5. 这个模型是否比我们当前的系统“更好”​,以至于值得为它付出相应的成本?

3.6. 数字化转型的目的是让事情变得更好

  • 3.6.1. 除非能改进你现有的做法,否则转型就不值得

3.7. GitHub是研究和了解人工智能的重要资源库

4. 沙盒

4.1. 即便搞砸了也能推倒重来,而且几乎不会造成任何伤害

4.2. 沙盒是在安全可靠的环境中试点人工智能的理想场所

4.3. 在沙盒环境内试点人工智能与在整个组织内应用人工智能并非一回事

4.4. 沙盒是受控环境,通常存在于组织内部,但不会影响组织的核心工作流程

4.5. 沙盒模式

  • 4.5.1. 人工智能的沙盒部署指的是在一个受控隔离环境中,让组织能够对新模型进行开发、测试和实验

  • 4.5.2. 沙盒非常适合探索新想法、优化模型,且不会干扰实际运行的系统,也不会接触敏感数据

  • 4.5.3. 风险缓解:测试新的人工智能算法和更新时无须投入过多精力,可降低对生产系统造成意外影响的风险

  • 4.5.4. 成本控制:在沙盒中进行开发能及早发现并解决问题,避免在实际环境中因部署规模庞大而导致纠错成本激增

  • 4.5.5. 鼓励创新:开发者可自由试验新功能和改进方案,无须承受立即投入生产的压力

4.6. 人工智能的应用存在风险

  • 4.6.1. 降低这一风险的最佳方式是在沙盒中进行测试

4.7. 沙盒主要还是数据科学家、软件开发人员和数据工程师的主场

4.8. 让业务运营部门的代表参与沙盒测试至关重要

4.9. 沙盒环境越能贴近企业实际的运营环境,在进行企业级部署时获得一致结果的可能性就越高

5. 企业级部署

5.1. 可扩展性:确保人工智能解决方案能够应对不断增长的负载,并随业务发展而扩展

5.2. 安全性:需采取强有力的安全措施以保护敏感数据,并确保符合监管要求

5.3. 性能监控:持续监控人工智能系统的运行表现,及时发现并解决问题,确保其处于最佳运行状态

5.4. 跨部门协作

  • 5.4.1. 打破组织内部的壁垒,与数字化团队、数据科学团队及运营团队协同合作,确保人工智能与业务目标顺畅融合、高度契合

  • 5.4.2. 从要解决的问题入手,让每个团队都明确自己在解决方案中扮演的角色

5.5. 用户培训与支持:确保员工具备使用人工智能工具所需的技能和知识,并能获得持续支持

5.6. 合规性:当然,遵守行业法规和标准至关重要。证明合规性有助于与利益相关方建立信任,让他们相信你正在安全地部署人工智能

5.7. 由于企业级人工智能的部署规模较大、复杂性较高,因此该领域主要由大型云服务提供商主导

5.8. 沙盒部署对于安全开发和创新而言不可或缺,而企业级部署则侧重于以稳健、安全且可扩展的方式实施人工智能解决方案,从而为业务创造价值

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐