收藏必备!小白程序员入门大模型推理(多模态篇)
本文聚焦多模态模型推理优化,带读者了解大模型及推理技术的多模态视角,提供多模态大模型推理的理论知识。文章重点讨论除大语言模型外的六种常见模态(视觉语言模型、嵌入模型、自动语音识别模型、文本转语音模型、图像生成模型、视频生成模型)的推理工程,并针对每种模态的特殊注意事项进行详细解析。对于每种新模态,文章都强调了调整延迟、吞吐量和质量衡量标准的重要性。
前言
模型的模态描述了它接收何种类型的输入、生成何种类型的输出。本系列的第一篇至第五文章重点介绍针对大语言模型的推理工程,这类模型接收文本输入并生成文本输出。本文将讨论范围扩展到更多模态。
生成式 AI 模型提供丰富多样的模态,包括:
| 输入 | 输出 | 类别 |
|---|---|---|
| 文本和图像 / 视频 | 文本 | 视觉语言 |
| 文本或图像 / 视频 | 向量 | 嵌入 |
| 音频(语音) | 文本 | 转录 |
| 文本 | 音频(语音) | 语音合成 |
| 文本 | 音频(音乐) | 音乐生成 |
| 音频(语音) | 音频(语音) | 语音转语音 |
| 文本和 / 或图像 | 3D 模型 | 生成式计算机辅助设计 |
| 文本和 / 或图像 | 图像 / 视频 | 图像 / 视频生成 |
| 图像 / 视频 | 文本 | 描述 |
| 图像 / 视频 | 掩码 | 分割 |
| 文本和图像 | 图像 | 图像编辑 |
幸运的是,尽管模态众多,但生成式 AI 模型只有两大基本类型:
自回归token生成:从 token 化序列开始,预测下一个最可能的 token。
迭代去噪:从随机噪声开始,逐步生成最终输出。
大语言模型是最著名的基于 Transformer 的自回归 token 生成模型,但并非唯一。视觉语言模型、文本与多媒体嵌入模型、自动语音识别(ASR)模型、文本转语音(TTS)模型等都依赖类似架构。
许多用于大语言模型的推理引擎和优化技术同样适用于这些相关模态。
图像和视频生成模型则依赖迭代去噪,尽管越来越多的混合扩散 Transformer 模型正在刷新质量前沿。虽然从内核选择到参数调优的许多理念也适用于图像模型优化,但具体细节差异很大。
对于每一种新模态,你还需要调整对延迟、吞吐量和质量的衡量与思考方式。例如,TTS 模型输出的单个音频 token 并没有实际意义;此时不应使用 TTFT,而应衡量首个单词生成时间或首个句子生成时间。
本文讨论除大语言模型外六种常见模态的推理工程,重点关注每种模态的特殊注意事项。
视觉语言模型
视觉语言模型(VLM)接收一张或多张图像 / 视频以及文本提示,生成文本响应。

图:视觉语言模型为大语言模型增加图像和视频理解能力
视觉语言模型通常由两个模块组成:
大语言模型:标准大语言模型。
视觉编码器:小型模型,接收原始图像 / 视频输入并将其转换为图像token。
语言模型远大于视觉编码器。例如,在 Mistral Large 3 中,视觉编码器仅为 2B 参数,而大语言模型部分为 673B 参数。
尽管视觉编码器的参数规模较小,但对推理至关重要。视觉语言模型使用多样的视觉编码器架构与实现,因此视觉语言模型的运行时支持较为零散。这种碎片化提升了 vLLM 和 SGLang 在部署视觉语言模型中的重要性。
根据经验,向视觉语言模型输入一张高分辨率图像,会为输入序列增加约 1000 个视觉 tokens。虽然在很高层面上图像 token 与普通 token 类似,但数量增长极快。
在所有视觉语言模型中,推理优化的首要挑战是处理更长的输入序列与更大的 KV 缓存。这为推理的两个阶段都带来了困难:
预填充:图像被分块、嵌入、token 化,并作为输入序列的一部分送入预填充。
解码:机制相同,但上下文更长,部分模型为图像token增加了注意力变体。
本系列第五篇文章介绍的所有技术都有助于应对这一挑战:
量化:KV 缓存量化降低长序列的内存带宽与存储开销。
投机解码:视觉语言模型的解码与大语言模型一致,可通过投机解码(尤其是 EAGLE)加速。
前缀缓存:在多轮对话与重复查询中复用图像对应的 KV 缓存。
并行:使用张量并行实现快速推理,同时为大模型与长上下文访问更多显存。
解耦:将预填充转移到专用、可独立扩缩容的工作节点,处理长序列。
除这些技术外,视觉语言模型引入了新的质量–速度权衡:降采样。图像和视频可以用不同分辨率转换为视觉 token。高分辨率图像需要约四倍于低分辨率图像的 token,但提供了更详细的信息。降采样通常对单张图像输入不必要,但在输入多张图像或视频片段时可能需要。
1. 面向视觉语言模型的视频处理
视频不只是帧的集合。视频可能包含音频(尽管许多视觉语言模型无法处理音频,必须单独转录并加入提示词),且帧之间体现物体在空间中的运动,静态图像无法体现。
视觉语言模型在视频片段上训练,以理解时间维度。高质量推理需要在单次模型调用中处理整个视频片段。
一秒钟的电影级视频包含 24 帧。每一帧都是一幅图像。如果一张高清输入图像需要约 1000 个 tokens 表示,那么一段 4 秒的视频片段将产生近 100000 个 tokens 的输入序列。
实际上,视频输入不会生成如此长的输入序列 ——因为降采样几乎是必须的。
降低分辨率与帧率可以在单次推理请求中处理整个片段,尽管视频理解模型仍仅能处理极短片段。
视频被 token 化与编码后,推理与图像处理类似,只是上下文更长。前缀缓存、KV 缓存卸载与优化注意力实现对这些数万tokens的输入序列更为重要。
2. 全模态模型(Omni-Modal Models)
视觉语言模型是 “全模态” 模型趋势的重要组成部分,这类模型接收多种类型输入并生成多种类型输出。全模态模型各有利弊 —— 混合模态提供独特能力,但更小的专用模型通常在特定领域更快、更准确。
例如,许多视觉语言模型的图像输入处理中内置了文本识别能力。但这些能力仍落后于专用光学字符识别(OCR)模型,而后者的规模通常仅为前者的几分之一。
在生产环境中运行视觉语言模型推理,通常需要协同多个模型与预处理步骤的流水线。你可能需要独立的预处理器,用于从 PDF 提取数据、通过 OCR 读取图像文本,或从视频中转录音频。
流水线中的每个组件都必须单独进行速度优化,并独立扩缩容,以避免瓶颈。
嵌入模型
嵌入模型将变长文本块(或图像等其他模态输入)转换为固定长度向量表示,以捕捉输入的语义含义。

图:嵌入模型将非结构化输入数据转换为编码语义含义的向量
通过将内容编码到共享语义向量空间,你可以用简单数学比较项目之间的距离。嵌入模型(与向量数据库一起)用于Agent Memory、RAG、搜索与推荐系统等。
为支持这些用例,嵌入模型推理工作负载有两种不同的流量模式:
高吞吐量回填:批量操作,如索引数百万份文档、更新产品目录,甚至为大语言模型预训练准备数据。
低延迟查询:面向用户的独立搜索、检索或推荐请求,每毫秒延迟都会影响用户体验。
嵌入模型的推理工程首先要明确你需要服务哪一种模式。如果你需要同时支持两种模式且流量足够大,值得为每种使用场景构建独立系统。
1. 嵌入模型架构
Hugging Face 上有数万种嵌入模型,但都使用两种基于 Transformer 的架构之一:
BERT 类模型:仅编码器神经网络,通常小于 1B 参数,最初为掩码token预测构建。
基于大语言模型的模型:现代语言模型,通常不超过 8B 参数,被改造用于生成嵌入。
如今,基于大语言模型的嵌入模型提供显著更强的能力,尽管 BERT 类模型仍用于分类等对延迟敏感的简单任务。
嵌入模型在嵌入维度(输出向量长度)上引入自身的速度–质量权衡。嵌入向量包含数百到数千个数值,更长的向量编码更多信息。
现代嵌入模型使用Matryoshka 表示,在维度与质量之间实现动态权衡,同时在更短向量上保留更多信息。维度基本不影响推理时间,但会影响系统中的存储、检索与相似度计算时间。
在大多数情况下,一个嵌入模型的向量无法与另一个嵌入模型的向量进行有意义比较,即使长度相同,因为它们将输入编码到不同语义空间。
2. 嵌入模型推理
对于以大语言模型为骨干的嵌入模型(如 Qwen 3 Embed 8B),推理优化与其他高吞吐量、低延迟小型大语言模型部署共享通用工具与技术。
有多种文本嵌入模型运行时:vLLM、SGLang、Infinity、TEI(Hugging Face 文本嵌入推理)。但最佳性能来自将 TensorRT-LLM 适配运行这些模型。

图:高性能嵌入推理流水线在优化推理引擎前增加并行分词与批处理管理
TensorRT-LLM 提供优化的 XQA 内核实现快速注意力,并使用内核融合技术减少内存访问开销。对于受支持的模型,TensorRT-LLM 在延迟与吞吐量上都是性能最强的推理引擎。
进一步提升来自量化。虽然小模型更容易因量化损失质量,但对嵌入模型权重进行 FP8 量化可在最小质量损失下提升性能。
检查量化后嵌入模型质量的最简单方法是:将相同输入同时送入原始模型与量化模型,然后检查输出向量的余弦相似度。余弦相似度为 100% 表示向量完全相同;你希望相似度至少达到 99%,以确保量化可靠。
由于嵌入模型并行处理token,前缀缓存与解耦不是相关优化。并且由于这些模型规模较小,跨多 GPU 并行效率不高。相反,高流量部署应水平扩展,每块 GPU 作为独立副本。
在高流量嵌入模型部署中,批处理与排队对性能起重要作用。嵌入模型提供的批处理大小远高于其他模型。单个请求可将数十到数百个文本输入批量组合为列表,许多请求可在单块 GPU 上并行运行,因为即使最复杂的嵌入模型也相对小巧、快速。
无论你执行大规模回填还是应对使用量激增,流量都可能超过嵌入模型提供的大批处理大小。在这些情况下,稳健的排队系统是支持嵌入模型推理的必要基础设施。
自动语音识别模型
自动语音识别(ASR)模型接收音频输入并生成文本输出,支撑转录与听写应用。最流行的开源 ASR 模型是 OpenAI 发布的 Whisper。Whisper 支持数十种语言的准确转录。

图:自动语音识别模型将输入音频转录为文本
Whisper 有多种尺寸,但最大、质量最高的 Whisper 模型仅为 15.5 亿参数。Whisper 可以在 H100 等大型 GPU 的分片(通过多实例 GPUs(MIGs))上极快地运行。尽管存在各种尺寸、变体、蒸馏版与量化版,但在实际应用中,使用最高质量模型 Whisper 3 Large 与 Whisper 3 Turbo 即可满足大多数延迟预算。
Whisper 是编码器–解码器模型:
编码器:接收处理后的音频波形(对数梅尔频谱图)并将其编码为音频特征。
解码器:接收这些编码音频特征并将其转换为文本token。
绝大多数推理时间花费在解码器上,解码器是自回归 Transformer 模型,架构与大语言模型非常相似。幸运的是,有优秀工具可以优化这一主要瓶颈。
解码器端性能优化的主要工具是TensorRT-LLM。使用 TensorRT-LLM,你可以为解码器实现动态批处理,以及配备高效 CUDA 内核的优化 C++ 运行时。TensorRT-LLM 与 Hopper、Blackwell 等最新架构配合效果尤佳,使 MIG 成为 ASR 推理的更佳选择。
1. 单片段延迟优化
Whisper 的一个用例是实时转录,如听写应用或语音助手。
对于实时 Whisper,关注单个音频片段转录的往返时间。理想目标是200 毫秒,这是人类平均反应时间。
在优化的 TensorRT-LLM 推理引擎上运行 Whisper 时,运行时层面提升性能的空间已经不大。相反,实时语音识别的大部分提升来自编排与基础设施。
ASR 产品体验的最大升级是流式传输,它在 API 服务器层实现,而非模型运行时层。通过建立 WebSocket 连接,将音频持续流入、文本持续流出,产品可以实时转录,而非转录预录制音频。
在 ASR 运行时层,一切不变。相反,流式转录实现使用语音活动检测(VAD)模型监控输入流,并将其分割为独立片段供 ASR 模型处理。推理按常规方式在片段上运行,文本结果通过 WebSocket 流式返回。
这种设置可以处理多个并发流,并且优势是保持转录顺序。当每个片段在同一块 GPU 上处理时,你可以将前一片段的输出序列作为下一片段的前缀,提升转录质量。
2. 长文件延迟优化
Whisper 模型的一个限制是只能支持 30 秒片段。转录长文件(如一小时播客)需要一套不同的优化方案。
使用名称容易混淆的实时因子(RTF)衡量长文件转录性能。如果世界上最快的打字员需要 30 分钟手动转录一小时音频,其 RTF 为 2 倍。经过长文件优化的 Whisper 部署可以在不到 4 秒内转录一小时音频,RTF 达到约1000 倍。
长文件的快速转录需要多步骤流水线。第一步仍然是 VAD 模型,这次运行在专用硬件上。该模型用于去除静音,并将音频切分为有意义的片段,而非按时间间隔分割(避免将单词切成两半)。
然后,片段可以并行处理。理想情况下,你使用多块 GPU(或多个 MIG)同时处理更多音频片段。RTF 大致随使用的 GPU 数量线性提升。每块 GPU 通过动态批处理同时处理多个片段,实现高利用率。
最后,按时间戳将分块转录结果拼接回去。

图:长音频文件转录的两阶段流水线通过并行片段转录提升端到端请求时间
并行片段转录会失去使用前序序列作为后序前缀的能力。但有其他质量提升技术可以弥补。
对于 ASR 输出,你可以通过测量输出的压缩比与每分钟单词数,自动检测重复单词、短语等幻觉。当片段出现问题时,你可以:
- 以更高温度重新运行片段。这看似违反直觉 —— 更高温度通常产生更多幻觉 —— 但目的是打破重复循环,生成不同输出。
- 将整个音频或音频片段重新切分为更小片段,重新转录。
在实践中,这些技术消除了使用前序序列作为前缀的需求,实现高效、准确的长文件并行转录。
3. 说话人分离
说话人分离(为转录标注说话人与时间)是与转录相关的问题。说话人分离模型根据声音特征对音频进行分类,然后在文件中分段与聚类,标注说话人变化时间。
说话人分离模型是完全不同的模型类别。Whisper 是编码器–解码器 Transformer 模型,而 pyannote audio 等说话人分离系统是经典机器学习模型流水线。
说话人分离流水线包含分割、嵌入与聚类模型。为优化说话人分离,你必须快速运行每个模型,并高效编排整个流水线。
由于说话人分离是机器学习流水线,你可以使用 PyTorch、pyannote 等工具以及 Torch 编译等优化方法提升性能。在实践中,即使高度优化的说话人分离实现,处理音频文件的时间也至少是转录的两倍。
文本转语音模型
文本转语音(TTS)模型(又称语音合成模型)接收文本输入并生成音频输出,专门生成语音。2025 年,Orpheus TTS 等开源模型为开源生态带来逼真语音合成能力。许多公司对 Orpheus 进行微调,提升人声质量与产品专用音色,推动语音 AI 领域对开源模型的广泛采用。

图:文本转语音模型将输入文本合成为语音
现代 TTS 模型是微调大语言模型。例如,Orpheus TTS 源自 Llama 3.2 3B。这意味着许多为大语言模型开发的运行时与性能优化技术同样适用于语音合成模型。
TTS 模型参数规模较小 ——3B 参数的 Orpheus TTS 属于较大型号 —— 意味着与 ASR 模型一样,H100 上的 MIG 是高效、高性能的推理选择。
与通常以 FP16 运行的 ASR 模型不同,TTS 模型权重与 KV 缓存可以量化为 FP8,结合 TensorRT-LLM 推理引擎带来的优化内核与动态批处理,进一步提升性能。
以大语言模型为骨干的 TTS 模型通过将大语言模型词表大小扩展数万编码音频令牌进行训练。随后,模型在文本输入与令牌化音频输出配对数据上训练。这意味着在实际使用 TTS 模型时,你还需要音频解码器,将音频输出 token 转换为波形。
这一音频解码过程为推理增加了潜在瓶颈。音频解码器应使用 PyTorch 实现,并针对目标 GPU 编译高效运行,同时使用动态批处理与短超时(如 15 毫秒)。动态批处理对音频解码器不可行。
TTS 模型性能使用与大语言模型略有不同的指标衡量。关键指标为:
TTFB:首字节时间,是语音合成的首token时间等效指标。
首句时间:比 TTFB 更贴近用户体验的延迟指标,即生成第一个有意义短语或句子的时间。
TPS:与大语言模型一样,TTS 模型生成token,因此解码速度可以用每秒token数衡量。
与大语言模型的 TTFT 一样,语音合成的目标是最小化 TTFB。对于 Orpheus,在单块 H100 上可以低至 150 毫秒。
但是,TTS 模型的 TPS 目标有所不同。模型生成的token会转换为音频波形。根据模型不同,实时生成音频可能需要每秒 80 至 100 个 token。超过该水平,每秒生成更多token没有额外收益。
相反,性能提升用于扩展并发实时输出数量。如果单块 GPU 可以支持更多并发用户,语音合成的单用户成本会大幅下降。
1. 流式实时文本转语音
大多数文本转语音任务需要实时语音合成。与 ASR 模型一样,实时系统的性能提升更少来自运行时层(已通过 TensorRT-LLM、量化与编译 SNAC 解码器优化),而更多来自基础设施。
同样,基于 WebSocket 的流式传输相比离散发送文本与接收音频,带来最大性能提升。测试推理引擎确定可生成的并发实时流数量后,设置相同的批处理大小与活跃 WebSocket 数量,保持高使用率但稳定。
TTS 模型很少在实时应用之外使用。但是,如果你确实遇到批量用例(如为大量文档回填音频以提升可访问性),请注意 TTS 模型不适合处理长输入,语音质量在 30 秒左右开始下降。
2. 语音转语音模型
一个令人兴奋的研究方向是语音转语音模型,即接收音频输入并生成音频输出的模型。
如今,大多数语音系统使用级联方式:ASR 模型、大语言模型与 TTS 模型在流水线中完成听、思考、回复。这些流水线还使用 VAD、嵌入模型等辅助组件,促进自然对话并添加上下文。

图:大多数基于语音的应用使用级联方式,采用多模型流水线
OpenAI 的 gpt-realtime 等语音转语音模型,为核心大语言模型增加音频接收与生成能力,有效将流水线统一为单一模型。这之所以成为可能,是因为 ASR、大语言模型与 TTS 共享相似架构,尤其是解码器部分。
截至2026年初,尚无商业可用的开源语音转语音模型,gpt-realtime 等闭源方案能力明显弱于级联多模型方案,且成本更高。但该领域研究活跃,这一新兴模态很快将需要专属推理工程方案。
图像生成模型

图:图像生成模型可以接收文本与参考图像,创建新的输出图像
在几个方面,处理图像与视频生成模型与处理大语言模型完全不同。
首先是架构。尽管 HunyuanImage-3.0 等最新模型与大语言模型更为接近,但大多数图像与视频生成模型是迭代去噪器,而非自回归token生成器。图像生成模型是多个小型模型在隐空间协同工作的流水线,而非大语言模型的统一解码器架构。
因此,工具链不同。截至2026年初,SGLang Diffusion 与 vLLM Omni 均为全新推出。大多数图像与视频生成模型推理在栈中更低层级实现,直接使用 PyTorch 或 TensorRT。
约束条件也不同。图像生成模型比前沿语言模型小 10 到 20 倍,推理受计算限制,而非带宽。
但也许最重要的区别是,图像与视频生成模型提供更直接的质量–速度权衡。
以编程方式评估图像模型输出质量非常困难。使用视觉语言模型的自动流水线最多只能给出方向性信号,可能与人类偏好不一致。人眼的评判难以捉摸,大多数图像质量评估通过让人类在数千张图像中选择,将感受与偏好汇总为质量基准。
1. 图像生成内核优化
当你从模型仓库阅读图像生成模型的模型卡片时,推理示例通常使用 diffusers库,几乎没有优化。
实际上,尽管理论上图像生成是计算密集型,但你通常需要选择内存高效内核并使用内核融合,才能真正达到这一瓶颈。
高性能图像模型推理使用以下三种库之一:
SGLang Diffusion:为流行图像与视频生成架构构建的高性能推理引擎。
TensorRT:高质量黑盒实现,使用 NVIDIA 自研内核运行主流模型。
PyTorch:精心选择内核与融合,提供可控、灵活、高端性能提升。
如果你希望立即获得可用效果,直接使用 SGLang Diffusion 或 TensorRT 实现即可。但使用 PyTorch,高级推理工程师有机会进行深度定制。
最核心的内核是注意力内核。许多图像生成模型默认使用 FlashAttention 2,但在 Hopper 与 Blackwell GPU 上,FlashAttention 3 与 4 分别提供更好性能。
还有大量较小的内核,尤其是 RMSNorm 等归一化函数,是融合的良好候选,以确保内存使用高效。
然后,GEMM 内核对计算密集型推理至关重要。GEMM 内核应用于线性层,通常可以安全量化为 8 位浮点格式,在张量核心上获得两倍算力。CuTe、CUTLASS 或 DeepGEMM 的内核在不同模型中效率可能最高。
Torch 编译包含自动内核融合与插件系统,可插入手动选择的内核,生成的引擎可以缓存,加快节点启动加载速度(这一点很重要,因为编译需要数分钟)。
与大多数高性能引擎一样,Torch 编译针对执行编译的特定 GPU 型号与架构 —— 如果你希望在 B200 上运行模型,请在 B200 上完成编译。
2. 加速图像生成的一个实用技巧
内核选择与 Torch 编译都是真正的推理优化技术。但推理优化世界中也有有趣的技巧,这里介绍其中一个。

图:回顾扩散是分步过程,图像大致轮廓在早期步骤确立
图像生成时间与步数线性相关。这就是为什么少步模型与隐一致性模型比完整 50 步模型快得多的原因。但减少步数可能使图像质量降至不可接受水平。
每一步通过去噪模型的批处理大小为 2,因为每一步包含一次带提示引导与一次不带提示引导的迭代。
回顾一下,引导参数控制在合并每一步生成的两次迭代时,带提示引导图像的权重。如果引导为 0,则无需生成带提示引导的图像。
在最初几步之后,图像的基本轮廓已经确定,剩余步骤用于填充细节。因此,提示相关性在早期步骤更重要,这些步骤影响图像整体轮廓 —— 模型不会在后续步骤中改变主意,把正在生成的猫换成狗。
如果你在图像生成中途关闭引导,可以在不减少步数的情况下减少去噪模型的运行次数。如果在 50 步运行的最后 20 步跳过引导,模型只需运行 80 次而非 100 次,质量通常保持高位。
视频生成模型

图:视频生成模型接收文本提示,也可以接收关键帧或其他图像、音频、视频输入
视频生成是要求最高的模态。只要条件允许,这些模型应在 Blackwell GPU(或未来可用的 Rubin)上运行。这些 GPU 提供高内存容量用于上下文并行、快速张量核心用于注意力计算,以及微缩放数据格式以实现更精确量化。
在架构上,视频生成与图像生成相似,只是在隐空间渲染完整视频而非单帧。遵循规模越大、技术越多的原则,视频生成使用所有图像生成技术,外加额外优化。
与图像生成一样,视频生成是计算密集型,通过隐空间迭代去噪工作。视频生成模型通常采用与图像生成模型相同的去噪步数(约 50 步),但每一步处理的数据量大得多。
由于视频生成模型是计算密集型的,批处理不像文本生成那样有用。视频生成模型通常在整台 8 卡节点上运行,批处理大小为 1:全部 8 块 GPU 协同生成一个视频。
与可以通过调整批处理大小实现延迟–吞吐量权衡的批量工作负载不同,提升视频生成吞吐量与降低成本的唯一方法是让模型本身更快。
早期视频生成模型是逐帧的。它们一帧一帧生成。这降低了视频输出的质量与连贯性。如今,视频生成模型在隐空间中对整个视频运行去噪步骤。图像生成的隐空间表示二维(宽、高),视频模型则表示三维(宽、高、时间)。
这意味着在每次注意力计算中传递海量数据。对于视频模型,注意力占用70%~80% 的计算时间,使注意力成为最重要的优化对象。
1. 注意力优化与量化
注意力优化从内核选择开始。测试 FlashAttention、DeepGemm、CuTe、CUTLASS 内核,查看哪种最适合你的模型。
语言模型使用 KV 缓存加速注意力,视频生成模型则使用其他缓存模式尝试复用模型输出。复用注意力计算的部分内容可以使视频生成速度实际提升30%~40%。
精确的算法与实现不断随研究更新,但有两种基本缓存方法:
基于时间步的缓存:缓存并复用特定时间步的输出,跳过整个步骤。
基于 Transformer 的缓存:缓存并复用隐状态,跳过 Transformer 自身的层。
这些策略的质量损失从可忽略到无法使用不等 —— 生产使用前请仔细测试。
除内核与缓存外,加速注意力的主要工具是量化。
对于受带宽限制的语言模型推理,量化的好处是需要加载到内存的数据更少。对于视频模型,量化意味着切换到低精度张量核心,获得双倍 FLOPS。
但是,语言模型量化关注权重 —— 大型线性层,量化影响可忽略。对于视频模型,量化权重仍然有帮助,但尽管这些层占用大部分内存带宽(限制语言模型),它们仅占视频模型计算时间的一小部分。
相反,视频模型的量化重点是注意力。注意力是任何模型中量化风险最高的部分,因为误差会在推理过程中累积。对于视频模型,只有约 50 步,而非token生成中数千次自回归迭代,风险略低但仍然重要。
降低质量影响的第一种方法是使用分块量化与微缩放数据格式(MXFP8),两者均在 Hopper 与 Blackwell 上支持。微缩放数据格式能更好地保留异常值,而异常值对注意力准确性影响重大。
最先进的注意力量化方法是在模型内选择性量化:
按步骤:早期步骤保持 FP16,后续步骤量化。
按层:保留首层与末层,量化隐藏层。
按步骤量化遵循与图像生成模型中无分类器引导技巧相同的思路:早期步骤确立图像轮廓,后续步骤优化细节。这些早期步骤对提示相关性与准确性更重要。
对于层,首层与末层更重要,因为它们接收输入并生成最终输出。隐藏层仅执行中间计算,受近似影响较小。
通过只量化视频生成过程中不太重要的部分,质量得以保留。这些策略可见于 SageAttention 等内核,这是一种 8 位注意力内核,可用于视频生成模型的高质量低精度注意力。
2. 上下文并行
尽管视频生成模型通常在整台 8 卡节点上运行,它们使用上下文并行而非张量并行。
上下文并行将权重复制到每块 GPU。视频模型足够小,将权重复制 8 份会占用可观内存,但在 B200 上可行。
上下文并行不在 GPU 间拆分模型,而是在 GPU 间拆分注意力计算。这通过环形注意力等机制协调,每块 GPU 持有一部分上下文,并将中间结果传递给环中的下一块 GPU。

图:上下文并行复制模型权重,但共享隐空间,在视频模型推理中计算注意力
Transformer 模型的注意力是多头的,通常有 8 个或更多头。注意力头相互独立,因此可以分开运行,之后合并结果。
注意力不是唯一可以并行的部分。例如,使用变分自编码器的隐解码步骤占总推理时间的 3%~5%,可以跨 GPU 运行。
这些并行技术使 AI 视频成为可能。随着视频序列变长、视频模型变大,并行将继续成为视频生成模型推理最关键的技术。
最后
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?
答案只有一个:人工智能(尤其是大模型方向)
当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右。
再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。
如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!
下面是我整理的大模型学习资源,希望能帮到你。

👇👇扫码免费领取全部内容👇👇

1、大模型学习路线

2、从0到进阶大模型学习视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

4、 AI大模型最新行业报告
2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享(107 道)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
-
硬件选型
-
带你了解全球大模型
-
使用国产大模型服务
-
搭建 OpenAI 代理
-
热身:基于阿里云 PAI 部署 Stable Diffusion
-
在本地计算机运行大模型
-
大模型的私有化部署
-
基于 vLLM 部署大模型
-
案例:如何优雅地在阿里云私有部署开源大模型
-
部署一套开源 LLM 项目
-
内容安全
-
互联网信息服务算法备案
-
…
👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)