Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

概述

TechnologySora的核心是一个经过预训练的diffusion transformer。Transformer模型已被证明可扩展且适用于许多自然语言任务。与GPT-4等强大的大型语言模型(LLM)类似,Sora可以解析文本并理解复杂的用户指令。为了使视频生成在计算上高效,Sora使用时空潜在补丁作为其构建patches。具体而言,Sora将原始输入视频压缩为潜在的时空表示。然后,从压缩视频中提取一系列latent spacetime patches,以在短时间间隔内封装视觉外观和运动动态。这些patches补丁类似于语言模型中的单词标记,为Sora提供了用于构建视频的详细视觉短语。Sora的文本到视频生成是由diffusion transformer模型形成的。从充满视觉噪声的帧开始,该模型迭代地对图像进行去噪,并根据提供的文本提示引入特定细节。本质上,生成的视频是通过多步骤的细化过程出现的,每个步骤都细化视频,使其更符合所需的内容和质量。

Limitations and Opportunities:虽然Sora的成就凸显了人工智能的重大进步,但挑战依然存在。描绘复杂的动作或捕捉微妙的面部表情是可以增强模型的领域之一。此外,减轻生成内容中的偏见和防止有害的视觉输出等伦理考虑因素强调了开发人员、研究人员和更广泛的社区负责任使用的重要性。确保索拉的产出始终是安全和公正的,这是一个主要挑战。随着学术和行业研究团队的不懈努力,视频生成领域正在迅速发展。竞争性文本到视频模型的出现表明,索拉可能很快就会成为一个动态生态系统的一部分。这种协作和竞争的环境促进了创新,从而提高了视频质量和新的应用程序,有助于提高员工的生产力,使人们的生活更具娱乐性。

History

在计算机视觉领域,在深度学习革命之前,传统的图像生成技术依赖于基于手工特征的纹理合成和纹理映射等方法。然而,这些方法在产生复杂而生动的图像方面能力有限。生成对抗性网络(GANs)和变分自动编码器(VAE)的引入标志着一个重要的转折点,因为它在各种应用中具有非凡的能力。随后的发展,如flow modelsdiffusion models,进一步增强了图像生成的细节和质量。人工智能生成内容(AIGC)技术的最新进展使内容创建民主化,使用户能够通过简单的文本指令生成所需内容。
在过去的十年里,生成CV模型的开发采取了各种途径,如图3所示。正如BERT和GPT所证明的那样,随着Transformer架构在NLP中的成功应用,这种格局开始发生显著变化。在CV中,研究人员通过将Transformer架构与视觉组件相结合,将这一概念进一步应用于下游的CV任务,如ViTSwin Transformer。在Transformer取得成功的同时,扩散模型在图像和视频生成领域也取得了重大进展。扩散模型为使用U-Nets将噪声转换为图像提供了一个数学上合理的框架,其中U-Nets通过学习预测和减轻每一步的噪声来促进这一过程。自2021年以来,人工智能的首要关注点一直是能够解释人类指令的生成语言和视觉模型,即多模式模型。例如,CLIP是一个开创性的视觉语言模型,它将转换器架构与视觉元素相结合,有助于在大量文本和图像数据集上进行训练。通过从一开始就整合视觉和语言知识,CLIP可以在多模式生成框架中充当图像编码器。另一个值得注意的例子是Stable Diffusion,这是一种多功能的文本到图像人工智能模型,以其适应性和易用性而闻名。它采用Transformer架构和latent diffusion技术来解码文本输入并生成各种风格的图像,进一步说明了多模式人工智能的进步。

Overview of Sora

在核心本质上,Sora是一个具有灵活采样尺寸的diffusion transformer,如图4所示。它包括三个部分:

(1)time-space compressor首先将原始视频映射到潜在空间

(2) ViT然后处理标记化的潜在表示并输出去噪的潜在表示

(3) 类似CLIP的调节机制接收LLM增强的用户指令潜在的视觉提示,以引导扩散模型生成风格化或主题化的视频。经过许多去噪步骤,获得生成视频的潜在表示,然后使用相应的解码器将其映射回像素空间

Variable Durations, Resolutions, Aspect Ratios

Sora的一个显著特征是它能够训练、理解和生成原始大小的视频和图像。传统方法通常调整视频的大小、裁剪或调整纵横比,以符合统一的标准——通常是具有固定低分辨率的方形帧的短片。这些样本通常以更宽的时间步长生成,并依赖于单独训练的帧插入和分辨率渲染模型作为最后一步,从而在视频中产生不一致性。利用diffusion transformer,Sora是第一个拥抱视觉数据多样性的模型,可以在不影响其原始尺寸的情况下,以广泛的视频和图像格式进行采样,从宽屏幕1920x1080p视频到垂直1080x1920p视频,以及介于两者之间的所有视频和图像

对原始大小的数据进行训练可以显著改进生成视频的构图和取景。经验发现表明,通过保持原始的纵横比,Sora实现了更自然、更连贯的视觉叙事。Sora和在均匀裁剪的正方形视频上训练的模型之间的比较表明了一个明显的优势。Sora制作的视频显示出更好的取景效果,确保在场景中完全捕捉到受试者,而不是正方形裁剪有时会导致视图被截断。Sora的训练方法符合Richard Sutton的THE BITTER LESSON的核心原则,该原则指出,利用计算来克服人类设计的特征,可以产生更有效、更灵活的人工智能系统

Video Compression Network

Sora的视频压缩网络旨在降低输入数据(尤其是原始视频)的维数,并输出在时间和空间上都经过压缩的潜在表示,如图7所示。根据技术报告中的参考文献,压缩网络建立在VAEVQ-VAE之上。

Spacetime Latent Patches

根据Sora的技术报告和相应的参考文献,patch n’pack(PNP)可能是解决方案。PNP将来自不同图像的多个补丁打包成一个序列,如图10所示。该方法的灵感来自自然语言处理中使用的example packing,通过dropping tokens来对可变长度输入进行有效训练。这里需要在压缩网络中完成patchification和tokens嵌入步骤,但Sora可以像Diffusion transformer那样进一步对潜在的transformer tokens进行补丁。无论是否有第二轮补丁,我们都需要解决两个问题,即如何以紧凑的方式打包这些tokens,以及如何控制应该丢弃哪些tokens。对于第一个问题,使用了一种简单的贪婪方法,该方法将示例添加到具有足够剩余空间的第一个序列中。一旦无法容纳更多的示例,就用填充标记填充序列,从而产生批处理操作所需的固定序列长度。根据输入长度的分布,这种简单的打包算法可能会导致显著的填充。另一方面,可以通过调整序列长度和限制填充来控制采样的分辨率和帧,以确保有效的打包。对于第二个问题,一种直观的方法是丢弃类似的tokens,或者像PNP一样,应用丢弃速率调度器。然而,值得注意的是,3D Consistency是Sora的一个不错的特性。丢弃tokens可能会在训练过程中忽略细粒度的细节。

Image Diffusion Transformer

如图11所示,DiT通过自适应层范数(AdaLN)将条件调节与用于零初始化的附加MLP层相结合,将每个残差块初始化为单位函数,从而极大地稳定了训练过程。DiT的可扩展性和灵活性得到了实证验证。DiT成为扩散模型的新backbone。

在U-ViT中,如图11所示,将所有输入,包括时间、条件和噪声图像块,视为tokens,并提出浅 transformer 层和深 transformer 层之间的长跳连接。结果表明,基于CNN的U-Net中的下采样和上采样算子并不总是必要的,U-ViT在图像和文本到图像的生成中实现了破纪录的FID得分。

与Masked AutoEncoder(MAE)一样,Masked Diffusion Transformer(MDT)将掩模潜在建模纳入扩散过程,以明确增强图像合成中对象语义部分之间的上下文关系学习。具体而言,如图12所示,MDT在训练期间为额外的掩蔽令牌重建任务使用侧插值,以提高训练效率,并学习强大的上下文感知位置嵌入进行推理。与DiT相比,MDT实现了更好的性能和更快的学习速度。Hatamizadeh等人引入了扩散视觉变换器(DiffiT),它使用依赖于时间的自注意(TMSA)模块对采样时间步长上的动态去噪行为进行建模,而不是使用AdaLN(即移位和缩放)进行时间条件建模。此外,DiffiT使用两种混合分层架构分别在像素空间和潜在空间中进行有效的去噪,并在各种生成任务中实现了最先进的新结果。总的来说,这些研究在使用视觉转换器进行图像潜在扩散方面显示出了有希望的结果,为未来其他模式的研究铺平了道路。

Video Diffusion Transformer

在文本到图像(T2I)扩散模型的基础上,最近的研究重点是实现扩散转换器在文本到视频(T2V)生成任务中的潜力。由于视频的时间特性,在视频领域应用DiTs的关键挑战是:

  1. 如何将视频在空间和时间上压缩到潜在空间以进行有效的去噪;
  2. 如何将压缩的潜像转换成贴片并将其馈送到Transformer;
  3. 如何处理长范围的时间和空间依赖性并确保内容一致性。

Imagen Video是谷歌开发的一个文本到视频生成系统,它利用一系列扩散模型,由7个子模型组成,执行文本条件视频生成、空间超分辨率和时间超分辨率,将文本提示转换为高清晰度视频。如图13所示,首先,冻结的T5文本编码器从输入文本提示生成上下文嵌入。这些嵌入对于将生成的视频与文本提示对齐至关重要,并且除了基本模型之外,这些嵌入还被注入级联中的所有模型中。随后,将嵌入提供给用于低分辨率视频生成的基础模型,然后通过级联扩散模型对其进行细化以提高分辨率。基础视频和超分辨率模型以时空可分离的方式使用3D U-Net架构。该架构将时间注意力和卷积层与空间计数器部分交织在一起,以有效地捕获帧间依赖关系。它使用v-prediction参数化来提高数值稳定性和条件增强,以促进跨模型的并行训练。该过程解决了对图像和视频的联合训练,将每个图像视为一个帧来利用更大的数据集,并使用无分类器引导来增强提示保真度。渐进蒸馏用于简化采样过程,在保持感知质量的同时显著减少了计算负载。将这些方法和技术相结合,Imagen Video不仅可以生成高保真度高的视频,而且可以显著地控制视频,这可以通过其以各种艺术风格生成各种视频、文本动画和内容的能力来证明。

Blattmann等人提出将2D潜在扩散模型转变为视频潜在扩散模型(Video LDM)。他们通过将现有空间层中的一些事后时间层添加到U-Net骨干网和学习对齐各个帧的VAE解码器中来实现这一点。这些时间层在编码的视频数据上进行训练,而空间层保持固定,允许模型利用大型图像数据集进行预训练。LDM的解码器经过微调以实现像素空间的时间一致性,并对扩散模型上采样器进行时间对准以增强空间分辨率。为了生成很长的视频,在给定多个上下文帧的情况下,对模型进行训练以预测未来的帧,从而允许在采样期间进行无分类器指导。为了实现高时间分辨率,视频合成过程分为关键帧生成和关键帧之间的插值。在级联LDM之后,使用DM将视频LDM输出进一步放大4倍,确保高空间分辨率,同时保持时间一致性。这种方法能够以计算高效的方式生成全局相干的长视频。此外,作者还展示了通过仅训练时间对齐层将预训练的图像LDM(例如,稳定扩散)转换为文本到视频模型的能力,实现了分辨率高达1280×2048的视频合成。

Sora可以生成高分辨率视频。通过回顾现有工作和逆向工程,推测Sora还利用了级联扩散模型架构,该架构由一个基本模型和许多时空细化器模型组成。考虑到在高分辨率情况下使用注意力机器的高计算成本和有限的性能增益,注意力模块不太可能在基于扩散模型和低分辨率扩散模型中大量使用。对于空间和时间场景一致性,正如先前的工作所表明的,对于视频/场景生成,时间一致性比空间一致性更重要,Sora可能通过使用较低分辨率的较长视频(用于时间一致性)来利用有效的训练策略。此外,考虑到与预测原始潜在x或噪声的其他变体相比,Sora可能使用v参数化扩散模型,其性能优越。

基于技术报告,逆向工程表明,Sora很可能使用了一种space-time VAE编码器,而不是使用现有的预训练的VAE编码器。该编码器在视频数据上从头开始训练,其性能优于具有视频定向压缩潜在空间的现有编码器。

Language Instruction

模型指令调整旨在增强人工智能模型准确遵循提示的能力。这种改进的提示跟随功能使模型能够生成更接近人类对自然语言查询的响应的输出。为了增强文本到视频模型遵循文本指令的能力,Sora使用了一种类似于DALL·E4的方法。该方法包括训练描述性字幕制作者,并利用字幕制作者生成的数据进行微调。由于进行了指令调整,Sora能够满足广泛的用户请求,确保对指令中的细节给予细致的关注,并生成准确满足用户需求的视频。遵循指令的能力对于Sora生成一分钟长、内容复杂、忠实于用户意图的视频至关重要。根据Sora的技术报告,这种能力是通过开发一种字幕机来获得的,该字幕机可以生成长而详细的字幕,然后用于训练模型。然而,为训练这样的字幕制作者而收集数据的过程是未知的,而且可能是劳动密集型的,因为这可能需要对视频进行详细描述。此外,描述性视频字幕可能会暗示视频的重要细节。我们认为,如何改进视频字幕机值得进一步研究,对于提高文本到图像模型的指令遵循能力至关重要

Prompt Engineering

文本提示工程在引导文本到视频模型生成视觉醒目、同时精确满足用户规范的视频方面至关重要。这包括精心制作详细的描述,以指导模型有效弥合人类创造力和人工智能执行能力之间的差距。Sora的提示涵盖了广泛的场景。最近的工作(例如,VoP、Make-A-Video和Tune-A-Video)表明,即时工程如何利用模型的自然语言理解能力来解码复杂指令,并将其呈现为连贯、生动和高质量的视频叙事。如图15所示,“一个时尚的女人走在霓虹灯照亮的东京街道上……”是一个精心制作的文本提示,它确保索拉能够生成一个与预期愿景完全一致的视频。提示工程的质量取决于单词的仔细选择、提供的细节的具体性以及对其对模型输出的影响的理解。例如,图15中的提示详细指定了场景的动作、设置、角色外观,甚至所需的情绪和氛围。

图像提示充当待生成视频内容和其他元素(如角色、设置和情绪)的视觉锚。此外,文本提示可以指示模型对这些元素进行动画化,例如,添加运动、互动和叙事进展的层次,使静态图像栩栩如生。图像提示的使用使Sora能够利用视觉和文本信息将静态图像转换为动态的、叙事驱动的视频。在图16中,展示了人工智能生成的“一个戴着贝雷帽和高领毛衣的Shiba Inu”、“一个独特的怪物家族”、“形成‘SORA’一词的云”和“冲浪者在历史悠久的大厅内驾驭潮汐”的视频。这些例子展示了用DALL·E生成的图像提示Sora可以实现什么。

视频提示也可用于视频生成。最近的工作(例如,Moonshot和Fast-Vid2Vid)表明,良好的视频提示需要具体而灵活。这确保了模型在特定目标上获得明确的方向,如特定对象和视觉主题的描绘,并允许在最终输出中进行富有想象力的变化。例如,在视频扩展任务中,提示可以指定扩展的方向(时间上向前或向后)以及上下文或主题。在图17(a)中,视频提示指示Sora在时间上向后扩展视频,以探索导致原始起点的事件。当通过视频提示进行视频到视频的编辑时,如图17(b)所示,模型需要清楚地理解所需的转换,例如改变视频的风格、设置或氛围,或者改变灯光或情绪等微妙的方面。在图17(c)中,提示指示Sora连接视频,同时确保视频中不同场景中对象之间的平滑过渡。

GitHub 加速计划 / vi / vision
26
0
下载
pytorch/vision: 一个基于 PyTorch 的计算机视觉库,提供了各种计算机视觉算法和工具,适合用于实现计算机视觉应用程序。
最近提交(Master分支:1 天前 )
fab11880 1 个月前
d4a1e3d6 1 个月前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐