一、ViT 是什么

ViT = Vision Transformer,视觉 Transformer,图片专用的向量化编码器,替代 CNN 做图像特征提取,LTX、CLIP、SigLIP 的视觉编码器底层全是 ViT 架构。

  1. 核心逻辑:把整张图切成一个个小方块(patch 块),每个 patch 当成一个 “图像 token”,用 Transformer Block 做全局注意力计算,最后输出图像特征向量(就是前面说的 Embedding)。
  2. 基础标配:原版 ViT 的Patch Size=16/32,行业最常用 patch_size=32

1. 为什么图像尺寸必须是 32 的倍数

  1. Patch 切割硬性约束假设 patch 边长 = 32px,图片宽 / 高如果不能整除 32,最后一行 / 一列会出现残缺小块,无法规整打包成完整 token,计算会报错。举例子:
  • 736 ÷ 32 = 23 整除 → 合法尺寸
  • 720 ÷32=22.5 不整除 → 模型必须自动补黑边 / 裁剪才能跑
  1. 多层下采样对齐ViT 内部多层 Block、池化、特征压缩会不断 2 倍下采样,32 是 2 的 5 次方(2⁵=32),全程维度可以无损对齐、无分数尺寸;
  2. 视频 ViT(LTX 的 VIE 视觉编码器)沿用这套规则,所以你生成画面分辨率、参考图尺寸都推荐 32 倍数,避免画面畸变、边缘糊化。

二、帧数为什么是 8n+1(LTX 视频扩散模型专属规则)

1. 8 的来源:时间维度分块(Time Patch=8 帧)

LTX 视频模型不仅画面分 patch,时间轴也会切成 8 帧一组的时序 patch,和图像空间 patch 逻辑完全对应:

  • 空间:画面切成 32×32 像素块
  • 时间:连续画面切成 8 帧时间块时间 patch 固定大小 = 8 帧,时序注意力、3D UNet 卷积都是以 8 帧为最小计算单元。

2. +1 的关键:扩散模型首尾对齐、条件帧锚点

公式:总帧数 = 8 × n + 1

  1. 数学对齐如果只写 8n,最后一组时序块没有锚定基准;+1这一帧是全局锚定参考帧(一般是第一帧 / 参考 I2V 底图帧),用来约束整段视频画风、物体不变形。
  2. 模型卷积时序填充约束3D 卷积、时序注意力滑动窗口计算时,边界填充需要奇数锚帧,8n 是偶数块,加 1 变成奇数总长,卷积核滑动不会出现半帧残差,不会闪帧、物体漂移。
  3. 实操例子
  • n=2 → 8×2+1=17 帧(你之前 LoRA 训练素材就是 17frame,完全匹配)
  • n=3 → 25 帧
  • n=1 →9 帧这就是你训练日志里 17frame 的由来,LTX 官方标准训练帧配置就是 17 帧 (8×2+1)。

补充对比

  • 图像 ViT:约束 宽高 = 32×n
  • LTX 视频时序:约束 总帧数 =8×n +1两个都是模型底层 patch 分块架构带来的硬性尺寸限制。

一、patch 组数变大(n 变大、帧数变多)的微小优势

  1. 长时序连贯性更好多组时序块能容纳更长动作,比如小猫跳上柜子再嗅闻、来回走动这种连贯长动作,n=3(25 帧)比 n=2(17 帧)动作完整度更高,不容易动作半截卡顿。
  2. 慢动作、平缓镜头更稳定舒缓的日常画面、慢镜头,更长时序窗口能抑制物体漂移、光影闪烁。

二、patch 太大(n 过高)的致命缺点

1. 显存占用暴涨(你最直观感受)

3D UNet、时序注意力、ViT 编码器的算力 / 显存几乎和帧数线性上升:

  • 17 帧 (n=2):常规单卡就能轻松跑 LoRA 训练、推理
  • 33 帧 (n=4):显存直接翻倍,容易 OOM 爆显存,必须开 lowvram、梯度检查点
  • 50 + 帧以上:80% 场景单卡扛不住,训练速度大幅腰斩

2. 训练与推理速度成倍变慢

时序注意力计算量 = 时序 token 数量平方关系,帧数越高,计算耗时飙升:17 帧生成十几秒,33 帧可能要 40~60 秒。

3. 长时序反而更容易出现形变、穿模、画面崩坏

模型原生训练基线是 17 帧 (8×2+1),权重对 17 帧适配度最高:

  • n 太大(超长帧):模型没充分见过这么长时序样本,远处帧人物 / 动物容易变形、肢体扭曲、物体融化漂移;
  • LoRA 是用 17 帧素材训出来的,强行跑 33 帧长视频,LoRA 风格约束力会减弱,画风容易跑偏。

4. 动作容易变僵硬、拖影

时序窗口拉太大,扩散去噪需要兼顾前后很远帧,微小动作容易糊成拖影,快速小动作(跳跃、转头)清晰度下降。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐