视频模型VIT、VIE

2402_87879118

194人浏览 · 2026-06-09 17:26:39

2402_87879118 · 2026-06-09 17:26:39 发布

一、ViT 是什么

ViT = Vision Transformer，视觉 Transformer，图片专用的向量化编码器，替代 CNN 做图像特征提取，LTX、CLIP、SigLIP 的视觉编码器底层全是 ViT 架构。

核心逻辑：把整张图切成一个个小方块（patch 块），每个 patch 当成一个 “图像 token”，用 Transformer Block 做全局注意力计算，最后输出图像特征向量（就是前面说的 Embedding）。
基础标配：原版 ViT 的Patch Size=16/32，行业最常用 patch_size=32。

1. 为什么图像尺寸必须是 32 的倍数

Patch 切割硬性约束假设 patch 边长 = 32px，图片宽 / 高如果不能整除 32，最后一行 / 一列会出现残缺小块，无法规整打包成完整 token，计算会报错。举例子：

736 ÷ 32 = 23 整除 → 合法尺寸
720 ÷32=22.5 不整除 → 模型必须自动补黑边 / 裁剪才能跑

多层下采样对齐ViT 内部多层 Block、池化、特征压缩会不断 2 倍下采样，32 是 2 的 5 次方（2⁵=32），全程维度可以无损对齐、无分数尺寸；
视频 ViT（LTX 的 VIE 视觉编码器）沿用这套规则，所以你生成画面分辨率、参考图尺寸都推荐 32 倍数，避免画面畸变、边缘糊化。

二、帧数为什么是 `8n+1`（LTX 视频扩散模型专属规则）

1. 8 的来源：时间维度分块（Time Patch=8 帧）

LTX 视频模型不仅画面分 patch，时间轴也会切成 8 帧一组的时序 patch，和图像空间 patch 逻辑完全对应：

空间：画面切成 32×32 像素块
时间：连续画面切成 8 帧时间块时间 patch 固定大小 = 8 帧，时序注意力、3D UNet 卷积都是以 8 帧为最小计算单元。

2. +1 的关键：扩散模型首尾对齐、条件帧锚点

公式：总帧数 = 8 × n + 1

数学对齐如果只写 8n，最后一组时序块没有锚定基准；+1这一帧是全局锚定参考帧（一般是第一帧 / 参考 I2V 底图帧），用来约束整段视频画风、物体不变形。
模型卷积时序填充约束3D 卷积、时序注意力滑动窗口计算时，边界填充需要奇数锚帧，8n 是偶数块，加 1 变成奇数总长，卷积核滑动不会出现半帧残差，不会闪帧、物体漂移。
实操例子

n=2 → 8×2+1=17 帧（你之前 LoRA 训练素材就是 17frame，完全匹配）
n=3 → 25 帧
n=1 →9 帧这就是你训练日志里 17frame 的由来，LTX 官方标准训练帧配置就是 17 帧 (8×2+1)。

补充对比

图像 ViT：约束 宽高 = 32×n
LTX 视频时序：约束 总帧数 =8×n +1两个都是模型底层 patch 分块架构带来的硬性尺寸限制。

一、patch 组数变大（n 变大、帧数变多）的微小优势

长时序连贯性更好多组时序块能容纳更长动作，比如小猫跳上柜子再嗅闻、来回走动这种连贯长动作，n=3（25 帧）比 n=2（17 帧）动作完整度更高，不容易动作半截卡顿。
慢动作、平缓镜头更稳定舒缓的日常画面、慢镜头，更长时序窗口能抑制物体漂移、光影闪烁。

二、patch 太大（n 过高）的致命缺点

1. 显存占用暴涨（你最直观感受）

3D UNet、时序注意力、ViT 编码器的算力 / 显存几乎和帧数线性上升：

17 帧 (n=2)：常规单卡就能轻松跑 LoRA 训练、推理
33 帧 (n=4)：显存直接翻倍，容易 OOM 爆显存，必须开 lowvram、梯度检查点
50 + 帧以上：80% 场景单卡扛不住，训练速度大幅腰斩

2. 训练与推理速度成倍变慢

时序注意力计算量 = 时序 token 数量平方关系，帧数越高，计算耗时飙升：17 帧生成十几秒，33 帧可能要 40~60 秒。

3. 长时序反而更容易出现形变、穿模、画面崩坏

模型原生训练基线是 17 帧 (8×2+1)，权重对 17 帧适配度最高：

n 太大（超长帧）：模型没充分见过这么长时序样本，远处帧人物 / 动物容易变形、肢体扭曲、物体融化漂移；
LoRA 是用 17 帧素材训出来的，强行跑 33 帧长视频，LoRA 风格约束力会减弱，画风容易跑偏。

4. 动作容易变僵硬、拖影

时序窗口拉太大，扩散去噪需要兼顾前后很远帧，微小动作容易糊成拖影，快速小动作（跳跃、转头）清晰度下降。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

KV Cache 到底是什么？一文讲透大模型推理加速原理

AtomGit开源社区

【Agentic RL / 强化学习框架】Miles 项目技术分析---（2）--- 关键技术

的本质是一个适配器模式——它将"Agent 多轮交互"（业务关注点）与"RL 训练数据生产"（基础设施关注点）完全解耦。这条解耦线画在了generate()函数上。线以上是 Agent 开发者的世界——OpenAI API、工具调用、业务逻辑。线以下是 RL 基础设施的世界——Session Server、TITO、token 对齐、loss mask、异常降级。Agent 开发者不需要知道线以下

AtomGit开源社区

Faust：把 Kafka Streams 搬到 Python 里

Faust 是 Robinhood 开源的 Python 流处理库（6.8k Star），将 Kafka Streams 功能引入 Python 生态。它无需 DSL，基于 async/await 语法，支持静态类型检查，通过装饰器定义流处理逻辑。Faust 提供分布式 K/V 存储和状态管理，支持窗口聚合与故障恢复，单核每秒可处理数万事件，天然支持水平扩展。与主流 Python 库（如 NumP