寻找/构建一种视觉听觉语言等的统一表示层

Eloudy

93人浏览 · 2026-05-22 15:57:48

Eloudy · 2026-05-22 15:57:48 发布

可以先关注 “从大语言模型到 NeRF 表达的直接转换” 这一方向的学术论文。目前最核心、最直接对应这一主题的研究是 LLaNA（Large Language and NeRF Assistant） 系列工作，它首次实现了将 NeRF 的 MLP 权重直接输入到大型语言模型中进行理解与推理，而无需渲染图像或提取显式 3D 数据结构。

以下是该方向的关键论文梳理：

1. 开创性工作：LLaNA

论文：LLaNA: Large Language and NeRF Assistant
作者：Andrea Amaduzzi, Pierluigi Zama Ramirez, Giuseppe Lisanti 等（University of Bologna）
发表：NeurIPS 2024

核心思想

该论文首次提出将 NeRF 的 MLP 权重直接作为多模态大语言模型（MLLM）的输入模态。传统方法需要先将 NeRF 渲染为 2D 图像或提取为 3D 点云，再输入到视觉语言模型中；而 LLaNA 通过一个 meta-encoder（基于 nf2vec） 直接处理 NeRF 的权重矩阵和偏置，将其投影到预训练 LLM（如 LLaMA 2）的 token 嵌入空间中。

技术路径

输入：NeRF 的 MLP 权重（矩阵 $W\mathbf{W}$ 和偏置 $b\mathbf{b}$ 堆叠成矩阵 $M∈RS×H\mathbf{M} \in \mathbb{R}^{S \times H}$ ）
编码器：nf2vec meta-encoder，输出全局嵌入
投影层：可训练的线性层 $ϕ\phi$ ，将 NeRF 嵌入映射到 LLaMA 2 的词嵌入空间
特殊 token：用 <n_start> 和 <n_end> 包裹 NeRF 嵌入，与文本 token 拼接后输入自回归 Transformer

关键优势

信息完整性：直接处理权重避免了渲染视角选择和分辨率损失的问题
计算效率：处理权重的时间与空间分辨率无关，而提取点云的时间随分辨率立方增长
性能优势：在 NeRF 描述（captioning）和问答（Q&A）任务上，LLaNA consistently 优于基于渲染图像或点云的基线方法

2. 扩展与规模化：Scaling LLaNA

论文：Scaling LLaNA: Advancing NeRF-Language Understanding Through Large-Scale Training
发表：arXiv 2025-04

主要进展

数据集扩展：从 ShapeNeRF-Text（40K 合成对象）扩展到 ObjaNeRF-Text（280K NeRF，包含真实世界对象），规模扩大 7 倍，并引入人工撰写的高质量标注
LLM 规模效应：系统研究了底层 LLM 尺寸对 NeRF 语言理解任务的影响
方法延续：保留了直接处理权重的核心范式，验证了该路线在更大规模数据上的可扩展性

3. 空间感知增强：Spatial LLaNA

论文：Spatially-aware Weights Tokenization for NeRF-Language Models（OpenReview, 2025）

核心创新

针对 LLaNA 使用全局嵌入导致空间推理能力受限的问题，该工作提出 weights2space 框架：

空间化 token：meta-encoder 不再输出单一全局向量，而是生成一组空间 token 序列，保留 NeRF 内部的几何与外观的空间结构信息
Spatial LLaNA：基于空间化表示构建的 MLLM，能够进行细粒度的空间关系理解（如"按钮在屏幕的哪个位置"）
新数据集：Spatial ObjaNeRF，包含 100 个具有挑战性的空间推理标注

4. 相关但不同的方向

需注意区分"LLM → NeRF 直接转换"与以下相关方向：

方向	代表工作	区别
Text-to-3D via Diffusion	DreamFusion, Magic3D 等	使用 2D 扩散模型蒸馏到 NeRF，不直接处理 LLM 权重
Language Grounding in NeRF	LERF, OV-NeRF	将 CLIP/SAM 特征嵌入 NeRF 场，用于开放词汇分割，不涉及 LLM 理解 NeRF 权重
LLM Agent for NeRF Code	NERFIFY	用 LLM 多智能体将 NeRF 论文自动转换为代码，是代码生成而非表达转换

总结

这里是大语言模型直接理解/处理 NeRF 神经网络的权重参数，而非通过渲染中介，那么 LLaNA 系列（尤其是 NeurIPS 2024 的原始论文和 2025 年的空间感知扩展）是目前最直接、最权威的学术来源。该方向属于新兴的 “neural field as modality” 领域，将训练好的神经网络权重本身视为一种可与语言对齐的数据模态。