可以先关注 “从大语言模型到 NeRF 表达的直接转换” 这一方向的学术论文。目前最核心、最直接对应这一主题的研究是 LLaNA(Large Language and NeRF Assistant) 系列工作,它首次实现了将 NeRF 的 MLP 权重直接输入到大型语言模型中进行理解与推理,而无需渲染图像或提取显式 3D 数据结构。

以下是该方向的关键论文梳理:


1. 开创性工作:LLaNA

论文LLaNA: Large Language and NeRF Assistant
作者:Andrea Amaduzzi, Pierluigi Zama Ramirez, Giuseppe Lisanti 等(University of Bologna)
发表:NeurIPS 2024

核心思想

该论文首次提出将 NeRF 的 MLP 权重直接作为多模态大语言模型(MLLM)的输入模态。传统方法需要先将 NeRF 渲染为 2D 图像或提取为 3D 点云,再输入到视觉语言模型中;而 LLaNA 通过一个 meta-encoder(基于 nf2vec) 直接处理 NeRF 的权重矩阵和偏置,将其投影到预训练 LLM(如 LLaMA 2)的 token 嵌入空间中。

技术路径

  • 输入:NeRF 的 MLP 权重(矩阵 W\mathbf{W}W 和偏置 b\mathbf{b}b 堆叠成矩阵 M∈RS×H\mathbf{M} \in \mathbb{R}^{S \times H}MRS×H
  • 编码器:nf2vec meta-encoder,输出全局嵌入
  • 投影层:可训练的线性层 ϕ\phiϕ,将 NeRF 嵌入映射到 LLaMA 2 的词嵌入空间
  • 特殊 token:用 <n_start><n_end> 包裹 NeRF 嵌入,与文本 token 拼接后输入自回归 Transformer

关键优势

  1. 信息完整性:直接处理权重避免了渲染视角选择和分辨率损失的问题
  2. 计算效率:处理权重的时间与空间分辨率无关,而提取点云的时间随分辨率立方增长
  3. 性能优势:在 NeRF 描述(captioning)和问答(Q&A)任务上,LLaNA consistently 优于基于渲染图像或点云的基线方法

2. 扩展与规模化:Scaling LLaNA

论文Scaling LLaNA: Advancing NeRF-Language Understanding Through Large-Scale Training
发表:arXiv 2025-04

主要进展

  • 数据集扩展:从 ShapeNeRF-Text(40K 合成对象)扩展到 ObjaNeRF-Text(280K NeRF,包含真实世界对象),规模扩大 7 倍,并引入人工撰写的高质量标注
  • LLM 规模效应:系统研究了底层 LLM 尺寸对 NeRF 语言理解任务的影响
  • 方法延续:保留了直接处理权重的核心范式,验证了该路线在更大规模数据上的可扩展性

3. 空间感知增强:Spatial LLaNA

论文Spatially-aware Weights Tokenization for NeRF-Language Models(OpenReview, 2025)

核心创新

针对 LLaNA 使用全局嵌入导致空间推理能力受限的问题,该工作提出 weights2space 框架:

  • 空间化 token:meta-encoder 不再输出单一全局向量,而是生成一组空间 token 序列,保留 NeRF 内部的几何与外观的空间结构信息
  • Spatial LLaNA:基于空间化表示构建的 MLLM,能够进行细粒度的空间关系理解(如"按钮在屏幕的哪个位置")
  • 新数据集:Spatial ObjaNeRF,包含 100 个具有挑战性的空间推理标注

4. 相关但不同的方向

需注意区分"LLM → NeRF 直接转换"与以下相关方向:

方向 代表工作 区别
Text-to-3D via Diffusion DreamFusion, Magic3D 等 使用 2D 扩散模型蒸馏到 NeRF,不直接处理 LLM 权重
Language Grounding in NeRF LERF, OV-NeRF 将 CLIP/SAM 特征嵌入 NeRF 场,用于开放词汇分割,不涉及 LLM 理解 NeRF 权重
LLM Agent for NeRF Code NERFIFY 用 LLM 多智能体将 NeRF 论文自动转换为代码,是代码生成而非表达转换

总结

这里是大语言模型直接理解/处理 NeRF 神经网络的权重参数,而非通过渲染中介,那么 LLaNA 系列(尤其是 NeurIPS 2024 的原始论文和 2025 年的空间感知扩展)是目前最直接、最权威的学术来源。该方向属于新兴的 “neural field as modality” 领域,将训练好的神经网络权重本身视为一种可与语言对齐的数据模态。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐