在这里插入图片描述
大家好,今日必读的大模型论文来啦!

1.上海 AI Lab 新研究:将 LVLM 分辨率提升到 4K HD

由于分辨率限制,大型视觉语言模型(LVLM)在理解细粒度视觉内容方面面临挑战。

来自上海 AI Lab 和香港中文大学的研究团队提出了 InternLM-XComposer2-4KHD —— 将 LVLM 分辨率提升到 4K HD(3840 x 1600)及更高分辨率的开创性探索。同时,考虑到并非所有场景都需要超高分辨率,它支持从 336 像素到 4K 标准的各种不同分辨率,大大拓宽了其适用范围。

这项研究提出一个新的扩展——具有自动补丁配置的动态分辨率,推进了补丁划分范式。它在保持训练图像长宽比的同时,根据预先训练的视觉 transformer(ViT)(336 x 336)自动改变补丁数量和配置布局,从而实现从 336 像素到 4K 标准的动态训练分辨率。

研究表明,将训练分辨率扩展到 4K HD 可带来持续的性能提升,而不会触及潜在改进的上限。InternLM-XComposer2-4KHD 在 10 项测试中表现出了与 GPT-4V 和 Gemini Pro 相媲美甚至超越的能力。

论文链接:
https://arxiv.org/abs/2404.06512
Github 链接:
https://github.com/InternLM/InternLM-XComposer

2.Transformer 的可解释性会转移到 RNN 吗?

目前,循环神经网络架构的最新进展,如Mamba和RWKV,使 RNN 在语言建模复杂性和下游评估方面的性能达到或超过等尺寸 transformer ,这表明未来的系统可能建立在全新的架构上。

EleutherAI 研究了原本为 transformer 语言模型设计的部分可解释性方法是否能够迁移到这些新兴的循环架构。具体来说,他们重点研究了通过对比激活加法引导模型输出、通过调整透镜激发潜在预测,以及从微调模型中激发潜在知识,从而在特定条件下产生错误输出。

结果表明,这些技术中的大多数在应用于 RNN 时都很有效,同时,利用 RNN 的压缩状态可以改进其中的一些技术。

论文链接:
https://arxiv.org/abs/2404.05971

3.LLM2Vec:将仅解码器的 LLM 转换为强文本编码器

大型解码器语言模型(LLM)是当今大多数 NLP 任务和基准测试中最先进的模型。

然而,社区只是缓慢地将这些模型用于文本嵌入任务,这些任务需要丰富的上下文化表示。

来自麦吉尔大学、ServiceNow 公司和 Facebook CIFAR 的研究团队提出了 LLM2Vec,一种简单的无监督方法,可以将任何仅解码器的 LLM 转换为强文本编码器。

LLM2Vec 由三个简单步骤组成:(1)启用双向注意(2)屏蔽下一个 token 预测(3)无监督对比学习。他们将 LLM2Vec 应用于 3 个流行的 LLM(从 1.3 B 到 7B 参数),并评估了该模型在英语单词和序列级任务上的有效性。他们在单词级任务上的表现大大优于仅编码的模型,并在大规模文本嵌入基准测试(MTEB)上达到了 SOTA。

此外,当将 LLM2Vec 与监督对比学习相结合时,他们在仅在公开可用数据上训练的模型中实现了最先进的 MTEB 性能。实证和分析表明,LLM 可以有效地以参数高效的方式转换为通用文本编码器,而不需要昂贵的适应或合成 GPT-4 生成的数据。

论文链接:
https://arxiv.org/abs/2404.05961

4. Ada-LEval:长上下文 LLM 评估基准

最近,大型语言模型(LLM)界对增强 LLM 处理超长文档的能力表现出越来越大的兴趣。随着各种长文本技术和模型架构的出现,对模型的长文本能力进行精确而详细的评估变得越来越重要。

然而,现有的长文本评估基准(如 L-Eval 和 LongBench)基于开源数据集构建长文本测试集,主要侧重于质量保证和摘要任务。这些数据集包括不同长度(从 2k 到 32k+ 不等)的测试样本,这些样本混杂在一起,使得在不同长度范围内评估模型能力具有挑战性。此外,这些数据集也没有涵盖最新 LLM 声称可以实现的超长设置(100k 以上 token)。

上海 AI Lab 和上海交通大学的研究团队提出了一种长度适应性基准 Ada-LEval,用于评估 LLM 的长上下文理解能力。Ada-LEval 包括两个具有挑战性的子集:TSort 和 BestAnswer,可对 LLM 的长上下文能力进行更可靠的评估。这些基准支持对测试用例长度的复杂操作,可以轻松生成多达 128k token 的文本样本。

他们用 Ada-LEval 评估了 4 个先进的闭源 API 模型和 6 个开源模型。评估结果表明了当前 LLM (尤其是在超长上下文设置中)的局限性。

论文链接:
https://arxiv.org/abs/2404.06480
Github 链接:
https://github.com/open-compass/Ada-LEval

5.MuPT:生成式符号音乐预训练 Transformer

来自多伦多大学、中国科学院深圳先进技术研究院的研究团队及其合作者探索了大型语言模型(LLMs)在音乐预训练中的应用。

虽然在音乐建模中普遍使用 MIDI 已是公认的事实,但研究结果表明,LLM 本身与 ABC Notation 更为兼容,后者更符合 LLM 的设计和优势,从而提高了模型在音乐创作中的性能。为了解决在生成过程中不同音轨的测量值不一致所带来的挑战,他们提出了一种同步的多音轨 ABC 记谱法(SMT-ABC Notation),旨在保持多个音乐音轨之间的一致性。

他们建立了一系列能够处理多达 8192 token 的模型,涵盖了训练集中 90% 的符号音乐数据。此外,他们还探索了符号音乐缩放定律(SMS Law)对模型性能的影响,研究结果为音乐生成的未来研究指明了一个有希望的方向。

论文链接:
https://arxiv.org/abs/2404.06393
Github 链接:
https://map-mupt.github.io/

6.负责任的生成式 AI:生成什么,不生成什么

近年来,与大型语言模型和文本到图像模型一样,生成式人工智能(GenAI)在各个领域受到了极大的关注。

然而,确保这些模型生成负责任的内容对于它们在现实世界中的适用性至关重要。

为了应对这一挑战,牛津大学高级研究员 Jindong Gu 探究了文本生成模型和视觉生成模型的实际负责任要求,概述了五个关键考虑因素:生成真实的内容,避免有毒内容,拒绝有害指令,不泄露与训练数据相关的内容,并确保生成的内容可识别。

具体来说,他们回顾了满足这些要求的最新进展和挑战。此外,他们讨论并强调了负责任的 GenAI 在医疗保健、教育、金融和人工智能领域的重要性。通过对文本和视觉生成模型的统一视角,该研究团队旨在为实际安全相关问题提供见解,并进一步使社区在构建负责任的 GenAI 方面受益。

论文链接:
https://arxiv.org/abs/2404.05783

7.AgentsCoDriver:用大模型驱动多车协同驾驶

近年来,互联和自动驾驶技术发展迅速。

然而,目前的自动驾驶系统主要基于数据驱动方法,在可解释性、泛化和持续学习能力方面存在不足。此外,单车自动驾驶系统缺乏与其他车辆协作和协商的能力,而这对自动驾驶系统的安全性和效率至关重要。

为了解决这些问题,来自香港城市大学和香港大学的研究团队用大型语言模型(LLM)开发了一个新颖的框架—— AgentsCoDriver,以实现多车协同驾驶。AgentsCoDriver 由五个模块组成:观察模块、推理引擎、认知记忆模块、强化反射模块和通信模块。它可以通过与环境的不断交互,长期积累知识、教训和经验,从而使自己具备终身学习的能力。此外,利用通信模块,不同的智能体可以在复杂的交通环境中交换信息,实现协商与协作。大量实验表明了 AgentsCoDriver 达到了 SOTA。

论文链接:
https://arxiv.org/abs/2404.06345

8.清华团队推出 MiniCPM:利用可扩展的训练策略挖掘小模型潜力

近年来,人们对开发拥有多达万亿个参数的大型语言模型(LLMs)的兴趣日渐浓厚,但同时也担心资源效率和实际开支,特别是考虑到实验的巨大成本。

在这种情况下,探索小型语言模型(SLM)作为资源节约型替代方案的潜力就显得尤为重要。

来自清华大学、Modelbest 公司和 OpenBMB 的研究团队提出了 MiniCPM,特别是 1.2B 和 2.4B 非嵌入参数变体,它们不仅在各自的类别中表现出色,而且还展示了与 7B-13B LLM 不相上下的能力。

在关注 SLM 的同时,他们的方法在模型和数据两个维度上都表现出了可扩展性,适合未来的 LLM 研究。在模型扩展方面,他们采用了大量的模型风洞实验,以实现稳定和最佳的扩展;在数据扩展方面,他们提出了热身—稳定—衰减(WSD)学习率调度器(LRS),有利于持续训练和领域适应。该研究团队对 WSD LRS 中发生的耐人寻味的训练动态进行了深入分析。有了 WSD LRS,可以无需在模型和数据两个轴上进行大量的再训练实验,从而高效地研究数据模型的缩放规律,并由此得出比 Chinchilla Optimal 高得多的计算最佳数据模型比。

此外,他们还提出了 MiniCPM 系列,包括 MiniCPM-DPO、MiniCPM-MoE 和 MiniCPM-128K,其优异的性能进一步巩固了 MiniCPM 在多种 SLM 应用中的基础。

论文链接:
https://arxiv.org/abs/2404.06395
Github 链接:
https://github.com/OpenBMB/MiniCPM

9.SambaLingo:让大模型学会新语言

尽管 LLM 广泛存在,但其能力和在不同语言中的可用性仍有很大差距。解决这些问题的一种方法是采用现有的预训练 LLM,并继续在新语言上对其进行训练。虽然之前的工作已经对语言适应性进行了尝试,但围绕最佳实践和方法论的许多问题尚未涉及。

AI 芯片初创公司 SambaNova Systems 对 LLM 适应新语言的情况进行了全面调查。他们的研究涵盖了这一过程中的关键部分,包括词汇扩展、直接偏好优化和低资源语言中人类对齐的数据稀缺问题。他们将这些实验扩展到 9 种语言和 2 种参数范围(7B 和 70B)。此外,他们将该模型与 Llama 2、Aya-101、XGLM、BLOOM 和现有语言专家进行了比较,结果优于之前发布的基线。

论文链接:
https://arxiv.org/abs/2404.05829

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐