最强开源大模型Llama 3发布!最大版本是4000亿参数规模!性能直逼GPT-4!

当地时间4月18日,Meta 官宣发布其最新开源大模型 Llama 3。目前,Llama 3 已经开放了 80亿 和 700亿 两个小参数版本,上下文窗口为8K。未来还有4000亿参数版本,支持多模态、超长上下文、多国语言!
在这里插入图片描述

Llama 3 的主要亮点包括:

  • 在两个定制的 24K GPU 集群上、基于超过15万亿tokens的数据集上训练,是 Llama 2 数据集的 7 倍多,代码数据相当于 Llama 2 的 4 倍;
  • 支持 8K 长文本,是 Llama 2 容量的两倍;
  • 改进的 tokenizer 具有 128K token 的词汇量,可实现更好的性能;
  • 在大量重要基准测试中均具有SOTA性能;
  • 新能力范畴,包括增强的推理和代码能力;
  • 训练效率比 Llama 2 高 3 倍;
  • 安全性有明显进步,配备了Llama Guard 2、Code Shield等新一代的安全工具。

在这里插入图片描述

图注:训练数据
在这里插入图片描述

图注:安全改进

1. 性能全面领先的Llama 3

Meta 在官方博客中表示,“得益于预训练和后训练的改进,我们的预训练和指令微调模型是目前 80 亿 和 700 亿 参数尺度下最好的模型。”

虽然目前 Meta 仅开源了2个不同参数规模版本的模型,但其中700亿参数规模的模型评测结果极其优秀。

  • Llama 3 8B 在MMLU、GPQA、HumanEval等多项基准上均胜过 Gemma 7B 和 Mistral 7B Instruct。
  • Llama 3 70B 在MMLU、HumanEval和GSM-8K上战胜了Gemini 1.5 Pro,同时在五项测试上全面优于Claude 3系列的中杯模型Sonnet。
  • Llama 3 70B 最大的亮点是数学评测GSM8K的结果上得分93分!这个分数仅次于Claude3-Opus的95分,超过GPT-4,全球第二,是目前开源大模型中得分最高的一个。

下图是 Llama 3 预训练模型和其他同等规模模型的比较,前者表现出 SOTA 水平。

  • Llama 3 8B 完全打败了 Mistral 7B 和 Gemma 7B。不过推理能力,比 Gemma 7B 弱一些。
  • 与闭源的 Gemini Pro 1.0,以及开源的 Mixtral 8×22B 相比,Llama 3 70B在多项基准测试中拔得头筹。

在这里插入图片描述

图注:预训练模型在8B和70B的参数规模上取得的性能

下图是 Llama 3 指令微调模型和其他同等规模模型的比较,前者表现出 SOTA 水平。

  • Llama 3 8B同样超越了开源的Gemma 7B,以及Mistral 7B Instuct。
  • Llama 3 70B在推理(MMLU)、数学(GSM-8K)、甚至代码(HumanEval)基准上,比Gemini Pro 1.5和Claude 3 Sonnet更加亮眼。

在这里插入图片描述

图注:指令微调模型在8B和70B的参数规模上取得的性能

2. Llama 3最大版本是4000亿参数规模,性能直逼 GPT-4

Meta 官方宣布,Llama 3 有很多版本,其中最大的版本是4000亿参数规模,但是这个版本的模型还在训练中!官方没有明确说未来这个版本是否开源,但是也没有否认。

在这里插入图片描述

根据官方的截图,还在训练中的 Llama 3 400B 的 MMLU 得分86.1分,GSM8K 得分94.1分,与目前排名第一的 Claude3-Opus 差距非常小(MMLU与最高分差0.7分,GSM8K差0.4分)!

难以想象训练完的 Llama 3 400B 有多强,恐怕只有 OpenAI 的 GPT-5 能压他一头了吧。

英伟达Jim Fan认为,即将推出的Llama 3-400B+模型将成为社区获得GPT-4级别模型的重要里程碑。它将改变许多研究工作和草根初创公司的计算方式。

近期,Meta也将计划推出Llama 3的新功能,包括更长的上下文窗口和更强大的性能,并将推出新的模型尺寸版本和公开Llama 3的研究论文。

3. Llama 3的人工评估

此外,Meta 还开发了一套新的高质量人工评估数据集

该数据集包含 1800 个提示,涵盖 12 个关键的应用场景:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。

为了防止 Llama 3 在此评估数据集上出现过拟合,Meta 表示他们自己的团队也无法访问它。

下图显示了针对 Claude Sonnet、Mistral Medium 和 GPT-3.5 对这些类别和提示进行人工评估的汇总结果。

在这里插入图片描述

人工评估结果显示,Llama 3 70B 在指令调优后,表现远胜于Claude Sonnet、Mistral Medium、GPT-3.5 和 Llama 2,其胜率分别达到了 52.9%、59.3%、63.2%、63.7%。

Llama 3 70B 模型效果好于目前市场上的闭源模型(Claude Sonnet, Mistral Medium和GPT-3.5),可惜的是官方没有给出市场最强的2个闭源模型 GPT-4 以及 Claude3-Opus 的对比结果。

4. 网页版Meta AI免登录,随便聊

目前,Llama 3两种参数量的基础和Instruct版本都已上线Hugging Face可供下载。

下载链接:https://llama.meta.com/llama-downloads/
Github:https://github.com/meta-llama/

此外,微软Azure、谷歌云、亚马逊AWS、英伟达NIM等云服务平台也将陆续上线Llama 3。

同时,Meta还表示Llama 3会得到英特尔、英伟达、AMD、高通等多家厂商提供的硬件平台支持。

值得一提的是,Meta还放出了网页版Meta AI,由最新Llama 3加持,号称是全球顶尖的AI助手之一。现在已经覆盖 Instagram、WhatsApp、Facebook 等全系应用。

整个页面UI设计非常简洁,不仅可以对话,还支持生图功能。与ChatGPT-3.5免注册登录类似,与Meta AI聊天功能,进入网页随时随地即可开启,无需登录。

在这里插入图片描述

Meta AI 网址:https://www.meta.ai/

参考:
https://llama.meta.com/llama3/
https://ai.meta.com/blog/meta-llama-3/
https://fortune.com/2024/04/18/meta-ai-llama-3-open-source-ai-increasing-competition/
https://www.theverge.com/2024/4/18/24133808/meta-ai-assistant-llama-3-chatgpt-openai-rival

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐