[240609] qwen2 发布,在 Ollama 已可用 | 采用语言模型构建通用 AGI(2020年8月)
·
目录
qwen2 发布,在 Ollama 已可用
Qwen2 模型概览 (基于 Ollama 网站信息)
一、模型介绍
- 由阿里巴巴开发的新系列大型语言模型。
- 训练数据涵盖 29 种语言,包括 英语和中文。
- 提供 4 种参数规模: 0.5B、1.5B、7B、72B。
- 7B 和 72B 模型的上下文长度扩展至 128k tokens。
二、模型参数
模型 | Qwen2-0.5B | Qwen2-1.5B | Qwen2-7B | Qwen2-72B |
---|---|---|---|---|
参数量 | 0.49B | 1.54B | 7.07B | 72.71B |
非嵌入参数量 | 0.35B | 1.31B | 5.98B | 70.21B |
GQA | 支持 | 支持 | 支持 | 支持 |
绑定嵌入 | 支持 | 支持 | 不支持 | 不支持 |
上下文长度 | 32K | 32K | 128K | 128K |
三、支持语言 (除英语和中文外)
- 西欧: 德语、法语、西班牙语、葡萄牙语、意大利语、荷兰语
- 东欧和中欧: 俄语、捷克语、波兰语
- 中东: 阿拉伯语、波斯语、希伯来语、土耳其语
- 东亚: 日语、韩语
- 东南亚: 越南语、泰语、印尼语、马来语、老挝语、缅甸语、宿务语、高棉语、塔加洛语
- 南亚: 印地语、孟加拉语、乌尔都语
四、模型性能
- 网站提供了四张图片展示 Qwen2 模型在不同任务上的性能表现,包括:
- 代码生成 (HumanEval)
- 常识推理 (MMLU)
- 阅读理解 (TriviaQA)
- 数学推理 (GSM8K)
五、许可证
- 除 Qwen2 72B (包括指令模型和基础模型) 外,所有模型均采用 Apache 2.0 许可证。
- Qwen2 72B 模型仍使用原始的 Qianwen 许可证。
六、数据支撑:
以上信息均来自 Ollama 网站上关于 Qwen2 模型的介绍页面。
以上文章采用 Gemini Pro 1.5 生成摘要,命令如下:
x jina r 'https://ollama.com/library/qwen2' | \
@gemini -t 0 '以大纲方式生成一份摘要,列举更多的数据 支撑,用中文'
采用语言模型构建通用 AGI
这篇文章探讨了利用大型语言模型构建通用人工智能 (AGI) 的可能性。
核心观点:
- 语言模型的最终目标是最大化其对自然语言数据的似然性。
- 随着模型规模的扩大,损失函数会不断下降,最终逼近自然语言的香农熵。
- 当损失函数接近香农熵时,语言模型将被迫发展出强大的世界模型,才能进一步提高预测能力。
- 可以利用语言模型的这种世界模型能力,结合目标设定和蒙特卡洛树搜索等技术,构建出能够执行复杂任务的智能体。
文章结构:
- 引言: GPT-3 虽然强大,但并非 AGI。然而,语言模型与其他 AI 系统不同,它能够通过自然语言编码整个世界的知识。
- 世界模型:
- 语言模型通过不断优化预测下一个词的能力,最终会隐式地学习到世界的运作方式。
- 随着模型规模的扩大,其世界模型的准确性和复杂性也会随之提高。
- 构建智能体:
- 世界模型本身并不能构成智能体,还需要设定目标和行动策略。
- 可以通过向语言模型提问的方式,获取其对不同行动方案的预期奖励,并利用蒙特卡洛树搜索等方法选 择最佳行动。
- 智能体的状态和行动都可以用自然语言表示,并通过专门的模块与外部世界进行交互。
- 结论:
- 目前的技术水平尚未达到利用语言模型构建 AGI 的程度,但这是一个值得探索的方向。
- 文章中提出的方法依赖于一些假设,例如更大规模的模型将拥有更强的世界模型能力。
数据支撑:
- 文章引用了 GPT-3 的论文,证明了模型规模与性能之间的正相关关系。
- 文章还提到了其他研究,例如 iGPT 可以将图像转换为文本,以及一些将自然语言转换为代码或命令的技术。
需要进一步探讨的问题:
- 更大规模的语言模型是否真的能够发展出足够强大的世界模型?
- 如何有效地设定目标并引导语言模型的行动?
- 如何确保基于语言模型的 AGI 的安全性?
中文补充:
- 文章中提到的香农熵,是指衡量信息量大小的指标,可以理解为表示某个信息所需的最小比特数。
- 蒙特卡洛树搜索是一种基于随机模拟的搜索算法,常用于围棋等游戏 AI 中。
- 文章中提到的“智能体”,是指能够感知环境、做出决策并执行行动的实体。
总结:
这篇文章为利用语言模型构建 AGI 提供了一个新的思路,但同时也提出了一些需要解决的挑战。随着语言模 型技术的不断发展,相信未来会有更多相关的研究和应用出现。
以上文章采用 Gemini Pro 1.5 生成摘要,命令如下:
x jina r 'https://bmk.sh/2020/08/17/Building-AGI-Using-Language-Models/' | \
@gemini -t 0 '以大纲方式生成一份摘要,列举更多的数据支撑,用中文'
更多内容请查阅 : blog-240609
关注微信官方公众号 : oh my x
获取开源软件和 x-cmd 最新用法
更多推荐
已为社区贡献9条内容
所有评论(0)