qwen2 发布,在 Ollama 已可用

Qwen2 模型概览 (基于 Ollama 网站信息)

一、模型介绍
  • 由阿里巴巴开发的新系列大型语言模型。
  • 训练数据涵盖 29 种语言,包括 英语和中文。
  • 提供 4 种参数规模: 0.5B、1.5B、7B、72B。
  • 7B 和 72B 模型的上下文长度扩展至 128k tokens。
二、模型参数
模型Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-72B
参数量0.49B1.54B7.07B72.71B
非嵌入参数量0.35B1.31B5.98B70.21B
GQA支持支持支持支持
绑定嵌入支持支持不支持不支持
上下文长度32K32K128K128K
三、支持语言 (除英语和中文外)
  • 西欧: 德语、法语、西班牙语、葡萄牙语、意大利语、荷兰语
  • 东欧和中欧: 俄语、捷克语、波兰语
  • 中东: 阿拉伯语、波斯语、希伯来语、土耳其语
  • 东亚: 日语、韩语
  • 东南亚: 越南语、泰语、印尼语、马来语、老挝语、缅甸语、宿务语、高棉语、塔加洛语
  • 南亚: 印地语、孟加拉语、乌尔都语
四、模型性能
  • 网站提供了四张图片展示 Qwen2 模型在不同任务上的性能表现,包括:
    • 代码生成 (HumanEval)
    • 常识推理 (MMLU)
    • 阅读理解 (TriviaQA)
    • 数学推理 (GSM8K)
五、许可证
  • 除 Qwen2 72B (包括指令模型和基础模型) 外,所有模型均采用 Apache 2.0 许可证。
  • Qwen2 72B 模型仍使用原始的 Qianwen 许可证。
六、数据支撑:

以上信息均来自 Ollama 网站上关于 Qwen2 模型的介绍页面。

以上文章采用 Gemini Pro 1.5 生成摘要,命令如下:

x jina r 'https://ollama.com/library/qwen2' | \
  @gemini -t 0 '以大纲方式生成一份摘要,列举更多的数据 支撑,用中文'

采用语言模型构建通用 AGI

这篇文章探讨了利用大型语言模型构建通用人工智能 (AGI) 的可能性。

核心观点:

  • 语言模型的最终目标是最大化其对自然语言数据的似然性。
  • 随着模型规模的扩大,损失函数会不断下降,最终逼近自然语言的香农熵。
  • 当损失函数接近香农熵时,语言模型将被迫发展出强大的世界模型,才能进一步提高预测能力。
  • 可以利用语言模型的这种世界模型能力,结合目标设定和蒙特卡洛树搜索等技术,构建出能够执行复杂任务的智能体。

文章结构:

  1. 引言: GPT-3 虽然强大,但并非 AGI。然而,语言模型与其他 AI 系统不同,它能够通过自然语言编码整个世界的知识。
  2. 世界模型:
    • 语言模型通过不断优化预测下一个词的能力,最终会隐式地学习到世界的运作方式。
    • 随着模型规模的扩大,其世界模型的准确性和复杂性也会随之提高。
  3. 构建智能体:
    • 世界模型本身并不能构成智能体,还需要设定目标和行动策略。
    • 可以通过向语言模型提问的方式,获取其对不同行动方案的预期奖励,并利用蒙特卡洛树搜索等方法选 择最佳行动。
    • 智能体的状态和行动都可以用自然语言表示,并通过专门的模块与外部世界进行交互。
  4. 结论:
    • 目前的技术水平尚未达到利用语言模型构建 AGI 的程度,但这是一个值得探索的方向。
    • 文章中提出的方法依赖于一些假设,例如更大规模的模型将拥有更强的世界模型能力。

数据支撑:

  • 文章引用了 GPT-3 的论文,证明了模型规模与性能之间的正相关关系。
  • 文章还提到了其他研究,例如 iGPT 可以将图像转换为文本,以及一些将自然语言转换为代码或命令的技术。

需要进一步探讨的问题:

  • 更大规模的语言模型是否真的能够发展出足够强大的世界模型?
  • 如何有效地设定目标并引导语言模型的行动?
  • 如何确保基于语言模型的 AGI 的安全性?

中文补充:

  • 文章中提到的香农熵,是指衡量信息量大小的指标,可以理解为表示某个信息所需的最小比特数。
  • 蒙特卡洛树搜索是一种基于随机模拟的搜索算法,常用于围棋等游戏 AI 中。
  • 文章中提到的“智能体”,是指能够感知环境、做出决策并执行行动的实体。

总结:

这篇文章为利用语言模型构建 AGI 提供了一个新的思路,但同时也提出了一些需要解决的挑战。随着语言模 型技术的不断发展,相信未来会有更多相关的研究和应用出现。

以上文章采用 Gemini Pro 1.5 生成摘要,命令如下:

x jina r 'https://bmk.sh/2020/08/17/Building-AGI-Using-Language-Models/' | \
  @gemini -t 0 '以大纲方式生成一份摘要,列举更多的数据支撑,用中文'

更多内容请查阅 : blog-240609


关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐