llama.cpp 终于有官网了

新缸中之脑

141人浏览 · 2026-06-09 16:07:29

新缸中之脑 · 2026-06-09 16:07:29 发布

llama.cpp 终于有官网了

昨晚，人工智能领域发生了一件根本性的转变。如果你一直在关注 AI 浪潮，你就会知道，对于爱好者、创作者和隐私倡导者来说，真正的圣杯是在本地运行人工智能。

本地 AI 意味着在你的笔记本电脑或台式机上拥有一个完全独立运行的大脑。这意味着无需订阅、没有企业数据追踪、不需要网络连接，以及完全的数字主权。

这场革命的绝对王者仍然是 llama.cpp

如果你读过我的文章，你就知道我的立场：llama.cpp 是继 Attention is all you need 之后真正的创新。Transformer 架构让 GPT 模型成为可能，而 llama.cpp 让生成式 AI 模型变得人人可及。

多年来，这场地下本地 AI 运动无可争议的王者是一个名为 llama.cpp 的开源项目。

它由开发者 Georgi Gerganov 创建，是让普通消费级硬件运行大型语言模型的引擎。然而，尽管功能强大，llama.cpp 一直以令人望而生畏著称。要使用它，你必须浏览满是文字的 GitHub 仓库、理解晦涩的终端命令、手动编译代码，并在深网仓库中搜寻下载带有奇怪扩展名（如 GGUF）的庞大文件。这是一个由开发者构建、为开发者服务的工具。

那个时代正式结束了。

llama.cpp 背后的团队刚刚推出了一个官方的、极简美学的网站：llama.app。

与之一同到来的还有软件的全面重构。他们将本地 AI 原始、碎片化的引擎打包成了一个单一的、统一的应用程序，任何人都可以一键安装。

打开终端并运行

irm https://llama.app/install.ps1 | iex

此命令适用于 Windows 操作系统：但还有其他所有安装方式：

Winget (Windows)

winget install llama.cpp

该包会随着新的 llama.cpp 版本自动更新。

Homebrew (Mac 和 Linux)

brew install llama.cpp

MacPorts (Mac)

sudo port install llama.cpp

Nix (Mac 和 Linux)

nix profile install nixpkgs#llama-cpp

llama.cpp 团队将 llama.app 与 Pi 等自主编码 agent 深度集成，这意味着你现在可以拥有一个私有的 AI 助手，直接在你的电脑文件夹中构建软件，无需输入任何 API 密钥，也无需花费一分钱。

1、云端的问题

要理解 llama.app 的发布为何是一个里程碑，我们必须看看当前主流 AI 的现状。

现在，大多数人通过网页浏览器或连接到大型企业云的手机应用与人工智能交互。当你在 ChatGPT、Claude 或 Gemini 中输入提示词时，你的文字会通过网络传输到装满数千张昂贵显卡的大型数据中心。

虽然这些服务无疑非常出色，但它们伴随着巨大的隐性成本。

第一个成本是隐私。当你使用云服务时，你正在将自己的想法、个人写作、商业计划或专有代码发送到第三方服务器。

第二个成本是经济。云平台采用订阅模式或按量付费的 API 积分。如果你轻度使用，成本尚可管理。但如果你开始将 AI 深度 staggered 入日常工作，或者使用不断与模型循环对话的自主 AI agent，那些 API 账单可能会飙升至每月数百美元。

第三个成本是依赖。如果公司改变定价、修改服务条款、调整模型行为使其变得不那么有用，或者遭遇服务器宕机，你的工作流会瞬间陷入停滞。

本地 AI 解决了所有这些问题。当模型在你的本地机器上运行时，你的数据永远不会离开你的硬盘。没有遥测追踪你。无论你生成多少百万字，成本都是零美元。而且因为它离线运行，即使整个世界失去互联网连接，它也能完美工作。

你的 AI，你的规则

2、幕后发生了什么？

llama.app 背后的新策略可以概括为两个词：极致简洁。

从历史上看，下载 llama.cpp 后你会得到一堆分散的、高度技术化的工具。如果你想通过文本与模型聊天，你必须运行一个名为 llama-cli 的命令。如果你想启动一个本地服务器将 AI 连接到其他应用，你必须运行一个完全不同的工具 llama-server。如果你是非技术用户，光是跟踪这些不同的组件就已经让人头疼。

开发者们借鉴了 Git 等现代专业软件的 playbook，将所有内容打包到一个单一的、统一的程序中，简单地称为 llama。

现在，你有了一个中心接触点。如果你想启动一个本地服务器为其他应用提供 AI，只需输入 llama serve。如果你想直接在终端中聊天，输入 llama cli。底层引擎依然和以前一样强大且高度优化，但人机交互界面已经被精简为干净、逻辑清晰的设计。

3、安装过程

统一的 llama.app 架构的发布扫清了所有这些摩擦。当你将安装字符串粘贴到 Windows PowerShell 终端时，你正在启动一个智能部署脚本，它充当针对你特定电脑硬件的自动化数字管家。

3.1 硬件指纹

脚本初始化的那一刻，它的首要目标是发现。它开始查询你的操作系统，以确定你的核心系统架构。它处理传统的 Intel 和 AMD 系统（x86_64），但也明确检查现代、高能效的 Qualcomm Snapdragon 芯片（ARM64）。

一旦确定了基础系统架构，脚本就会联系其在 Hugging Face 上的存储中心，检查一个名为 latest 的实时文件。这确保了即使你使用的是旧教程链接，脚本也总能定位并部署该软件的绝对最新版本，而无需你费心寻找版本号。

3.2 硬件探测

运行本地 AI 模型是一项极其耗费数学计算的任务。为了给你尽可能快的处理速度，脚本需要了解你的处理器（CPU）和显卡（GPU）的确切数学计算能力。

首先，它会在你的临时文件夹中放置一个名为 vulkan-probe.exe 的小工具。Vulkan 是一个现代的通用图形框架，允许软件与 Nvidia、AMD 和 Intel 制造的图形芯片通信。如果你的电脑有兼容的显卡，这个探测工具就会唤醒它。

接下来，它启动一个名为 featcode.exe 的巧妙功能检测工具。该工具扫描你的硬件并生成一个高度特定的"功能代码"——本质上是一个独特的硬件指纹。如果找到了性能强大的 GPU，脚本就会使用该指纹拉取一个专门编译的 llama.exe 版本，以释放你的显卡性能。

如果你的机器没有独立显卡，脚本会优雅地转向你的 CPU。它再次运行 featcode.exe 以检查先进的现代 CPU 数学指令（如 AVX2 或 AVX512）。然后它拉取一个针对你的特定处理器芯片完美优化的应用程序版本。为了节省你的网络带宽，所有这些文件都以高度压缩的格式（.zst）下载，脚本在解压后清理其临时工作区。

3.3 无缝工作区集成

一旦脚本安全获取了为你量身定制的 llama.exe 文件，它必须将其放在你的电脑能找到的地方。传统上，这需要深入 Windows 高级设置手动编辑系统环境路径——这一步经常让非技术用户绊倒。

安装程序巧妙地绕过了这个麻烦，直接将文件移动到一个特定的隐藏 Windows 目录：

%LOCALAPPDATA%\Microsoft\WindowsApps

Windows 会自然监控这个文件夹。因为脚本将 llama.exe 直接放入此目录，你的操作系统会全局且即时地注册该命令。安装程序完成的那一刻，你就可以在机器上任何位置打开任何命令提示符或 PowerShell 窗口，输入 llama，它就会立即启动。

3.4 面向未来：无缝升级

当开发团队发布具有更好性能优化的新版本时会发生什么？这个安装程序能完美处理升级。

因为 Windows 会阻止你删除或覆盖任何正在运行或正在被监控的软件二进制文件，安装程序使用了一个巧妙的非破坏性替换例程。当你重新运行脚本更新系统时，它会查看你的 WindowsApps 文件夹。如果找到旧版本，它不会尝试删除；而是安全地将其重命名为 llama.exe.old 并放到一边。然后将全新版本放入原位，并干净地删除临时残留文件。

4、如何实际使用它

现在有一个单一的命令，叫做 llama。

无论你是想要一个交互式的 CLI 聊天环境，还是一个兼容 OpenAI API 的服务器，并集成开箱即用的 Web 聊天 UI。

在第一种情况下，运行以下命令查看所有需要的参数

llama cli --help

在第二种情况下，运行以下命令查看所有需要的参数

llama serve --help

例如，我使用最新的 Liquid AI MoE 模型 LFM2.5–8B-A1B 作为服务器运行（集成 Web UI），如下所示：

llama.exe serve -m C:\Fabio-AI\Models_big\LFM2.5-8B-A1B-UD-Q4_K_XL.gguf -ngl 99 --mmap -t 4 -ctv q4_0 -ctk q4_0 --reasoning on -fa on --jinja -a lfm258b1a --port 11434 -c 98000

就这些。你的本地 AI 已经准备就绪！

5、本地 Agent 的力量

让运行模型变得容易是一项巨大的成就，但团队并没有止步于此。新的 llama.app 生态系统明确构建以支持人工智能的下一个前沿：自主 agent。

标准聊天机器人是被动的。你给它一个提示，它给你一个答案，然后停止。AI agent 是主动的。当你给 agent 一个目标时，它会制定计划、创建自己的提示词、审查自己的输出、捕捉自己的错误，并反复循环直到目标达成。

这项技术最令人兴奋的例子之一是一个名为 Pi 的基于终端的开源编码 agent，开发于仓库 https://github.com/earendil-works/pi。

Pi 是住在你的项目文件夹中的编码助手。当你在 workspace 中启动 Pi 时，它会读取你的代码文件、创建新功能、修改现有逻辑、运行终端测试查看更改是否有效，并调试自己的错误直到软件完美编译。

在商业云模型上运行像 Pi 这样的 agent 极其昂贵。因为 agent 必须读取你的整个代码库并与 AI 对话数十次才能解决单个 bug，一次自动编码会话很容易耗尽大量云积分。此外，让联网的云 agent 读取你的整个私有代码库对许多注重安全的开发者来说是绝对不可接受的。

但如果你将新的 llama serve 栈与 Pi 结合，你就得到了终极开发者配置。你得到了一个完全离线工作的自主编码助手，运行数千小时绝对零成本，并将你的专有源代码安全地保存在你的机器内。

6、为什么这改变了一切

人们很容易陷入运行开源代码的技术新奇感中，但 llama.app 的真正影响是文化和哲学层面的。

在过去几年里，围绕人工智能的叙事一直被一种不可避免的集中化所主导。

llama.app 的发布彻底粉碎了这种叙事。它证明了开源社区不会休息，直到世界级技术变得可访问、用户友好且完全去中心化。

现在，凭借干净、统一的命令结构，llama.cpp 维护者将本地 AI 从复杂的工程爱好转变为一种主流工具。你只需要一台现代电脑、一条安装命令，以及探索当你的工具完全属于你自己时会有何种可能的好奇心。

准入门槛已经消失。本地 AI 正式准备好迎接黄金时刻，它就住在你的电脑上。

原文链接：llama.cpp 终于有官网了 - 汇智网

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 实时推理流式预热实战：首字符延迟从 800ms 砍到 200ms

实测从平均 TTFT 800ms → 200ms（OpenAI gpt-4o-mini，国内中转节点）。下面是踩坑过程。

AtomGit开源社区

【毕业设计】SpringBoot+Vue+MySQL 失物招领平台平台源码+数据库+论文+部署文档

AtomGit开源社区

C++网络编程详细讲解

该函数使用参数 boost::asio::ip::tcp::socket::shutdown_send 调用shutdown()，表示程序已完成通过套接字发送数据。在 main() 中，boost::asio::ip::tcp::resolver::query 被实例化以创建对象 q。在示例中，boost::asio::ip::tcp::endpoint 类型的变量 tcp_endpoint 用于