在这里插入图片描述

现在在 Windows 上跑本地大模型,已经没有以前那么“重工业”了。
如果你的目标不是自己编译推理框架,而是先把模型跑起来、先能本地对话、先能调接口,那 Ollama 是一条很适合入门的路线。
这篇文章就按最常见的 Windows 场景来,带你把安装、模型下载、命令行验证和 API 调用完整走一遍,先把第一个闭环跑通。


一、项目背景

在这里插入图片描述

Ollama 是一个用于本地运行和管理大语言模型的开源工具。它的定位很清楚:尽量降低本地 LLM 的使用门槛,让开发者能用更简单的方式完成模型下载、启动、对话和接口调用。

对于普通开发者来说,Ollama 的价值主要体现在这几个方面:

  • 可以在本机直接运行常见大模型
  • 提供统一的命令行体验
  • 内置本地 HTTP API,便于程序接入
  • 适合和 Open WebUI、AnythingLLM 等工具联动
  • 适合作为本地 AI 工具链的入口

很多人第一次接触本地大模型,容易把精力都花在环境复杂度上,比如显卡驱动、推理框架、依赖版本、模型格式兼容。但如果你的目标只是先跑通一个可用的本地模型服务,Ollama 明显更省心一些。

官方GitHub的项目地址:
https://github.com/ollama/ollama
在这里插入图片描述

如果你只是想快速体验本地大模型,或者准备把模型接进自己的应用、脚本、知识库系统里,那 Ollama 很适合作为第一站。


二、本文环境说明

本文采用的是Windows 本地安装方案,以“先跑通”为核心目标,不追求一步到位搞生产环境。

运行环境

  • 操作系统:Windows 10 / Windows 11
  • 部署方式:官方安装包本地安装
  • 终端工具:PowerShell
  • 验证方式:
    • 命令行对话
    • 本地 REST API 调用
  • 默认服务地址:http://localhost:11434

模型建议

为了提高首次安装成功率,本文建议优先使用小模型,比如:

  • gemma3:1b
  • llama3.2:1b

原因很简单:

  • 下载更快
  • 占用更低
  • 更容易验证
  • 对内存和磁盘更友好

硬件建议

结合官方 README 的说明,可大致参考:

  • 7B 模型:建议至少 8GB 内存
  • 13B 模型:建议至少 16GB 内存
  • 33B 模型:建议至少 32GB 内存

如果你只是跟着教程做验证,建议不要一开始就上大模型。
先把小模型跑通,这一步远比“模型参数大不大”更重要。

说明

本文属于便于快速上手的简化路径
如果你后续需要:

  • 更强 GPU 性能
  • 多模型管理
  • 生产环境部署
  • 与 Web UI 深度集成

建议再结合官方文档做扩展配置。


三、安装前准备

正式安装前,先做几项基础检查,避免后面遇到问题时一头雾水。

1. 检查系统版本

按下 Win + R,输入:

winver

确认系统是较新的 Windows 10 或 Windows 11。
如果系统版本过老,很多桌面工具的兼容性都会变差,别把时间浪费在不必要的系统坑里。


2. 检查磁盘空间

Ollama 本体不算大,但模型文件会占用比较明显的空间。

建议至少预留几 GB 以上磁盘空间,尤其是你准备拉多个模型时。
如果只是做首次验证,用 1B 小模型压力不大,但也不要让系统盘只剩几百 MB 再来装本地 AI 工具。

你可以在“此电脑”里直接查看各盘剩余空间。


3. 检查内存是否足够

虽然 Ollama 支持本地运行模型,但运行体验很大程度上取决于机器资源。
如果你的机器本身只有较低内存,又开着一堆浏览器和 IDE,大模型跑起来慢是很正常的,不是项目跟你过不去。

首次验证建议:

  • 尽量关闭高占用后台程序
  • 选择 1B 小模型
  • 不要同时开太多重型软件

4. 准备 PowerShell

本文演示命令默认使用 PowerShell
打开方式:

  • 开始菜单搜索 PowerShell
  • 建议右键选择“以管理员身份运行”

严格来说,不是每一步都必须管理员权限,但在安装阶段这样做通常更稳。


四、安装与部署

在这里插入图片描述

这一部分是全文核心:在 Windows 上安装 Ollama,并确认服务可正常运行。

1. 下载 Windows 安装包

Windows 下推荐直接使用官方安装入口。

可参考以下地址:

  • GitHub 仓库:
    https://github.com/ollama/ollama
  • 官方网站:
    https://ollama.com

进入官网后,下载 Windows 版安装包并执行安装。


2. 执行安装

双击安装包,按提示完成安装即可。
Windows 下这一步通常比较直接,属于标准桌面软件安装流程。

安装完成后,Ollama 一般会完成这些动作:

  • 安装本地程序
  • 注册可执行命令
  • 启动本地服务
  • 默认开放本地 API:localhost:11434

3. 检查命令是否生效

安装完成后,重新打开一个新的 PowerShell 窗口,执行:

ollama --version

如果能输出版本信息,说明 Ollama 已经安装成功。

如果这里提示找不到命令,先别急,后面的“常见报错与解决方案”里会专门处理。


4. 检查 Ollama 是否可正常响应

执行:

ollama list

如果命令能正常执行,说明基本环境已经打通。

此时如果你本地还没有模型,列表可能为空,这是正常的。
因为安装 Ollama 不等于自动安装模型,模型需要单独拉取。


5. 第一次拉取模型

为了降低第一次失败的概率,建议先拉小模型。

执行:

ollama run gemma3:1b

或者:

ollama run llama3.2:1b

首次运行时,Ollama 会自动:

  1. 检查本地是否已有该模型
  2. 如果没有,则开始下载
  3. 下载完成后启动模型
  4. 进入交互式对话界面

这一步其实就是 Ollama 最核心的体验:
一个命令,把模型下载和运行串起来。


五、配置说明

Ollama 的优点之一就是快速上手不需要复杂配置。
不过有几个点,建议你在开始前理解清楚。

1. 默认 API 地址

Ollama 默认提供本地接口地址:

http://localhost:11434

后面无论你是用 PowerShell 测试,还是用 Python、Node.js 接入,本质上都是调这个服务。


2. 模型和程序是分开的

这是新手最容易误解的一点:

  • 安装的是 Ollama 工具
  • 下载的是 具体模型
  • 运行时调用的是 本地 Ollama 服务

也就是说,你看到 ollama --version 能执行,不代表模型已经准备好了。

例如:

ollama run gemma3:1b

第一次执行时,才会真正开始拉取模型。


3. 常用命令

查看本地已有模型:

ollama list

查看正在运行的模型:

ollama ps

查看模型详情:

ollama show gemma3:1b

停止模型:

ollama stop gemma3:1b

删除模型:

ollama rm gemma3:1b

如果你打算后续长期使用 Ollama,这几个命令基本都绕不开。


4. 自定义模型能力

根据官方 README,Ollama 支持通过 Modelfile 对模型进行轻量封装。

例如:

FROM llama3.2
PARAMETER temperature 1
SYSTEM """
You are a helpful assistant.
"""

然后执行:

ollama create mymodel -f .\Modelfile
ollama run mymodel

这类能力更适合后续做:

  • 固定系统提示词
  • 企业内部助手
  • 角色型问答助手
  • 特定场景模型封装

本文先不深入展开,知道这个入口就够了。


六、跑通第一个 Demo

接下来开始做最关键的事情:把第一个可用闭环跑通。

Demo 1:命令行对话

执行:

ollama run gemma3:1b

如果你使用的是另一个小模型,也可以替换模型名。

首次运行时,你应该会看到:

  • 模型下载进度
  • 下载完成后的启动过程
  • 进入交互式终端界面

然后输入一句测试内容,例如:

你好,请用一句话介绍你自己

成功现象

如果这一步成功,你应该能看到模型返回文本回复。
这说明下面几件事都已经成立:

  • Ollama 程序安装成功
  • 模型下载成功
  • 模型可正常运行
  • 本地推理链路已打通

这一步是整个教程里最重要的验证点。


Demo 2:查看模型是否已经落地

打开另一个 PowerShell 窗口,执行:

ollama list

如果你能看到类似 gemma3:1b 的模型名称、大小和更新时间,说明模型已经成功保存到本机。


Demo 3:测试 /api/generate 接口

根据官方 README,Ollama 提供本地生成接口。
在 PowerShell 中可以这样测试:

curl http://localhost:11434/api/generate -Method Post -Body '{
  "model": "gemma3:1b",
  "prompt": "请用中文解释一下 Ollama 是什么"
}' -ContentType "application/json"

如果你本地实际运行的是 llama3.2:1b,把模型名换成对应值即可。


Demo 4:测试 /api/chat 接口

继续测试聊天接口:

curl http://localhost:11434/api/chat -Method Post -Body '{
  "model": "gemma3:1b",
  "messages": [
    { "role": "user", "content": "你好,请简要介绍一下 Windows 上的 Ollama" }
  ]
}' -ContentType "application/json"

这个接口更适合后续做聊天机器人、桌面助手或者接 Web 前端。


七、效果验证

在这里插入图片描述

部署成功不能只看“好像装上了”,最好从几个角度都确认一下。

1. 命令行验证

执行:

ollama --version
ollama list

如果命令可正常输出,说明 CLI 工具已经安装到位。


2. 模型运行验证

执行:

ollama run gemma3:1b

输入问题并拿到回复,说明本地推理能力可用。


3. API 服务验证

执行:

curl http://localhost:11434/api/generate -Method Post -Body '{
  "model": "gemma3:1b",
  "prompt": "请返回一句:接口调用成功"
}' -ContentType "application/json"

如果接口返回生成内容,说明本地服务已经可以被程序调用。


4. 什么现象说明部署成功?

满足下面几点,基本就可以认为 Ollama 已成功部署:

  • ollama --version 正常输出
  • ollama list 可执行
  • 至少一个模型已成功下载
  • ollama run 模型名 能正常对话
  • 本地 API 能返回结果

如果这些都通过了,后续你接 Python、Node.js、RAG 工具,思路就很清晰了。


八、常见报错与解决方案

这一节建议认真看。
Windows 下很多问题,并不是 Ollama 本身坏了,而是路径、网络、权限、终端行为或者机器资源在捣乱。

1. 报错:ollama 不是内部或外部命令

原因

最常见的原因有:

  • 安装后当前终端没有刷新
  • PATH 尚未生效
  • 安装过程异常中断
解决方案

按下面顺序处理:

  1. 关闭当前 PowerShell / CMD
  2. 重新打开终端
  3. 再执行:
ollama --version

如果还是不行,可以:

  • 重启电脑
  • 重新安装 Ollama
  • 检查安装目录是否存在

Windows 下这类问题,很多时候不是技术难题,就是终端环境没刷新,别一上来就怀疑自己系统崩了。


2. 模型下载失败或速度很慢

原因

通常是:

  • 网络不稳定
  • 模型体积较大
  • 磁盘空间不足
  • 本地安全软件拦截下载过程
解决方案

优先做这几件事:

  • 换成小模型先验证
  • 检查磁盘空间
  • 确认网络可正常访问
  • 关闭可能拦截下载的安全软件或代理干扰

建议先执行:

ollama run gemma3:1b

把链路先跑通,比执着某个大模型更重要。


3. 模型运行很慢、响应卡顿

原因

最常见的原因就是四个字:资源不够

具体可能包括:

  • 内存不足
  • 没有可用 GPU
  • 模型选太大
  • 后台程序占用过高
解决方案

建议直接从这几点入手:

  • 换小模型
  • 关闭浏览器、IDE、视频软件等高占用程序
  • 不要同时跑多个大任务
  • 优先验证可用性,再考虑性能优化

例如:

ollama run llama3.2:1b

如果你的机器本来就偏轻薄本路线,那就别强行拿大模型硬顶。先跑通,是最务实的策略。


4. API 调用失败,提示连接不上

原因

一般集中在以下几个方向:

  • Ollama 服务没有启动
  • 模型还没下载完成
  • 端口未正常响应
  • 本地防火墙或安全软件拦截
解决方案

先执行:

ollama list

再尝试直接运行模型:

ollama run gemma3:1b

确保模型可正常进入交互后,再测试 API:

curl http://localhost:11434/api/generate -Method Post -Body '{
  "model": "gemma3:1b",
  "prompt": "测试接口"
}' -ContentType "application/json"

排查顺序一定要对:
先确认 Ollama 能跑,再确认模型能跑,最后再看 API。


5. PowerShell 里的 curl 用得别扭

原因

Windows PowerShell 里的 curl 和 Linux/macOS 上的体验不完全一致,尤其在 JSON 参数传递上,经常会让人感觉“命令看着没问题,结果就是不顺”。

解决方案

除了继续用 curl,也可以直接用 PowerShell 原生方式:

Invoke-RestMethod -Uri "http://localhost:11434/api/generate" `
  -Method Post `
  -ContentType "application/json" `
  -Body '{
    "model": "gemma3:1b",
    "prompt": "hello"
  }'

如果你长期在 Windows 做接口联调,Invoke-RestMethod 往往更稳。


6. 安装完成后 ollama list 为空

原因

这不是报错,很多时候只是你还没拉模型。

解决方案

执行:

ollama run gemma3:1b

或者:

ollama pull gemma3:1b

然后再次查看:

ollama list

记住一个原则:
装好了 Ollama,不等于模型已经在本机。


7. 怀疑 GPU 没生效

原因

这类问题通常和显卡驱动、系统兼容性、设备状态有关,不完全是 Ollama 一层能解决的。

解决方案

先确认你的系统本身显卡状态正常:

  • 驱动已正确安装
  • 设备管理器无异常
  • 显卡工具可正常识别硬件

如果你只是首次安装,建议先别把精力都耗在 GPU 优化上。
先跑通 CPU 路线,再去研究显卡加速,节奏会更合理。


九、进阶说明

如果你已经顺利完成安装和基础验证,后面可以从下面几个方向继续深入。

1. 联动 Open WebUI

这是很多人后续最常见的选择:

  • Ollama 负责本地模型服务
  • Open WebUI 负责提供图形化对话界面

适合想搭一个“本地版 ChatGPT”体验的人。


2. 接入自己的应用程序

Ollama 提供本地 HTTP API,你可以直接接入:

  • Python 脚本
  • Node.js 服务
  • Java 后端
  • 桌面客户端
  • 本地知识库 / RAG 应用

如果你只是想做一个“可调用的本地大模型服务”,这一点已经够用了。


3. 使用 Modelfile 做简单定制

适合做:

  • 固定系统提示词
  • 专用问答助手
  • 角色助手
  • 企业内部语料封装

这一步很适合从“能用”走向“更贴业务”。


4. 导入 GGUF 模型

根据官方 README,Ollama 还支持通过 Modelfile 导入本地 GGUF 模型。
如果你后面打算用更灵活的模型来源,这条路线值得研究。


十、总结

Ollama 之所以适合入门,不是因为它把所有复杂问题都消灭了,而是因为它把最关键的第一步尽量做简单了。

这篇文章我们完整做了几件事:

  • 在 Windows 上安装 Ollama
  • 检查命令行环境是否正常
  • 拉取并运行一个小模型
  • 跑通第一次命令行对话
  • 验证本地 REST API
  • 排查常见的命令、网络和资源问题

对于大多数开发者来说,做到这一步已经够用了。
因为本地大模型这件事,真正重要的不是一次性把全家桶装满,而是先确认:你的机器能跑、你的接口能调、你的链路是通的。

一句话总结就是:
先把 Ollama 跑通,本地 AI 工具链才算真正有了起点。


Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐