Ollama 快速上手

恋喵大鲤鱼 · 2026-03-22 12:03:39 发布

1.简介

Ollama 是一个开源的、轻量级的本地大语言模型运行平台。

你可以把它理解为大模型时代的 Docker，一个让你能在自己的电脑上一键下载、安装并运行各种开源大模型（如 Llama、DeepSeek、Gemma、Phi 等）的工具，无需依赖云端 API，也无需复杂的 GPU 环境配置。

它最核心的价值在于：让 AI 模型从“云端的服务”变成“本地的一个程序”。从此，数据和隐私完全掌握在自己手里，也不用为每次 API 调用付费。

以往想在本地跑一个模型，你需要搞定：CUDA 驱动、Python 环境、PyTorch/TensorFlow、模型权重下载、显存优化……过程繁琐，对非技术人员极不友好。

Ollama 把这一切复杂流程封装成了一条命令，真正做到了“开箱即用”。

特性维度	说明
极简部署	提供跨平台安装包（Windows/macOS/Linux），一条命令即可下载并运行模型，无需手动配置 Python 环境或 CUDA。
模型丰富	内置模型库支持主流开源模型，如 Llama 系列、DeepSeek-R1、Mistral、Gemma、Phi-4、Qwen 等，可通过 `ollama run <模型名>` 一键拉取。
硬件兼容	支持 CPU 推理，也自动利用 NVIDIA GPU（CUDA）、AMD GPU（ROCm）及 Apple Silicon（Metal）进行硬件加速。
API 服务	运行后自动启动 RESTful API 服务（默认端口 `11434`），供其他应用（如 LangChain、Chatbot UI）调用，方便集成到自己的项目中。
可定制	支持通过 `Modelfile` 自定义系统提示词、参数（温度等）或导入 HuggingFace 上的 GGUF 格式模型。

1. 安装

2. 运行模型
打开终端，输入以下命令，Ollama 会自动下载模型并启动对话：

# 运行 DeepSeek-R1 7B 模型
ollama run deepseek-r1

等待进度条跑完，就可以直接在终端里和 AI 对话了。

3. API 调用
在模型运行期间，你可以用 HTTP 请求调用它：

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1",
  "prompt": "为什么天空是蓝色的？"
}'

与 OpenAI API 对比：Ollama 是本地运行，完全免费，数据不上传云端，但需要自己有硬件资源；OpenAI 是云服务，按 token 付费，但无需操心硬件。
与 vLLM、llama.cpp 对比：Ollama 封装了 llama.cpp 等底层推理引擎，提供了更友好的用户界面和模型管理能力，对新手更友好。

Ollama 的出现极大地推动了大模型的“民主化”进程，让普通开发者和爱好者也能在自己的电脑上探索前沿 AI 能力。