1.简介

Ollama 是一个开源的、轻量级的本地大语言模型运行平台

你可以把它理解为大模型时代的 Docker,一个让你能在自己的电脑上一键下载、安装并运行各种开源大模型(如 Llama、DeepSeek、Gemma、Phi 等)的工具,无需依赖云端 API,也无需复杂的 GPU 环境配置。

它最核心的价值在于:让 AI 模型从“云端的服务”变成“本地的一个程序”。从此,数据和隐私完全掌握在自己手里,也不用为每次 API 调用付费。

2.为什么需要 Ollama?

以往想在本地跑一个模型,你需要搞定:CUDA 驱动、Python 环境、PyTorch/TensorFlow、模型权重下载、显存优化……过程繁琐,对非技术人员极不友好。

Ollama 把这一切复杂流程封装成了一条命令,真正做到了“开箱即用”。

3.核心特性

特性维度 说明
极简部署 提供跨平台安装包(Windows/macOS/Linux),一条命令即可下载并运行模型,无需手动配置 Python 环境或 CUDA。
模型丰富 内置模型库支持主流开源模型,如 Llama 系列、DeepSeek-R1、Mistral、Gemma、Phi-4、Qwen 等,可通过 ollama run <模型名> 一键拉取。
硬件兼容 支持 CPU 推理,也自动利用 NVIDIA GPU(CUDA)、AMD GPU(ROCm)及 Apple Silicon(Metal)进行硬件加速。
API 服务 运行后自动启动 RESTful API 服务(默认端口 11434),供其他应用(如 LangChain、Chatbot UI)调用,方便集成到自己的项目中。
可定制 支持通过 Modelfile 自定义系统提示词、参数(温度等)或导入 HuggingFace 上的 GGUF 格式模型。

4.快速上手示例

1. 安装

  • Windows/macOS: 官网下载 .exe.dmg 安装包,双击安装。
  • Linux: 运行 curl -fsSL https://ollama.com/install.sh | sh

2. 运行模型
打开终端,输入以下命令,Ollama 会自动下载模型并启动对话:

# 运行 DeepSeek-R1 7B 模型
ollama run deepseek-r1

等待进度条跑完,就可以直接在终端里和 AI 对话了。

3. API 调用
在模型运行期间,你可以用 HTTP 请求调用它:

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1",
  "prompt": "为什么天空是蓝色的?"
}'

5.常见模型资源参考

模型 参数规模 推荐配置 运行命令
DeepSeek-R1 7B 8GB+ 内存 ollama run deepseek-r1
Llama 3.2 3B 4GB+ 内存 ollama run llama3.2
Phi-4 14B 16GB+ 内存 ollama run phi4
Gemma 2 2B 4GB+ 内存 ollama run gemma2:2b
Mistral 7B 8GB+ 内存 ollama run mistral

6.与其他工具的关系

  • 与 OpenAI API 对比:Ollama 是本地运行,完全免费,数据不上传云端,但需要自己有硬件资源;OpenAI 是云服务,按 token 付费,但无需操心硬件。
  • 与 vLLM、llama.cpp 对比:Ollama 封装了 llama.cpp 等底层推理引擎,提供了更友好的用户界面和模型管理能力,对新手更友好。

Ollama 的出现极大地推动了大模型的“民主化”进程,让普通开发者和爱好者也能在自己的电脑上探索前沿 AI 能力。


参考文献

Ollama

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐