windows+wsl+OpenClaw 安装指南(五):大模型配置实战 —— Ollama 本地部署与腾讯混元 API

作者:技术实践派
标签:Ollama | 腾讯混元 | 大模型部署 | GPU加速 | API配置
难度:⭐⭐⭐☆☆(中级)
阅读时间:15分钟


一、前言

OpenClaw 的核心能力来自大语言模型(LLM)。本篇文章将详细介绍两种主流方案:

方案 优点 缺点 适用场景
Ollama 本地模型 数据不出本机、无网络延迟、免费 需要显卡、配置复杂 隐私要求高、有独立显卡
腾讯混元 API 即开即用、模型强大、无需硬件 需付费、数据上云 快速体验、企业应用

二、方案一:Ollama 本地模型部署

2.1 Ollama 简介

Ollama 是一个简化本地大模型运行工具,让在本地运行 Llama、Qwen 等模型变得像 docker run 一样简单。

架构示意:

OpenClaw (WSL) ──HTTP──► Ollama (Windows) ──► llama.cpp ──► GPU/CPU

2.2 安装 Ollama Windows 版

访问官网下载安装:https://ollama.com/download/windows

安装完成后,Ollama 会:

  • 安装到 C:\Users\<用户名>\AppData\Local\Programs\Ollama
  • 添加开机自启动服务
  • 默认监听 127.0.0.1:11434

2.3 配置 Ollama 监听 0.0.0.0

默认情况下 Ollama 只监听本地回环,WSL 无法访问。需要修改为监听所有网卡:

# 设置环境变量(用户级)
[Environment]::SetEnvironmentVariable("OLLAMA_HOST", "0.0.0.0:11434", "User")
[Environment]::SetEnvironmentVariable("OLLAMA_ORIGINS", "*", "User")

# 重启 Ollama 服务生效
# 方法1:任务管理器结束 ollama.exe 进程,它会自动重启
# 方法2:重启电脑

验证配置:

# 查看端口监听
netstat -an | findstr 11434
# 应显示 0.0.0.0:11434 而不是 127.0.0.1:11434

2.4 下载推荐模型

根据你的显存大小选择模型:

# 8GB 显存推荐(如 RTX 4060)
ollama pull ministral-3:3b      # 3B参数,占用约 4GB 显存
ollama pull llama3.2:3b         # 轻量级,速度快

# 12GB+ 显存可选
ollama pull qwen2.5:7b          # 中文能力强
ollama pull mistral:7b          # 综合能力好

# 纯 CPU 运行(无显卡)
ollama pull phi3:3.8b           # 微软小模型,CPU 友好

2.5 创建自定义模型(Modelfile)

Ollama 支持通过 Modelfile 自定义模型参数:

# 文件:ministral-rtx4060.modelfile
FROM ministral-3:3b

# 上下文长度(越大越占显存)
PARAMETER num_ctx 8192

# GPU 层数(越大 GPU 利用率越高)
PARAMETER num_gpu 38

# CPU 线程数
PARAMETER num_thread 6

# 系统提示词
SYSTEM 你是一个智能助手,请用中文简洁明了地回答问题。

创建模型:

ollama create ministral-rtx4060 -f ministral-rtx4060.modelfile

参数调优建议:

显存 num_ctx num_gpu 说明
8GB 4096 38 保守配置,稳定运行
8GB 8192 32 长上下文,需测试
12GB 8192 40 标准配置
16GB+ 16384 40 高性能配置

2.6 OpenClaw 配置 Ollama

在 WSL 中执行:

# 获取 Windows IP(从 WSL 视角看,Windows 是默认网关)
WINDOWS_IP=$(ip route show default | grep -oP '(?<=via )\d+\.\d+\.\d+\.\d+')
echo "Windows IP: $WINDOWS_IP"

# 配置 Ollama 连接
openclaw config set models.providers.ollama.baseUrl "http://${WINDOWS_IP}:11434"

# 设置默认模型
openclaw config set agents.defaults.model.primary "ollama/ministral-rtx4060"

# 重启 Gateway 生效
systemctl --user restart openclaw-gateway.service

验证连接:

# 在 WSL 中测试 Ollama 连通性
curl http://$(ip route | grep default | awk '{print $3}'):11434/api/tags

2.7 RTX 4060 优化实战

以我实测的 RTX 4060 8GB 配置为例:

Modelfile:

FROM ministral-3:3b

PARAMETER num_ctx 8192
PARAMETER num_gpu 38
PARAMETER num_thread 6
PARAMETER temperature 0.7

SYSTEM 你是一个专业的编程助手,擅长回答技术问题。请用中文回答。

性能表现:

任务 速度 显存占用
简单问答 ~50 tokens/s ~5GB
代码生成 ~30 tokens/s ~6GB
长文本分析 ~20 tokens/s ~7.5GB

三、方案二:腾讯混元大模型

3.1 为什么选择腾讯混元?

  • 国内可用:无需科学上网
  • 中文优化:在中文理解上表现优异
  • API 兼容:支持 OpenAI 格式,接入简单
  • 稳定可靠:腾讯云基础设施保障

3.2 获取 API Key

  1. 访问腾讯云控制台:https://console.cloud.tencent.com/lkeap
  2. 创建 API Key
  3. 复制 sk- 开头的密钥

⚠️ 安全提醒:API Key 相当于密码,不要泄露!

3.3 OpenClaw 配置腾讯混元

编辑配置文件 ~/.openclaw/openclaw.json

{
  "models": {
    "providers": {
      "tencent-coding-plan": {
        "baseUrl": "https://api.lkeap.cloud.tencent.com/coding/v3",
        "apiKey": "sk-your-api-key-here",
        "api": "openai-completions",
        "models": [
          {
            "id": "hunyuan-turbos",
            "name": "Hunyuan TurboS",
            "contextWindow": 32000,
            "maxTokens": 16000
          },
          {
            "id": "hunyuan-2.0-instruct",
            "name": "Hunyuan 2.0",
            "contextWindow": 128000,
            "maxTokens": 16000
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "tencent-coding-plan/hunyuan-turbos"
      }
    }
  }
}

或者使用命令行配置:

# 设置 baseUrl
openclaw config set models.providers.tencent-coding-plan.baseUrl \
    "https://api.lkeap.cloud.tencent.com/coding/v3"

# 设置 API Key
openclaw config set models.providers.tencent-coding-plan.apiKey \
    "sk-your-api-key"

# 设置 API 类型
openclaw config set models.providers.tencent-coding-plan.api \
    "openai-completions"

# 设置默认模型
openclaw config set agents.defaults.model.primary \
    "tencent-coding-plan/hunyuan-turbos"

3.4 腾讯混元模型选择

模型 上下文 特点 适用场景
hunyuan-turbos 32K 速度快、性价比高 日常对话、代码生成
hunyuan-2.0-instruct 128K 能力强、支持超长文本 长文档分析、总结
hunyuan-t1 32K 推理能力强 复杂问题求解
tc-code-latest 16K 代码优化 编程辅助

3.5 重启并验证

# 重启 Gateway
systemctl --user restart openclaw-gateway.service

# 查看日志验证是否成功调用
journalctl --user -u openclaw-gateway.service -f

**成功标志:**日志中出现模型调用记录,无 API 错误。


四、双模型切换实战

4.1 为什么要配置多个模型?

  • 成本考虑:简单任务用本地模型,复杂任务用在线模型
  • 隐私分级:敏感数据走本地,公开数据走在线
  • 备份机制:一个不可用时自动切换到另一个

4.2 配置多模型

{
  "models": {
    "providers": {
      "ollama": {
        "baseUrl": "http://172.20.0.1:11434",
        "models": [{"id": "ministral-rtx4060", "name": "Local Model"}]
      },
      "tencent-coding-plan": {
        "baseUrl": "https://api.lkeap.cloud.tencent.com/coding/v3",
        "apiKey": "sk-xxx",
        "api": "openai-completions",
        "models": [{"id": "hunyuan-turbos", "name": "Tencent Hunyuan"}]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/ministral-rtx4060",
        "fallback": "tencent-coding-plan/hunyuan-turbos"
      }
    }
  }
}

4.3 动态切换模型

# 切换到本地模型
openclaw config set agents.defaults.model.primary "ollama/ministral-rtx4060"

# 切换到腾讯混元
openclaw config set agents.defaults.model.primary "tencent-coding-plan/hunyuan-turbos"

# 每次切换后重启 Gateway
systemctl --user restart openclaw-gateway.service

五、模型配置常见问题

5.1 Ollama 连接失败

症状:OpenClaw 无法调用本地模型

排查步骤

# 1. 确认 Ollama 运行
netstat -an | findstr 11434  # Windows

# 2. 确认 WSL 能访问 Windows
ping $(ip route | grep default | awk '{print $3}')  # WSL

# 3. 测试 Ollama API
curl http://<windows-ip>:11434/api/tags

# 4. 检查防火墙
# Windows 防火墙需放行 11434 端口

5.2 腾讯混元 API 错误

症状:返回 401 或 403 错误

排查

# 检查 API Key 是否正确
openclaw config get models.providers.tencent-coding-plan.apiKey

# 检查 baseUrl 是否为 v3 接口
# 正确:https://api.lkeap.cloud.tencent.com/coding/v3
# 错误:https://api.lkeap.cloud.tencent.com/v1

5.3 模型回复异常

现象 原因 解决
回复很乱 num_ctx 太大导致显存不足 减小到 4096
回复很慢 GPU 层数设置不当 调整 num_gpu
中文乱码 模型本身问题 换模型或加 SYSTEM 提示

六、配置脚本附件

6.1 Ollama 一键配置脚本

#!/bin/bash
# configure-ollama.sh

# 获取 Windows IP
WINDOWS_IP=$(ip route show default | grep -oP '(?<=via )\d+\.\d+\.\d+\.\d+')
MODEL_NAME=${1:-"ministral-rtx4060"}

echo "配置 Ollama 连接..."
echo "Windows IP: $WINDOWS_IP"
echo "模型: $MODEL_NAME"

openclaw config set models.providers.ollama.baseUrl "http://${WINDOWS_IP}:11434"
openclaw config set agents.defaults.model.primary "ollama/${MODEL_NAME}"

systemctl --user restart openclaw-gateway.service

echo "Ollama 配置完成!"

6.2 腾讯混元配置脚本

#!/bin/bash
# configure-tencent.sh

API_KEY=$1
MODEL=${2:-"hunyuan-turbos"}

if [ -z "$API_KEY" ]; then
    echo "用法: ./configure-tencent.sh <api-key> [model-name]"
    exit 1
fi

python3 << EOF
import json

config_path = "$HOME/.openclaw/openclaw.json"

with open(config_path, 'r') as f:
    config = json.load(f)

config['models'] = {
    'providers': {
        'tencent-coding-plan': {
            'baseUrl': 'https://api.lkeap.cloud.tencent.com/coding/v3',
            'apiKey': '$API_KEY',
            'api': 'openai-completions',
            'models': [
                {'id': '$MODEL', 'name': 'Tencent Model', 'contextWindow': 32000, 'maxTokens': 16000}
            ]
        }
    }
}

config['agents']['defaults']['model']['primary'] = 'tencent-coding-plan/$MODEL'

with open(config_path, 'w') as f:
    json.dump(config, f, indent=2)

print('腾讯混元配置完成')
EOF

systemctl --user restart openclaw-gateway.service

七、总结

本文详细介绍了 OpenClaw 的两种大模型方案:

对比项 Ollama 本地 腾讯混元 API
部署难度 ⭐⭐⭐
运行成本 电费+硬件 按量计费
数据隐私 ⭐⭐⭐⭐⭐ ⭐⭐⭐
模型能力 ⭐⭐⭐ ⭐⭐⭐⭐⭐
响应速度 ⭐⭐⭐ ⭐⭐⭐⭐

建议:

  • 有 RTX 4060/3060 显卡 → 本地 Ollama
  • 快速体验/企业应用 → 腾讯混元
  • 两者结合 → 本地日常+云端复杂任务

下篇预告

《windows+wsl+OpenClaw 安装指南(六):飞书集成与企业部署》—— 详细讲解飞书开放平台配置、权限管理、群聊机器人集成等企业级应用场景。


参考文献

Ollama 官方资源

[1] Ollama. Ollama Official Website. https://ollama.com [EB/OL]. 2024.

[2] Ollama GitHub Repository. https://github.com/ollama/ollama [EB/OL]. 2024.

[3] Ollama 模型库. https://ollama.com/library [EB/OL]. 2024.

[4] Ollama 文档. https://github.com/ollama/ollama/blob/main/docs/README.md [EB/OL]. 2024.

[5] Ollama Modelfile 参考. https://github.com/ollama/ollama/blob/main/docs/modelfile.md [EB/OL]. 2024.

腾讯混元大模型

[6] 腾讯云. 腾讯混元大模型产品页. https://cloud.tencent.com/product/hunyuan [EB/OL]. 2024.

[7] 腾讯云. 大模型知识引擎 API 文档. https://cloud.tencent.com/document/product/1729 [EB/OL]. 2024.

[8] 腾讯云. API Key 管理指南. https://cloud.tencent.com/document/product/1729/111052 [EB/OL]. 2024.

[9] OpenAI API 参考文档(兼容格式). https://platform.openai.com/docs/api-reference [EB/OL]. 2024.

LLM 与推理优化

[10] llama.cpp GitHub. https://github.com/ggerganov/llama.cpp [EB/OL]. 2024.

[11] Hugging Face. Transformer Models Documentation. https://huggingface.co/docs/transformers/ [EB/OL]. 2024.

[12] Mistral AI Documentation. https://docs.mistral.ai/ [EB/OL]. 2024.

本地大模型部署

[13] NVIDIA. CUDA 文档中心. https://docs.nvidia.com/cuda/ [EB/OL]. 2024.

[14] NVIDIA. cuBLAS 库文档. https://docs.nvidia.com/cuda/cublas/ [EB/OL]. 2024.

[15] Vulkan Compute. https://www.vulkan.org/ [EB/OL]. 2024.

推荐模型与参数调优

[16] Qwen 官方文档. https://qwen.readthedocs.io/ [EB/OL]. 2024.

[17] Meta AI. Llama 模型使用指南. https://ai.meta.com/llama/ [EB/OL]. 2024.

[18] 微软 Phi 系列模型. https://huggingface.co/microsoft [EB/OL]. 2024.

GPU 性能优化

[19] NVIDIA. GPU 性能调优指南. https://docs.nvidia.com/deeplearning/performance/ [EB/OL]. 2024.

[20] NVIDIA System Management Interface (nvidia-smi). https://developer.nvidia.com/nvidia-system-management-interface [EB/OL]. 2024.

LLM 上下文与参数

[21] 上下文窗口(Context Window)技术解析. https://arxiv.org/abs/2309.00071 [J/OL]. arXiv preprint, 2023.

[22] Transformer 架构详解. Vaswani, A., et al. “Attention is all you need.” NeurIPS 2017. https://arxiv.org/abs/1706.03762


本文完,敬请期待下篇。


系列文章导航:

  • 📎 上一篇:04-自动化安装脚本完全解析-PowerShell与Bash实战(待上传后添加链接)
  • 📎 下一篇:06-飞书集成与企业部署-打造团队AI助手(待上传后添加链接)
  • 📂 系列目录:windows+wsl+OpenClaw 安装指南

觉得有帮助?

  • 👍 点个赞支持一下
  • ⭐ 收藏备用
  • ✅ 关注博主,不错过后续更新
  • 💬 有问题欢迎在评论区留言
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐