老显卡V100也能玩27B大模型？实测Qwen3.6本地部署，智能体开发新思路！

进击的码农！

234人浏览 · 2026-06-10 16:07:46

进击的码农！ · 2026-06-10 16:07:46 发布

文章介绍了如何使用老显卡V100本地部署开源大模型Qwen3.6-27B，并分享使用体验。作者通过测试发现，虽然生成速度较慢，但模型基础能力尚可，适合非编程类等非重型高精密知识场景。文章还探讨了智能体开发中，如何结合不同模型完成复杂任务，为有条件者提供了低成本尝试大模型智能体的方案。

2026年一开始，大模型的智能体方向算是彻底火起来了，年后的openclaw小龙虾霸榜了各类新闻热点，热度前所未有，甚至一度超越去年春节前后的DeepSeek-R1。随后，又有各种自动化的高级智能体出现，掀起一层层不断的浪潮，比如hermes(爱马仕)等。

但随之而来的是消耗的token让钱包渐空，宛如割肉，这时本地有条件有资源可以考虑下本地部署来玩智能体，本文目的就是用老旧显卡来测试下开源本地较小型的大模型Qwen3.6-27B，给大家趟趟水，提取体验一番。

像之前的dify、manus、openmanus、deerflow等等智能体或工作流，都有一个特点是特别烧token，本地化部署有很大应用空间，我年前淘了一个垃圾老显卡V100 32GB(声明一下，我不是买卡的也不是带货的，请勿喷)，本文的主要内容是用这个老显卡来部署最近阿里开源的Qwen3.6-27B稠密大模型(量化版本)，以及分享简单的使用体验。

以后会用这个显卡部署各类开源模型进行模型的横向纵向对比，感兴趣可以关注下。

主机等

CPU+NPU：AMD Ryzen AI 9 H 365 w/ Radeon 880M

RAM：32GB

GPU：V100 32GB

大模型：Qwen3.6-27B GGUF Q4_K_M

推理框架：LM_Studio 0.4.11

Lm studio下载并加载Qwen3.6-27B的大致过程

首先，在模型库中搜索并选择合适量化大小的版本，32GB显卡选择Q4量化就差不多了，因为推理时还要有缓存大小占用显存

然后，加载大模型时需要配置一下相关参数，以确保能正常加载并推理生成，我选择的参数如下，需要的可以参考下。

加载大模型参数：

上下文窗口：12万

并发：2

加载到gpu的模型层数：64(加载所有层)

mmap()：关闭

其他参数默认即可

这样就拥有了一个上下文为12万token的大模型了。

下面进行初步体验。

使用体验

1.推理生成速度：

测试时，每类都是让其生成2000+tokens的，而且是逐类累积成上文去生成后面token的。

All token length<1000:

All token length<4000:

All token length<8000:

All token length<20000:

整体上，在上下文还不大时，生成速度还勉强ok，从30tokens/s逐步下降，可满足任务不紧急情况。

2.基本能力初步测试

1)9.2和9.11哪个大？

通过！

能完成去年几乎所有大模型都不会的问题，应该是这方面的训练数据给补齐了。

2)中国哪些城市是三个字？

不通过！

理解能力还是不够，回答中还是不能区分三字城市名的含义，而且二字三字有时还搞混了。

3)小明为什么没有参加他妈妈的婚礼？

通过！

这个也没难到它。当然，这个问题对于现在的所有大模型都不算难。

3.智能体能力测试(openclaw)

使用小龙虾openclaw框架+matrix消息渠道来测试几个简单任务：

1)备注身份

完成！

这类简单任务毫无问题可以完成。

2)安装搜索技能

完成！

它能安装Tavily Search技能，所以一般的skill安装应该问题不大。

3)搜索分析文章写总结

完成！

这个任务主要考验它的skill调用或工具调用能力，看样子基本上能跑这类任务。

4)查询天气

完成！

再次考验了它的skill调用或工具调用能力，没有让我失望，我对了下天气信息，OK的。

5)开发一个计算器网站

失败！（失败3次）

让它开发一个计算机网页，它忙活了一阵只留了‘它知道了’这种回复，然后简单提醒它也不行。看来让它完成编程类的任务是有难度的。

总结一下

V100 32GB这个老显卡对于Qwen3.6-27B这种稠密大模型，还是有点吃力，生成速度接近30tokens/s，时间不紧张的可以玩玩。

我测试的是中度量化版本，模型的基础能力还是及格的，非重型高精密知识(非编程类等)的场景还是可以用的，如果手里有更好的显卡还是可以把这个模型当成是智能体的日常驱动兜底，高级任务使用其他高级大模型来完成。

最后唠两句

为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选

很简单，这些岗位缺人且高薪

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200% ，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

那0基础普通人如何学习大模型？

深耕科技一线十二载，亲历技术浪潮变迁。我见证那些率先拥抱AI的同行，如何建立起效率与薪资的代际优势。如今，我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理，分享于此，为你扫清学习困惑，共赴AI时代新程。

我整理出这套 AI 大模型突围资料包【允许白嫖】：

✅从入门到精通的全套视频教程
✅AI大模型学习路线图（0基础到项目实战仅需90天）
✅大模型书籍与技术文档PDF
✅各大厂大模型面试题目详解
✅640套AI大模型报告合集
✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（0基础到项目实战仅需90天）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

第13讲：异步任务队列与长任务处理——Celery + Redis实战

欢迎来到《Python + AI Agent 实战开发完全指南》专栏！在前面的课程中，我们使用 FastAPI 将多智能体系统封装为了 RESTful API。但在真实的生产环境中，AI 推理和多智能体协作往往需要几秒甚至几分钟的时间。如果用户在发起请求后一直等待 HTTP 响应，不仅体验极差，还容易导致网关超时（Timeout）或服务器线程阻塞。在这一讲中，我们将引入工业界标准的解决方案：异步任

AtomGit开源社区

DevOps 生态介绍（十三）：Uptime Kuma 监控小工具推荐

AtomGit开源社区

UUV_AUV六自由度模型（运动学+动力学+扰动）（Matlab代码实现）

针对欠驱动水下无人航行器三维机动运动特性分析需求，本文依托两套完整时域仿真程序搭建统一的 UUV 动力学仿真体系。整体建模框架舍弃横滚运动自由度，构建兼顾惯性耦合、非线性水动力阻尼、静水力恢复力矩与舵控力矩的简化动力学模型，采用四阶龙格 - 库塔数值方法完成非线性微分方程组高精度离散求解。仿真体系设计两类典型任务工况，一类为恒定舵角驱动的匀速直线下潜任务，用于验证航行器纵向与垂向稳态运动性能；另一