引言

  • 背景: 网上可用的免费大模型挺多的,为啥还要自己部署呢? 最近用了一些免费的AI编程工具,体验感一般,又试了些花钱的编程模型,质量确实不一样,但是烧钱也很快。 所以我就想尝试再本地部署一套大模型,先学习下这个过程,让自己再无token焦虑!!~
  • 核心挑战: 钱包,优秀的大模型太吃显存了,我现在手上只有的8G的显卡的, 只能先跑下大模型部署流程,简单用一用,这个模型智商可能还不如一些免费的, 主要师体验流程啦~~
  • 本文目标: 我也是最近才开始正式研究AI 的,这篇文章也是记录下我学习的过程,顺便给同样在学习阶段的朋友一些参考

第一部分:需求分析与选型

1.1 明确目标与场景

*   具体应用场景:代码助手,从架构设计到编程,部署;知识问答,理财分析,文章输出。
*   期望模型具备的核心能力:目前主要师编程,创意文案生成。
*   性能要求(响应速度、并发能力、精度)。

1.2 模型选择与考量

选模型不必要纠结,先基于硬件筛选;然后可以下载多个针对优化的不同大模型切换使用

模型的选择,大家可以参考下这个网站,输入自己的显卡型号,以及可以分给AI的剩余内存,看看推荐你设备运行的大模型有哪些,然后再去下载对应的大模型
链接: https://whatmodelscanirun.com/
(此时此刻非常后悔当初没有直接买16G显存版本,现在只能跑7B量化模型,16G可以跑20B以上的模型,智商更在线)
在这里插入图片描述
也可以把你电脑的配置喂给AI ,让AI 给你推荐一些模型, 这里我优先考虑编程, 所以先选择了Qwen2.5-Coder-7B-Instruct模型。

需求场景 建议模型类型 推荐模型 (基于8G显存) 适配情况
AI编程助手 代码专用模型 Qwen2.5-Coder-7B-Instruct(3.5版本更强,估计马上也要发布了) 8G显存跑 7B 代码模型是最成熟的方案,速度飞快
理财量化、交易信息 通用指令模型 Qwen3-8B Qwen3 8B 在 MMLU 79 分,逻辑推理足够分析财经文本。
微信小红书文案 中文优化模型 Qwen2.5-7B-Instruct 文笔流畅,但 7B 模型有时会略显空洞,需配合较好 Prompt。
专业知识学习、职业规划 大参数模型 Nemotron Nano 12B 12B 模型会吃掉 6-7G 显存,上下文一长(超 16K)必定溢出到系统内存,导致思考变慢

第二部分:环境准备与模型获取

2.1 操作系统与基础环境

*   推荐linux, 我先使用Windows玩玩,电脑是Windows11
*   基础依赖安装这里就不提了

2.2关键工具

  • Ollama :一个开源的大型语言模型(LLM)平台,旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互。
    下载链接: https://ollama.com/download/windows
    在这里插入图片描述
    下载完成后,启动cmd命令行,获取大模型 (下载速度 就不一定了)

    ollama run Qwen2.5-Coder 7B
    

    在这里插入图片描述
    几分钟等待后,下载完成
    ollama list 可以看到已经安装的大模型
    在这里插入图片描述

安装完成后使用ollama界面进行提问,代码输出速度还可以,显卡也是燃起来了
在这里插入图片描述
又问了下开放性问题,因为这个模型是针对编码加强的所以开发问题回答的逻辑不如免费版本的千问效果好,就不展示了, 下面开始把这个编码大模型接入到编码工具中。

PS:还有个下载方式,直接在ollama中找到适合自己配置的模型,直接下载即可
在这里插入图片描述

第三部分:本地模型接入编码工具**

3.1 编码工具插件安装

  • 下载Continue 插件 (可以配置自定义的AI源)
    在这里插入图片描述
    进入 Continue配置–选择local—选择ollama 在选择自己下载的大模型 ;点击connect之后生成配置文件,可以通过配置文件添加已安装的大模型。
    在这里插入图片描述
    成功使用
    在这里插入图片描述

接下来就可以使用本地大模型进行AI编程了


结语

  • 本地化部署主要是企业应用,需要保证数据及代码的安全,企业可以承担更高规格的硬件。
  • 我们个人也可以使用消费级显卡做一些学习和使用,希望可以和更多大佬一起交流学习。

**附录 **
在这里插入图片描述

本地大模型就署好了,本文章主要介绍了如何对接AI编程以及如何搭建私有知识库,有了本地大模型意味着你不需要为token付费了,这样就可以更好的去养龙虾了, 下一篇文章将介绍一下使用本地大模型养小龙虾

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐