AI 基础概念


前言


   本文主要讲解AI编程基础概念和相关实例对比。 适合完全零基础、第一次接触 AI 编程的小白阅读。


1、LLM


LLM :Large Language Model 大语言模型。可以理解成一个具有海量知识的超级智能。是一切AI智能的核心。

本质:是存储硬盘上的二进制文件(比如 qwen2.5:7b 约 4.7GB),不是一个持续运行的程序。

能力:能理解输入的信息,并基于输入信息给予相对准确的反馈信息。 能写代码、写文案、回答问题,能推理、总结、改错。但只能输出文字,不能自己动手操作电脑。


我们平时用的 ChatGPT、Cursor、通义灵码,本质是使用Https访问某个大模型,并基于模型的反馈获取响应信息。以下是现阶段(2026/03)国内外主流LLM汇总。

分类

模型名称

核心定位

核心特点

适合场景

缺点

国外·闭源(直接用API/产品)

 

OpenAI GPT系列(GPT-4.1/5.2、o1)

全能型“六边形战士”,全球标杆

综合能力最强,推理、代码、多模态都能打;上下文最长(100万Token);生态最完善,几乎所有AI工具都支持

通用开发、复杂项目、多模态需求、追求极致效果

价格高,国内访问需合规,中文理解略逊国产

Anthropic Claude系列(Claude 4.5 Opus)

长文本+安全合规“天花板”

上下文超长(200万+Token);代码能力顶尖;输出严谨、幻觉少,安全合规性强;中文支持优秀

长文档分析、代码工程、企业合规应用、敏感领域(法律/医疗)

创意生成略弱于GPT,价格偏高

Google Gemini系列(Gemini 3 Pro)

原生多模态“全能选手”

无缝处理文本+图像+视频+音频,多模态能力全球领先;上下文512K Token;绑定谷歌生态,数据更新快

多模态创作、视频/图像分析、谷歌生态用户、实时信息需求

中文理解一般,国内生态弱,API稳定性一般

xAI Grok系列(Grok 4.20)

实时知识+幽默风格“个性选手”

可实时联网(调用X数据),信息更新快;回答接地气、有梗,不刻板;支持多Agent协作

实时资讯、社交场景、喜欢轻松对话的用户

严谨性不足,企业场景适配弱

国外·开源(可本地部署/微调)

Meta Llama系列(Llama 3/4)

AI界“Linux”,私有化部署基石

完全开源,可免费商用(遵协议);推理、代码、对话能力均衡;社区生态最庞大;数据隐私可控

企业私有化部署、垂直领域微调、科研、本地AI应用

无官方服务,需自建算力,中文原生支持一般

Mistral Large系列

开源“小而强”,速度与性价比之王

推理速度极快(比Llama快30%+);既有开源版本,也有付费API;代码与数学能力突出

边缘设备、轻量化应用、追求速度的场景

综合能力略逊于GPT、Claude

国内·闭源(国内访问友好)

字节跳动 豆包Seed系列(Seed 2.0 Pro)

国产综合第一,全球Top10唯一国产模型

中文理解、推理、代码、多模态均衡;国内生态完善(绑定抖音、飞书);访问稳定;性价比高(仅GPT的1/5~1/10)

国内C端用户、企业级应用、中文场景、预算有限的开发

国际生态略弱于国外头部模型

阿里 通义千问Qwen系列(Qwen 3.5)

国产开源+闭源双强,多语言王者

闭源API性能强,开源版本可自由部署;中英文双强,开源榜第一;代码能力接近GPT;绑定阿里云生态

多语言任务、开源项目、电商/云计算场景、企业私有化

部分高级功能需付费,个人免费额度有限

百度 文心一言ERNIE 5.0

中文知识图谱“鼻祖”,搜索+AI融合

中文理解顶尖(成语、网络梗、文化语境);可实时联网,知识更新快;绑定百度搜索、智能云生态

中文内容创作、知识问答、搜索增强场景、传统企业数字化

多模态能力略逊于国产头部模型

智谱AI GLM系列(GLM-5)

Agent+企业应用“专家”

Agent能力极强(自主规划、工具调用);清华背景,适配教育、政务、科研;开源活跃,支持本地部署

智能体开发、企业级复杂任务、学术/政务场景

C端用户体验略弱,侧重企业场景

月之暗面 Kimi系列(Kimi k2.5)

超长文本“专家”,C端友好

上下文超长(200万Token),长文档解析国内第一;免费额度充足,界面简洁;中文理解强

个人长文档阅读、论文总结、代码库分析、轻量化使用

企业级功能不完善,复杂推理略弱

国内·开源(国产自研)

深度求索 DeepSeek系列(DeepSeek R1/V3.2)

推理+代码“性价比之王”

数学推理、代码能力极强;API价格极低(仅GPT几十分之一);开源权重免费,生态活跃

数学/代码任务、预算有限的团队、开源项目、科研

多模态能力较弱,生态完善度一般

腾讯 混元(Hunyuan)

社交生态“集成选手”

深度绑定微信/QQ生态,社交场景适配度高;多模态能力均衡;企业级安全合规

社交产品、游戏NPC、内容创作、腾讯生态用户

通用推理能力略逊于国产头部模型,开源支持一

 

2、Code LLM


 代码大模型: 专门学过几百万、几千万行代码的 LLM。更懂语法、报错、函数、接口,更懂项目结构、命名规范。目前笔者在用claude opus-sonnet 4.5模型,响应反馈不错,幻觉比较少。

但这个模型依然会有Bug,AI编程逻辑性的BUG不多,流程性的BUG很多,如果是从头开始搭的项目或许可以全AI编程。如果是重构项目,建议PR审批后在上线。

以下是国内外大模型Code能力排名。

排名 模型名称 所属机构 国内 / 国外 是否开源 核心参数 本地部署推荐配置(量化后) 代码能力亮点
1 Claude Opus 4.6 Anthropic 国外 ❌ 闭源 未公开 仅 API 调用,不可本地部署 SWE-bench 80.9%,复杂推理 / 长上下文 / 终端操作最强
2 GPT-5.4 / GPT-4o Code OpenAI 国外 ❌ 闭源 未公开 仅 API 调用,不可本地部署 代码生成 / 调试 / 执行能力顶尖
3 Gemini 3.1 Pro Google 国外 ❌ 闭源 未公开 仅 API 调用,不可本地部署 LiveCodeBench 91.7%,算法 / 多模态强
4 Claude Sonnet 4.6 Anthropic 国外 ❌ 闭源 未公开 仅 API 调用,不可本地部署 SWE-bench 79.6%,日常开发 / 响应快 / 性价比高
5 DeepSeek V3.2-Speciale 深度求索 国内 ✅ 开源 未公开 A100 (40GB) + 64GB 内存 国产最强,终端操作 62.1%,中文代码优
6 DeepSeek-Coder 33B 深度求索 国内 ✅ 开源 33B RTX 4090 (24GB) + 64GB 内存 128K 上下文,代码理解 / 补全强
7 Qwen2.5-Coder 32B 阿里 国内 ✅ 开源 32B RTX 4090 (24GB) + 64GB 内存 中英均衡,IDE 友好,量化方案全
8 CodeLlama 70B Meta 国外 ✅ 开源 70B 2×A100 (40GB) + 128GB 内存 多语言 / 调试 / 补全生态成熟
9 Mixtral 8x7B Code Mistral 国外 ✅ 开源 8x7B (MoE) RTX 4090 (24GB) + 32GB 内存 MoE 效率高,推理快,多语言强
10 CodeLlama 34B Meta 国外 ✅ 开源 34B RTX 4090 (24GB) + 64GB 内存 性能 / 显存平衡,适合个人 / 小团队
11 Qwen2.5-Coder 14B 阿里 国内 ✅ 开源 14B RTX 4080 (16GB) + 32GB 内存 消费级可跑,中文代码优
12 DeepSeek-Coder 6.7B 深度求索 国内 ✅ 开源 6.7B RTX 3090 (24GB) + 32GB 内存 轻量高性能,入门首选
13 CodeLlama 13B Meta 国外 ✅ 开源 13B RTX 4070Ti (12GB) + 32GB 内存 英文场景性价比高
14 Qwen2.5-Coder 7B 阿里 国内 ✅ 开源 7B RTX 3070 (8GB) + 16GB 内存 入门级,消费级显卡可跑
15 CodeLlama 7B Meta 国外 ✅ 开源 7B RTX 3060Ti (8GB) + 16GB 内存 最小可用,纯 CPU 也能跑(慢)


3、Skill


Skills 是教 Agent 如何完成特定复杂工作流的“说明书”或“经验包”,将tools封装成说明书。

Skill = 大模型会的某一项具体本事。可以理解成:AI 的 “技能栏”。以下是作者认为比较好用的openClaw的skill。注意可以选多个skill组合。本地部署建议单任务优先 1–2 个 Skill 组合。多任务并发效果并不好。

Skill 名称 核心功能 适用场景 安装命令
skill-vetter 技能安全审计、恶意代码检测、权限风险扫描 安装任何新技能前必用,保障本地安全 clawhub install skill-vetter
self-improving-agent 自我进化、优化策略、记忆偏好、适配千问风格 长期使用、复杂任务、提升一致性 clawhub install self-improving-agent
tavily-search 联网实时搜索、国内网页精准抓取、信息提炼 查资料、追热点、验证信息、补全上下文 clawhub install tavily-search
summarize 长文 / 文档 / 代码 / 日志一键总结、提炼要点 读论文、看报告、复盘会议、快速理解 clawhub install summarize
mem0-memory 长期记忆、保存偏好 / 项目 / 对话上下文 跨会话记忆、个性化助手、减少重复说明 clawhub install mem0-memory
github 代码提交、PR 查看、分支切换、日志查询 开发协作、版本管理、自动化代码操作 clawhub install github
feishu-toolkit 飞书日历 / 审批 / 会议 / 消息自动化 办公协同、日程管理、减少平台切换 clawhub install feishu-toolkit
sequential-thinking 复杂问题分步推理、思维链、逻辑拆解 代码调试、架构设计、多步骤任务规划 clawhub install sequential-thinking
find-skills 按需求智能推荐匹配技能、解决选择困难 新手入门、拓展能力、快速找到合适工具 clawhub install find-skills
code-assistant 代码补全、重构、调试、生成测试用例 日常开发、代码优化、Bug 定位 clawhub install code-assistant
rag-local 本地知识库检索、文档问答、私有数据增强 对接内部文档、项目手册、私有化问答 clawhub install rag-local
agent-browser 浏览器自动化、网页操作、数据抓取 网页测试、信息采集、自动化流程 clawhub install agent-browser


4、Agent


Agent 是整个系统的“大脑”和“执行者”。 传统的 AI 大模型只是一个被动的文本生成器(你问它答),而 Agent 则具备了感知、规划、推理和行动的能力。

Agent = 大模型 + 工具调用 + 自主规划 + 记忆 + 执行能力。

简而言之,Agent就是一个会自主动解决问题的工作流。如果按组织架构的逻辑去拆分技能,以下是作者常用的agent。

Agent 名称 作用 推荐理由
SequentialThinkingAgent 分步思考、逻辑链推理、复杂任务拆解 千问逻辑强,这个 Agent 最稳
CodeAgent 代码生成、重构、调试、查 Bug 专门适配代码场景,千问 - coder 绝配
ToolUseAgent 统一调用各类 Skill、函数调用 千问 FC 能力强,工具调用很顺
MemAgent 长期记忆、记住项目结构 / 习惯 避免重复说明上下文


 5、Tool


Tool 是 Agent 用来影响现实世界的“手和脚”。 因为 AI 模型本身只能处理文本和计算,它需要借助具体的工具才能与外界交互。以下是推荐的工具列表。

Tool 名称 功能作用 适用场景 推荐指数
file_read 读取本地代码文件 读源码、查逻辑、分析项目 必装
file_write 写入 / 修改代码文件 自动改代码、生成文件 必装
code_interpreter 执行 Python/JS 代码、计算、验证 调试逻辑、跑脚本、算结果 必装
git_diff 查看代码变更 改完代码看改动、对比版本 强烈推荐
git_commit 生成提交信息、提交代码 规范化 commit、自动提交 推荐
shell_exec 安全执行终端命令 运行构建、启动服务、查看环境 推荐
web_search 联网搜索文档 / 错误信息 查官方文档、搜报错解决方案 推荐
project_scan 扫描项目结构、生成目录树 让 AI 快速理解整个项目 强烈推荐
code_review 代码审查、找 Bug、提优化 代码质量检查、重构建议 必装
summarize 总结长文本、日志、报错 快速看懂报错、日志、文档 可选
memory_store 保存项目信息、长期记忆 避免重复粘贴上下文 可选
api_call 调用 HTTP/API 接口 测试接口、自动化请求 可选


6、AI 编程工具

其实就是Code LLM加一个操作GUI(图形用户界面)。国内编程开发偏好用idea,主流的大模型都有对应支持的AI插件。

类别 核心定义 代表工具 核心特点
IDE(集成开发环境) 一站式代码编写、编译、调试、项目管理的软件 VS Code、IDEA、WebStorm 基础开发环境,无原生 AI 能力,需插件扩展
AI 原生 IDE 深度内置 AI 能力、无需插件即可全项目级 AI 操控的 IDE Cursor、Trae AI 深度集成、全局项目理解、原生 AI 操控、开箱即用
AI 插件(Plugin) 为普通 IDE 扩展 AI 能力的第三方扩展 GitHub Copilot、通义灵码、文心快码 不换编辑器、给现有工具叠加 AI 能力、按需安装


 7、上下文 Context

上下文:AI 的 “短期记忆”,即 AI 当下能看到、记住的所有内容。AI能理解的上下文越长,交互成本越低。受限于大模型上下文长度限制。持久化上下文是AI长期记忆的实现方式。

目前主流的持久化上下文方式如下表。

技术方案 核心原理 代表工具 适用场景 优点 缺点
对话日志持久化 保存完整对话历史,下次会话重新加载 手动导出 / 脚本、ChatGPT 导出、OpenClaw 日志 个人开发、短期任务 实现简单、零额外依赖、灵活可控 手动加载繁琐、上下文膨胀后推理变慢
长期记忆库(Memory Bank) 提取关键信息存入结构化存储,按需检索 mem0-memory、MemGPT、OpenClaw mem0 Skill 跨会话记忆、个人偏好 / 项目信息 自动记忆、轻量化、无需手动加载 记忆精度依赖模型提取能力
本地知识库 RAG 代码 / 文档向量化存入向量库,问答时检索增强 rag-local、Chroma、FAISS、LlamaIndex 大型项目、私有文档、代码库 永久存储、精准检索、不占上下文窗口 需额外部署向量库、初始化成本略高
长上下文窗口 模型原生支持超大上下文,单会话内保留信息 Qwen2.5-7B (128K)、Claude 3 (200K) 单次长任务、复杂代码重构 原生支持、无需额外工具、体验流畅 会话结束后丢失、无法跨会话
向量数据库 + RAG 全量代码 / 文档向量化,企业级检索增强 Pinecone、Weaviate、Milvus 企业级、多项目、团队协作 高并发、高可用、永久记忆 部署复杂、运维成本高
Agent 框架内置记忆 Agent 层统一管理上下文与记忆 OpenClaw、AutoGPT、LangChain 自动化任务、多步骤开发 一体化体验、自动关联上下文 依赖框架设计、灵活性稍弱

选型方案推荐

场景 推荐技术栈 方案
个人本地开发(Ollama + Qwen) OpenClaw + mem0-memory + rag-local 开箱即用,自动记住项目和习惯,AI 随时查阅代码库
单次复杂长任务 Qwen2.5-7B (128K) + 对话日志 单会话内搞定,结束后导出日志备用
企业级 / 多项目协作 向量数据库 + RAG + LangChain 构建私有知识库,团队共享记忆

 8、提示词Prompt

提示词:给 AI 的指令 + 上下文 + 要求。提示词写的越详细,AI理解的越全面。

不同模型的理解能力不同,导致一套提示词很难复用到不同的模型上。

现阶段大模型产品化的难点之一是在切换客户本地化模型后,如何保证原AI提示词可复用。如果都是用公用大模型,又会存在数据安全问题。以下是推荐的提示词写法。

结构模块 作用 写法示例 必须 / 可选
角色定位 让 AI 进入专业身份 你是资深 Java 后端工程师 / 前端开发专家 / 代码重构师 必选
任务目标 明确让 AI 做什么 请修复 Bug / 生成接口 / 解释代码 / 优化 SQL / 写单元测试 必选
上下文信息 给 AI 必要背景 代码片段、报错日志、需求说明、项目结构、数据库表 必选
技术约束 语言、框架、版本、规范 使用 Java8 + SpringBoot;遵循阿里开发手册; 必选
输出格式 控制返回内容样式 只返回完整代码;代码 + 简要说明;分步骤;JSON 格式 必选
风格要求 简洁、严谨、详细、易懂 逻辑严谨;要求返回严格的JSON格式 可选
禁止行为 避免 AI 跑偏 不要省略代码;禁止聊天;不要加入自己的推理内容 可选


9、知识库RAG

RAG : Retrieval-Augmented Generation,检索增强生成。把文档、代码、手册、知识库变成可检索的数据,交互时系统先去库里搜最相关的内容,把搜到的内容当作上下文丢给大模型,模型基于真实资料回答,不再从网上找资料理解。(防止刻意给AI投毒)推荐的技术方案如下。

组件 作用 推荐工具
向量数据库 存嵌入向量、做检索 Chroma、FAISS、Qdrant
嵌入模型 把文本转成向量 bge-small-zh、m3e、nomic-embed
RAG 框架 orchestrate 检索 LlamaIndex、LangChain、OpenClaw 内置 rag-local

RAG 就是让 AI 先查资料,再说话。是实现 “持久上下文、长期记忆” 最简单、最实用的方案。


 10、MCP

MCP : Model Context Protocol(模型上下文协议),是 Anthropic 于 2024 年底推出的开源标准化协议。

MCP 是 AI 模型与外部工具 / 数据之间的 “通用 USB 接口”,让 AI 能以统一方式调用数据库、文件、API、RAG 等外部能力,解决接口碎片化、重复开发、模型无法落地执行的问题。

组件类型 推荐工具 特点 适用场景
MCP Host/Client Claude Desktop、Cursor、LobeChat 开箱即用,内置 MCP 支持 本地开发、AI 编辑器、聊天应用
MCP Server 框架 Anthropic MCP SDK、LangChain MCP、Lobe MCP 快速开发 Server,支持多种语言 自定义工具 / 资源服务
常用 MCP Server File System MCP、SQL MCP、RAG MCP、Sheet Parser MCP 现成服务,直接安装使用 文件操作、数据库查询、文档解析
向量 / 知识库 Chroma、Qdrant、FAISS 与 MCP 无缝集成,做 RAG 检索 私有知识库、代码库检索
部署方式 stdio(本地)、HTTP(网络)、Docker 灵活部署,支持本地 / 云端 本地开发、生产环境服务化

 

总结

小白入门 AI 编程,先搞懂:LLM → Code LLM → Tool → Skill → Agent 这条链路。想要 AI 稳定、不瞎编、记得住项目:用好提示词 + 搭建 RAG 知识库。想要 AI 真正能 “动手干活”:用 Tool + MCP 协议 + Agent 自动执行。本地开发推荐:Ollama + Qwen + OpenClaw + mem0 + RAG

 

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐