AI基础概念
AI 基础概念
前言
本文主要讲解AI编程基础概念和相关实例对比。 适合完全零基础、第一次接触 AI 编程的小白阅读。
1、LLM
LLM :Large Language Model 大语言模型。可以理解成一个具有海量知识的超级智能。是一切AI智能的核心。
本质:是存储硬盘上的二进制文件(比如 qwen2.5:7b 约 4.7GB),不是一个持续运行的程序。
能力:能理解输入的信息,并基于输入信息给予相对准确的反馈信息。 能写代码、写文案、回答问题,能推理、总结、改错。但只能输出文字,不能自己动手操作电脑。
我们平时用的 ChatGPT、Cursor、通义灵码,本质是使用Https访问某个大模型,并基于模型的反馈获取响应信息。以下是现阶段(2026/03)国内外主流LLM汇总。
|
分类 |
模型名称 |
核心定位 |
核心特点 |
适合场景 |
缺点 |
|---|---|---|---|---|---|
|
国外·闭源(直接用API/产品)
|
OpenAI GPT系列(GPT-4.1/5.2、o1) |
全能型“六边形战士”,全球标杆 |
综合能力最强,推理、代码、多模态都能打;上下文最长(100万Token);生态最完善,几乎所有AI工具都支持 |
通用开发、复杂项目、多模态需求、追求极致效果 |
价格高,国内访问需合规,中文理解略逊国产 |
|
Anthropic Claude系列(Claude 4.5 Opus) |
长文本+安全合规“天花板” |
上下文超长(200万+Token);代码能力顶尖;输出严谨、幻觉少,安全合规性强;中文支持优秀 |
长文档分析、代码工程、企业合规应用、敏感领域(法律/医疗) |
创意生成略弱于GPT,价格偏高 |
|
|
Google Gemini系列(Gemini 3 Pro) |
原生多模态“全能选手” |
无缝处理文本+图像+视频+音频,多模态能力全球领先;上下文512K Token;绑定谷歌生态,数据更新快 |
多模态创作、视频/图像分析、谷歌生态用户、实时信息需求 |
中文理解一般,国内生态弱,API稳定性一般 |
|
|
xAI Grok系列(Grok 4.20) |
实时知识+幽默风格“个性选手” |
可实时联网(调用X数据),信息更新快;回答接地气、有梗,不刻板;支持多Agent协作 |
实时资讯、社交场景、喜欢轻松对话的用户 |
严谨性不足,企业场景适配弱 |
|
|
国外·开源(可本地部署/微调) |
Meta Llama系列(Llama 3/4) |
AI界“Linux”,私有化部署基石 |
完全开源,可免费商用(遵协议);推理、代码、对话能力均衡;社区生态最庞大;数据隐私可控 |
企业私有化部署、垂直领域微调、科研、本地AI应用 |
无官方服务,需自建算力,中文原生支持一般 |
|
Mistral Large系列 |
开源“小而强”,速度与性价比之王 |
推理速度极快(比Llama快30%+);既有开源版本,也有付费API;代码与数学能力突出 |
边缘设备、轻量化应用、追求速度的场景 |
综合能力略逊于GPT、Claude |
|
|
国内·闭源(国内访问友好) |
字节跳动 豆包Seed系列(Seed 2.0 Pro) |
国产综合第一,全球Top10唯一国产模型 |
中文理解、推理、代码、多模态均衡;国内生态完善(绑定抖音、飞书);访问稳定;性价比高(仅GPT的1/5~1/10) |
国内C端用户、企业级应用、中文场景、预算有限的开发 |
国际生态略弱于国外头部模型 |
|
阿里 通义千问Qwen系列(Qwen 3.5) |
国产开源+闭源双强,多语言王者 |
闭源API性能强,开源版本可自由部署;中英文双强,开源榜第一;代码能力接近GPT;绑定阿里云生态 |
多语言任务、开源项目、电商/云计算场景、企业私有化 |
部分高级功能需付费,个人免费额度有限 |
|
|
百度 文心一言ERNIE 5.0 |
中文知识图谱“鼻祖”,搜索+AI融合 |
中文理解顶尖(成语、网络梗、文化语境);可实时联网,知识更新快;绑定百度搜索、智能云生态 |
中文内容创作、知识问答、搜索增强场景、传统企业数字化 |
多模态能力略逊于国产头部模型 |
|
|
智谱AI GLM系列(GLM-5) |
Agent+企业应用“专家” |
Agent能力极强(自主规划、工具调用);清华背景,适配教育、政务、科研;开源活跃,支持本地部署 |
智能体开发、企业级复杂任务、学术/政务场景 |
C端用户体验略弱,侧重企业场景 |
|
|
月之暗面 Kimi系列(Kimi k2.5) |
超长文本“专家”,C端友好 |
上下文超长(200万Token),长文档解析国内第一;免费额度充足,界面简洁;中文理解强 |
个人长文档阅读、论文总结、代码库分析、轻量化使用 |
企业级功能不完善,复杂推理略弱 |
|
|
国内·开源(国产自研) |
深度求索 DeepSeek系列(DeepSeek R1/V3.2) |
推理+代码“性价比之王” |
数学推理、代码能力极强;API价格极低(仅GPT几十分之一);开源权重免费,生态活跃 |
数学/代码任务、预算有限的团队、开源项目、科研 |
多模态能力较弱,生态完善度一般 |
|
腾讯 混元(Hunyuan) |
社交生态“集成选手” |
深度绑定微信/QQ生态,社交场景适配度高;多模态能力均衡;企业级安全合规 |
社交产品、游戏NPC、内容创作、腾讯生态用户 |
通用推理能力略逊于国产头部模型,开源支持一 |
2、Code LLM
代码大模型: 专门学过几百万、几千万行代码的 LLM。更懂语法、报错、函数、接口,更懂项目结构、命名规范。目前笔者在用claude opus-sonnet 4.5模型,响应反馈不错,幻觉比较少。
但这个模型依然会有Bug,AI编程逻辑性的BUG不多,流程性的BUG很多,如果是从头开始搭的项目或许可以全AI编程。如果是重构项目,建议PR审批后在上线。
以下是国内外大模型Code能力排名。
| 排名 | 模型名称 | 所属机构 | 国内 / 国外 | 是否开源 | 核心参数 | 本地部署推荐配置(量化后) | 代码能力亮点 |
|---|---|---|---|---|---|---|---|
| 1 | Claude Opus 4.6 | Anthropic | 国外 | ❌ 闭源 | 未公开 | 仅 API 调用,不可本地部署 | SWE-bench 80.9%,复杂推理 / 长上下文 / 终端操作最强 |
| 2 | GPT-5.4 / GPT-4o Code | OpenAI | 国外 | ❌ 闭源 | 未公开 | 仅 API 调用,不可本地部署 | 代码生成 / 调试 / 执行能力顶尖 |
| 3 | Gemini 3.1 Pro | 国外 | ❌ 闭源 | 未公开 | 仅 API 调用,不可本地部署 | LiveCodeBench 91.7%,算法 / 多模态强 | |
| 4 | Claude Sonnet 4.6 | Anthropic | 国外 | ❌ 闭源 | 未公开 | 仅 API 调用,不可本地部署 | SWE-bench 79.6%,日常开发 / 响应快 / 性价比高 |
| 5 | DeepSeek V3.2-Speciale | 深度求索 | 国内 | ✅ 开源 | 未公开 | A100 (40GB) + 64GB 内存 | 国产最强,终端操作 62.1%,中文代码优 |
| 6 | DeepSeek-Coder 33B | 深度求索 | 国内 | ✅ 开源 | 33B | RTX 4090 (24GB) + 64GB 内存 | 128K 上下文,代码理解 / 补全强 |
| 7 | Qwen2.5-Coder 32B | 阿里 | 国内 | ✅ 开源 | 32B | RTX 4090 (24GB) + 64GB 内存 | 中英均衡,IDE 友好,量化方案全 |
| 8 | CodeLlama 70B | Meta | 国外 | ✅ 开源 | 70B | 2×A100 (40GB) + 128GB 内存 | 多语言 / 调试 / 补全生态成熟 |
| 9 | Mixtral 8x7B Code | Mistral | 国外 | ✅ 开源 | 8x7B (MoE) | RTX 4090 (24GB) + 32GB 内存 | MoE 效率高,推理快,多语言强 |
| 10 | CodeLlama 34B | Meta | 国外 | ✅ 开源 | 34B | RTX 4090 (24GB) + 64GB 内存 | 性能 / 显存平衡,适合个人 / 小团队 |
| 11 | Qwen2.5-Coder 14B | 阿里 | 国内 | ✅ 开源 | 14B | RTX 4080 (16GB) + 32GB 内存 | 消费级可跑,中文代码优 |
| 12 | DeepSeek-Coder 6.7B | 深度求索 | 国内 | ✅ 开源 | 6.7B | RTX 3090 (24GB) + 32GB 内存 | 轻量高性能,入门首选 |
| 13 | CodeLlama 13B | Meta | 国外 | ✅ 开源 | 13B | RTX 4070Ti (12GB) + 32GB 内存 | 英文场景性价比高 |
| 14 | Qwen2.5-Coder 7B | 阿里 | 国内 | ✅ 开源 | 7B | RTX 3070 (8GB) + 16GB 内存 | 入门级,消费级显卡可跑 |
| 15 | CodeLlama 7B | Meta | 国外 | ✅ 开源 | 7B | RTX 3060Ti (8GB) + 16GB 内存 | 最小可用,纯 CPU 也能跑(慢) |
3、Skill
Skills 是教 Agent 如何完成特定复杂工作流的“说明书”或“经验包”,将tools封装成说明书。
Skill = 大模型会的某一项具体本事。可以理解成:AI 的 “技能栏”。以下是作者认为比较好用的openClaw的skill。注意可以选多个skill组合。本地部署建议单任务优先 1–2 个 Skill 组合。多任务并发效果并不好。
| Skill 名称 | 核心功能 | 适用场景 | 安装命令 |
|---|---|---|---|
| skill-vetter | 技能安全审计、恶意代码检测、权限风险扫描 | 安装任何新技能前必用,保障本地安全 | clawhub install skill-vetter |
| self-improving-agent | 自我进化、优化策略、记忆偏好、适配千问风格 | 长期使用、复杂任务、提升一致性 | clawhub install self-improving-agent |
| tavily-search | 联网实时搜索、国内网页精准抓取、信息提炼 | 查资料、追热点、验证信息、补全上下文 | clawhub install tavily-search |
| summarize | 长文 / 文档 / 代码 / 日志一键总结、提炼要点 | 读论文、看报告、复盘会议、快速理解 | clawhub install summarize |
| mem0-memory | 长期记忆、保存偏好 / 项目 / 对话上下文 | 跨会话记忆、个性化助手、减少重复说明 | clawhub install mem0-memory |
| github | 代码提交、PR 查看、分支切换、日志查询 | 开发协作、版本管理、自动化代码操作 | clawhub install github |
| feishu-toolkit | 飞书日历 / 审批 / 会议 / 消息自动化 | 办公协同、日程管理、减少平台切换 | clawhub install feishu-toolkit |
| sequential-thinking | 复杂问题分步推理、思维链、逻辑拆解 | 代码调试、架构设计、多步骤任务规划 | clawhub install sequential-thinking |
| find-skills | 按需求智能推荐匹配技能、解决选择困难 | 新手入门、拓展能力、快速找到合适工具 | clawhub install find-skills |
| code-assistant | 代码补全、重构、调试、生成测试用例 | 日常开发、代码优化、Bug 定位 | clawhub install code-assistant |
| rag-local | 本地知识库检索、文档问答、私有数据增强 | 对接内部文档、项目手册、私有化问答 | clawhub install rag-local |
| agent-browser | 浏览器自动化、网页操作、数据抓取 | 网页测试、信息采集、自动化流程 | clawhub install agent-browser |
4、Agent
Agent 是整个系统的“大脑”和“执行者”。 传统的 AI 大模型只是一个被动的文本生成器(你问它答),而 Agent 则具备了感知、规划、推理和行动的能力。
Agent = 大模型 + 工具调用 + 自主规划 + 记忆 + 执行能力。
简而言之,Agent就是一个会自主动解决问题的工作流。如果按组织架构的逻辑去拆分技能,以下是作者常用的agent。
| Agent 名称 | 作用 | 推荐理由 |
|---|---|---|
| SequentialThinkingAgent | 分步思考、逻辑链推理、复杂任务拆解 | 千问逻辑强,这个 Agent 最稳 |
| CodeAgent | 代码生成、重构、调试、查 Bug | 专门适配代码场景,千问 - coder 绝配 |
| ToolUseAgent | 统一调用各类 Skill、函数调用 | 千问 FC 能力强,工具调用很顺 |
| MemAgent | 长期记忆、记住项目结构 / 习惯 | 避免重复说明上下文 |
5、Tool
Tool 是 Agent 用来影响现实世界的“手和脚”。 因为 AI 模型本身只能处理文本和计算,它需要借助具体的工具才能与外界交互。以下是推荐的工具列表。
| Tool 名称 | 功能作用 | 适用场景 | 推荐指数 |
|---|---|---|---|
| file_read | 读取本地代码文件 | 读源码、查逻辑、分析项目 | 必装 |
| file_write | 写入 / 修改代码文件 | 自动改代码、生成文件 | 必装 |
| code_interpreter | 执行 Python/JS 代码、计算、验证 | 调试逻辑、跑脚本、算结果 | 必装 |
| git_diff | 查看代码变更 | 改完代码看改动、对比版本 | 强烈推荐 |
| git_commit | 生成提交信息、提交代码 | 规范化 commit、自动提交 | 推荐 |
| shell_exec | 安全执行终端命令 | 运行构建、启动服务、查看环境 | 推荐 |
| web_search | 联网搜索文档 / 错误信息 | 查官方文档、搜报错解决方案 | 推荐 |
| project_scan | 扫描项目结构、生成目录树 | 让 AI 快速理解整个项目 | 强烈推荐 |
| code_review | 代码审查、找 Bug、提优化 | 代码质量检查、重构建议 | 必装 |
| summarize | 总结长文本、日志、报错 | 快速看懂报错、日志、文档 | 可选 |
| memory_store | 保存项目信息、长期记忆 | 避免重复粘贴上下文 | 可选 |
| api_call | 调用 HTTP/API 接口 | 测试接口、自动化请求 | 可选 |
6、AI 编程工具
其实就是Code LLM加一个操作GUI(图形用户界面)。国内编程开发偏好用idea,主流的大模型都有对应支持的AI插件。
| 类别 | 核心定义 | 代表工具 | 核心特点 |
|---|---|---|---|
| IDE(集成开发环境) | 一站式代码编写、编译、调试、项目管理的软件 | VS Code、IDEA、WebStorm | 基础开发环境,无原生 AI 能力,需插件扩展 |
| AI 原生 IDE | 深度内置 AI 能力、无需插件即可全项目级 AI 操控的 IDE | Cursor、Trae | AI 深度集成、全局项目理解、原生 AI 操控、开箱即用 |
| AI 插件(Plugin) | 为普通 IDE 扩展 AI 能力的第三方扩展 | GitHub Copilot、通义灵码、文心快码 | 不换编辑器、给现有工具叠加 AI 能力、按需安装 |
7、上下文 Context
上下文:AI 的 “短期记忆”,即 AI 当下能看到、记住的所有内容。AI能理解的上下文越长,交互成本越低。受限于大模型上下文长度限制。持久化上下文是AI长期记忆的实现方式。
目前主流的持久化上下文方式如下表。
| 技术方案 | 核心原理 | 代表工具 | 适用场景 | 优点 | 缺点 |
|---|---|---|---|---|---|
| 对话日志持久化 | 保存完整对话历史,下次会话重新加载 | 手动导出 / 脚本、ChatGPT 导出、OpenClaw 日志 | 个人开发、短期任务 | 实现简单、零额外依赖、灵活可控 | 手动加载繁琐、上下文膨胀后推理变慢 |
| 长期记忆库(Memory Bank) | 提取关键信息存入结构化存储,按需检索 | mem0-memory、MemGPT、OpenClaw mem0 Skill |
跨会话记忆、个人偏好 / 项目信息 | 自动记忆、轻量化、无需手动加载 | 记忆精度依赖模型提取能力 |
| 本地知识库 RAG | 代码 / 文档向量化存入向量库,问答时检索增强 | rag-local、Chroma、FAISS、LlamaIndex | 大型项目、私有文档、代码库 | 永久存储、精准检索、不占上下文窗口 | 需额外部署向量库、初始化成本略高 |
| 长上下文窗口 | 模型原生支持超大上下文,单会话内保留信息 | Qwen2.5-7B (128K)、Claude 3 (200K) | 单次长任务、复杂代码重构 | 原生支持、无需额外工具、体验流畅 | 会话结束后丢失、无法跨会话 |
| 向量数据库 + RAG | 全量代码 / 文档向量化,企业级检索增强 | Pinecone、Weaviate、Milvus | 企业级、多项目、团队协作 | 高并发、高可用、永久记忆 | 部署复杂、运维成本高 |
| Agent 框架内置记忆 | Agent 层统一管理上下文与记忆 | OpenClaw、AutoGPT、LangChain | 自动化任务、多步骤开发 | 一体化体验、自动关联上下文 | 依赖框架设计、灵活性稍弱 |
选型方案推荐
| 场景 | 推荐技术栈 | 方案 |
|---|---|---|
| 个人本地开发(Ollama + Qwen) | OpenClaw + mem0-memory + rag-local | 开箱即用,自动记住项目和习惯,AI 随时查阅代码库 |
| 单次复杂长任务 | Qwen2.5-7B (128K) + 对话日志 | 单会话内搞定,结束后导出日志备用 |
| 企业级 / 多项目协作 | 向量数据库 + RAG + LangChain | 构建私有知识库,团队共享记忆 |
8、提示词Prompt
提示词:给 AI 的指令 + 上下文 + 要求。提示词写的越详细,AI理解的越全面。
不同模型的理解能力不同,导致一套提示词很难复用到不同的模型上。
现阶段大模型产品化的难点之一是在切换客户本地化模型后,如何保证原AI提示词可复用。如果都是用公用大模型,又会存在数据安全问题。以下是推荐的提示词写法。
| 结构模块 | 作用 | 写法示例 | 必须 / 可选 |
|---|---|---|---|
| 角色定位 | 让 AI 进入专业身份 | 你是资深 Java 后端工程师 / 前端开发专家 / 代码重构师 | 必选 |
| 任务目标 | 明确让 AI 做什么 | 请修复 Bug / 生成接口 / 解释代码 / 优化 SQL / 写单元测试 | 必选 |
| 上下文信息 | 给 AI 必要背景 | 代码片段、报错日志、需求说明、项目结构、数据库表 | 必选 |
| 技术约束 | 语言、框架、版本、规范 | 使用 Java8 + SpringBoot;遵循阿里开发手册; | 必选 |
| 输出格式 | 控制返回内容样式 | 只返回完整代码;代码 + 简要说明;分步骤;JSON 格式 | 必选 |
| 风格要求 | 简洁、严谨、详细、易懂 | 逻辑严谨;要求返回严格的JSON格式 | 可选 |
| 禁止行为 | 避免 AI 跑偏 | 不要省略代码;禁止聊天;不要加入自己的推理内容 | 可选 |
9、知识库RAG
RAG : Retrieval-Augmented Generation,检索增强生成。把文档、代码、手册、知识库变成可检索的数据,交互时系统先去库里搜最相关的内容,把搜到的内容当作上下文丢给大模型,模型基于真实资料回答,不再从网上找资料理解。(防止刻意给AI投毒)推荐的技术方案如下。
| 组件 | 作用 | 推荐工具 |
|---|---|---|
| 向量数据库 | 存嵌入向量、做检索 | Chroma、FAISS、Qdrant |
| 嵌入模型 | 把文本转成向量 | bge-small-zh、m3e、nomic-embed |
| RAG 框架 | orchestrate 检索 | LlamaIndex、LangChain、OpenClaw 内置 rag-local |
RAG 就是让 AI 先查资料,再说话。是实现 “持久上下文、长期记忆” 最简单、最实用的方案。
10、MCP
MCP : Model Context Protocol(模型上下文协议),是 Anthropic 于 2024 年底推出的开源标准化协议。
MCP 是 AI 模型与外部工具 / 数据之间的 “通用 USB 接口”,让 AI 能以统一方式调用数据库、文件、API、RAG 等外部能力,解决接口碎片化、重复开发、模型无法落地执行的问题。
| 组件类型 | 推荐工具 | 特点 | 适用场景 |
|---|---|---|---|
| MCP Host/Client | Claude Desktop、Cursor、LobeChat | 开箱即用,内置 MCP 支持 | 本地开发、AI 编辑器、聊天应用 |
| MCP Server 框架 | Anthropic MCP SDK、LangChain MCP、Lobe MCP | 快速开发 Server,支持多种语言 | 自定义工具 / 资源服务 |
| 常用 MCP Server | File System MCP、SQL MCP、RAG MCP、Sheet Parser MCP | 现成服务,直接安装使用 | 文件操作、数据库查询、文档解析 |
| 向量 / 知识库 | Chroma、Qdrant、FAISS | 与 MCP 无缝集成,做 RAG 检索 | 私有知识库、代码库检索 |
| 部署方式 | stdio(本地)、HTTP(网络)、Docker | 灵活部署,支持本地 / 云端 | 本地开发、生产环境服务化 |
总结
小白入门 AI 编程,先搞懂:LLM → Code LLM → Tool → Skill → Agent 这条链路。想要 AI 稳定、不瞎编、记得住项目:用好提示词 + 搭建 RAG 知识库。想要 AI 真正能 “动手干活”:用 Tool + MCP 协议 + Agent 自动执行。本地开发推荐:Ollama + Qwen + OpenClaw + mem0 + RAG。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)