AI基础概念

隔着眼睛

373人浏览 · 2026-03-29 19:24:39

隔着眼睛 · 2026-03-29 19:24:39 发布

AI 基础概念

前言

本文主要讲解AI编程基础概念和相关实例对比。适合完全零基础、第一次接触 AI 编程的小白阅读。

1、LLM

LLM ：Large Language Model 大语言模型。可以理解成一个具有海量知识的超级智能。是一切AI智能的核心。

本质：是存储硬盘上的二进制文件（比如 qwen2.5:7b 约 4.7GB），不是一个持续运行的程序。

能力：能理解输入的信息，并基于输入信息给予相对准确的反馈信息。 能写代码、写文案、回答问题，能推理、总结、改错。但只能输出文字，不能自己动手操作电脑。

我们平时用的 ChatGPT、Cursor、通义灵码，本质是使用Https访问某个大模型，并基于模型的反馈获取响应信息。以下是现阶段（2026/03）国内外主流LLM汇总。

分类	模型名称	核心定位	核心特点	适合场景	缺点
国外·闭源（直接用API/产品）	OpenAI GPT系列（GPT-4.1/5.2、o1）	全能型“六边形战士”，全球标杆	综合能力最强，推理、代码、多模态都能打；上下文最长（100万Token）；生态最完善，几乎所有AI工具都支持	通用开发、复杂项目、多模态需求、追求极致效果	价格高，国内访问需合规，中文理解略逊国产
	Anthropic Claude系列（Claude 4.5 Opus）	长文本+安全合规“天花板”	上下文超长（200万+Token）；代码能力顶尖；输出严谨、幻觉少，安全合规性强；中文支持优秀	长文档分析、代码工程、企业合规应用、敏感领域（法律/医疗）	创意生成略弱于GPT，价格偏高
	Google Gemini系列（Gemini 3 Pro）	原生多模态“全能选手”	无缝处理文本+图像+视频+音频，多模态能力全球领先；上下文512K Token；绑定谷歌生态，数据更新快	多模态创作、视频/图像分析、谷歌生态用户、实时信息需求	中文理解一般，国内生态弱，API稳定性一般
	xAI Grok系列（Grok 4.20）	实时知识+幽默风格“个性选手”	可实时联网（调用X数据），信息更新快；回答接地气、有梗，不刻板；支持多Agent协作	实时资讯、社交场景、喜欢轻松对话的用户	严谨性不足，企业场景适配弱
国外·开源（可本地部署/微调）	Meta Llama系列（Llama 3/4）	AI界“Linux”，私有化部署基石	完全开源，可免费商用（遵协议）；推理、代码、对话能力均衡；社区生态最庞大；数据隐私可控	企业私有化部署、垂直领域微调、科研、本地AI应用	无官方服务，需自建算力，中文原生支持一般
国外·开源（可本地部署/微调）	Mistral Large系列	开源“小而强”，速度与性价比之王	推理速度极快（比Llama快30%+）；既有开源版本，也有付费API；代码与数学能力突出	边缘设备、轻量化应用、追求速度的场景	综合能力略逊于GPT、Claude
国内·闭源（国内访问友好）	字节跳动豆包Seed系列（Seed 2.0 Pro）	国产综合第一，全球Top10唯一国产模型	中文理解、推理、代码、多模态均衡；国内生态完善（绑定抖音、飞书）；访问稳定；性价比高（仅GPT的1/5~1/10）	国内C端用户、企业级应用、中文场景、预算有限的开发	国际生态略弱于国外头部模型
	阿里通义千问Qwen系列（Qwen 3.5）	国产开源+闭源双强，多语言王者	闭源API性能强，开源版本可自由部署；中英文双强，开源榜第一；代码能力接近GPT；绑定阿里云生态	多语言任务、开源项目、电商/云计算场景、企业私有化	部分高级功能需付费，个人免费额度有限
	百度文心一言ERNIE 5.0	中文知识图谱“鼻祖”，搜索+AI融合	中文理解顶尖（成语、网络梗、文化语境）；可实时联网，知识更新快；绑定百度搜索、智能云生态	中文内容创作、知识问答、搜索增强场景、传统企业数字化	多模态能力略逊于国产头部模型
	智谱AI GLM系列（GLM-5）	Agent+企业应用“专家”	Agent能力极强（自主规划、工具调用）；清华背景，适配教育、政务、科研；开源活跃，支持本地部署	智能体开发、企业级复杂任务、学术/政务场景	C端用户体验略弱，侧重企业场景
	月之暗面 Kimi系列（Kimi k2.5）	超长文本“专家”，C端友好	上下文超长（200万Token），长文档解析国内第一；免费额度充足，界面简洁；中文理解强	个人长文档阅读、论文总结、代码库分析、轻量化使用	企业级功能不完善，复杂推理略弱
国内·开源（国产自研）	深度求索 DeepSeek系列（DeepSeek R1/V3.2）	推理+代码“性价比之王”	数学推理、代码能力极强；API价格极低（仅GPT几十分之一）；开源权重免费，生态活跃	数学/代码任务、预算有限的团队、开源项目、科研	多模态能力较弱，生态完善度一般
国内·开源（国产自研）	腾讯混元（Hunyuan）	社交生态“集成选手”	深度绑定微信/QQ生态，社交场景适配度高；多模态能力均衡；企业级安全合规	社交产品、游戏NPC、内容创作、腾讯生态用户	通用推理能力略逊于国产头部模型，开源支持一

2、Code LLM

代码大模型: 专门学过几百万、几千万行代码的 LLM。更懂语法、报错、函数、接口，更懂项目结构、命名规范。目前笔者在用claude opus-sonnet 4.5模型，响应反馈不错，幻觉比较少。

但这个模型依然会有Bug，AI编程逻辑性的BUG不多，流程性的BUG很多，如果是从头开始搭的项目或许可以全AI编程。如果是重构项目，建议PR审批后在上线。

以下是国内外大模型Code能力排名。

排名	模型名称	所属机构	国内 / 国外	是否开源	核心参数	本地部署推荐配置（量化后）	代码能力亮点
1	Claude Opus 4.6	Anthropic	国外	❌ 闭源	未公开	仅 API 调用，不可本地部署	SWE-bench 80.9%，复杂推理 / 长上下文 / 终端操作最强
2	GPT-5.4 / GPT-4o Code	OpenAI	国外	❌ 闭源	未公开	仅 API 调用，不可本地部署	代码生成 / 调试 / 执行能力顶尖
3	Gemini 3.1 Pro	Google	国外	❌ 闭源	未公开	仅 API 调用，不可本地部署	LiveCodeBench 91.7%，算法 / 多模态强
4	Claude Sonnet 4.6	Anthropic	国外	❌ 闭源	未公开	仅 API 调用，不可本地部署	SWE-bench 79.6%，日常开发 / 响应快 / 性价比高
5	DeepSeek V3.2-Speciale	深度求索	国内	✅ 开源	未公开	A100 (40GB) + 64GB 内存	国产最强，终端操作 62.1%，中文代码优
6	DeepSeek-Coder 33B	深度求索	国内	✅ 开源	33B	RTX 4090 (24GB) + 64GB 内存	128K 上下文，代码理解 / 补全强
7	Qwen2.5-Coder 32B	阿里	国内	✅ 开源	32B	RTX 4090 (24GB) + 64GB 内存	中英均衡，IDE 友好，量化方案全
8	CodeLlama 70B	Meta	国外	✅ 开源	70B	2×A100 (40GB) + 128GB 内存	多语言 / 调试 / 补全生态成熟
9	Mixtral 8x7B Code	Mistral	国外	✅ 开源	8x7B (MoE)	RTX 4090 (24GB) + 32GB 内存	MoE 效率高，推理快，多语言强
10	CodeLlama 34B	Meta	国外	✅ 开源	34B	RTX 4090 (24GB) + 64GB 内存	性能 / 显存平衡，适合个人 / 小团队
11	Qwen2.5-Coder 14B	阿里	国内	✅ 开源	14B	RTX 4080 (16GB) + 32GB 内存	消费级可跑，中文代码优
12	DeepSeek-Coder 6.7B	深度求索	国内	✅ 开源	6.7B	RTX 3090 (24GB) + 32GB 内存	轻量高性能，入门首选
13	CodeLlama 13B	Meta	国外	✅ 开源	13B	RTX 4070Ti (12GB) + 32GB 内存	英文场景性价比高
14	Qwen2.5-Coder 7B	阿里	国内	✅ 开源	7B	RTX 3070 (8GB) + 16GB 内存	入门级，消费级显卡可跑
15	CodeLlama 7B	Meta	国外	✅ 开源	7B	RTX 3060Ti (8GB) + 16GB 内存	最小可用，纯 CPU 也能跑（慢）

3、Skill

Skills 是教 Agent 如何完成特定复杂工作流的“说明书”或“经验包”，将tools封装成说明书。

Skill = 大模型会的某一项具体本事。可以理解成：AI 的 “技能栏”。以下是作者认为比较好用的openClaw的skill。注意可以选多个skill组合。本地部署建议单任务优先 1–2 个 Skill 组合。多任务并发效果并不好。

Skill 名称	核心功能	适用场景	安装命令
skill-vetter	技能安全审计、恶意代码检测、权限风险扫描	安装任何新技能前必用，保障本地安全	`clawhub install skill-vetter`
self-improving-agent	自我进化、优化策略、记忆偏好、适配千问风格	长期使用、复杂任务、提升一致性	`clawhub install self-improving-agent`
tavily-search	联网实时搜索、国内网页精准抓取、信息提炼	查资料、追热点、验证信息、补全上下文	`clawhub install tavily-search`
summarize	长文 / 文档 / 代码 / 日志一键总结、提炼要点	读论文、看报告、复盘会议、快速理解	`clawhub install summarize`
mem0-memory	长期记忆、保存偏好 / 项目 / 对话上下文	跨会话记忆、个性化助手、减少重复说明	`clawhub install mem0-memory`
github	代码提交、PR 查看、分支切换、日志查询	开发协作、版本管理、自动化代码操作	`clawhub install github`
feishu-toolkit	飞书日历 / 审批 / 会议 / 消息自动化	办公协同、日程管理、减少平台切换	`clawhub install feishu-toolkit`
sequential-thinking	复杂问题分步推理、思维链、逻辑拆解	代码调试、架构设计、多步骤任务规划	`clawhub install sequential-thinking`
find-skills	按需求智能推荐匹配技能、解决选择困难	新手入门、拓展能力、快速找到合适工具	`clawhub install find-skills`
code-assistant	代码补全、重构、调试、生成测试用例	日常开发、代码优化、Bug 定位	`clawhub install code-assistant`
rag-local	本地知识库检索、文档问答、私有数据增强	对接内部文档、项目手册、私有化问答	`clawhub install rag-local`
agent-browser	浏览器自动化、网页操作、数据抓取	网页测试、信息采集、自动化流程	`clawhub install agent-browser`

4、Agent

Agent 是整个系统的“大脑”和“执行者”。传统的 AI 大模型只是一个被动的文本生成器（你问它答），而 Agent 则具备了感知、规划、推理和行动的能力。

Agent = 大模型 + 工具调用 + 自主规划 + 记忆 + 执行能力。

简而言之，Agent就是一个会自主动解决问题的工作流。如果按组织架构的逻辑去拆分技能，以下是作者常用的agent。

Agent 名称	作用	推荐理由
SequentialThinkingAgent	分步思考、逻辑链推理、复杂任务拆解	千问逻辑强，这个 Agent 最稳
CodeAgent	代码生成、重构、调试、查 Bug	专门适配代码场景，千问 - coder 绝配
ToolUseAgent	统一调用各类 Skill、函数调用	千问 FC 能力强，工具调用很顺
MemAgent	长期记忆、记住项目结构 / 习惯	避免重复说明上下文

5、Tool

Tool 是 Agent 用来影响现实世界的“手和脚”。因为 AI 模型本身只能处理文本和计算，它需要借助具体的工具才能与外界交互。以下是推荐的工具列表。

Tool 名称	功能作用	适用场景	推荐指数
file_read	读取本地代码文件	读源码、查逻辑、分析项目	必装
file_write	写入 / 修改代码文件	自动改代码、生成文件	必装
code_interpreter	执行 Python/JS 代码、计算、验证	调试逻辑、跑脚本、算结果	必装
git_diff	查看代码变更	改完代码看改动、对比版本	强烈推荐
git_commit	生成提交信息、提交代码	规范化 commit、自动提交	推荐
shell_exec	安全执行终端命令	运行构建、启动服务、查看环境	推荐
web_search	联网搜索文档 / 错误信息	查官方文档、搜报错解决方案	推荐
project_scan	扫描项目结构、生成目录树	让 AI 快速理解整个项目	强烈推荐
code_review	代码审查、找 Bug、提优化	代码质量检查、重构建议	必装
summarize	总结长文本、日志、报错	快速看懂报错、日志、文档	可选
memory_store	保存项目信息、长期记忆	避免重复粘贴上下文	可选
api_call	调用 HTTP/API 接口	测试接口、自动化请求	可选

6、AI 编程工具

其实就是Code LLM加一个操作GUI（图形用户界面）。国内编程开发偏好用idea，主流的大模型都有对应支持的AI插件。

类别	核心定义	代表工具	核心特点
IDE（集成开发环境）	一站式代码编写、编译、调试、项目管理的软件	VS Code、IDEA、WebStorm	基础开发环境，无原生 AI 能力，需插件扩展
AI 原生 IDE	深度内置 AI 能力、无需插件即可全项目级 AI 操控的 IDE	Cursor、Trae	AI 深度集成、全局项目理解、原生 AI 操控、开箱即用
AI 插件（Plugin）	为普通 IDE 扩展 AI 能力的第三方扩展	GitHub Copilot、通义灵码、文心快码	不换编辑器、给现有工具叠加 AI 能力、按需安装

7、上下文 Context

上下文：AI 的 “短期记忆”，即 AI 当下能看到、记住的所有内容。AI能理解的上下文越长，交互成本越低。受限于大模型上下文长度限制。持久化上下文是AI长期记忆的实现方式。

目前主流的持久化上下文方式如下表。

技术方案	核心原理	代表工具	适用场景	优点	缺点
对话日志持久化	保存完整对话历史，下次会话重新加载	手动导出 / 脚本、ChatGPT 导出、OpenClaw 日志	个人开发、短期任务	实现简单、零额外依赖、灵活可控	手动加载繁琐、上下文膨胀后推理变慢
长期记忆库（Memory Bank）	提取关键信息存入结构化存储，按需检索	mem0-memory、MemGPT、OpenClaw `mem0` Skill	跨会话记忆、个人偏好 / 项目信息	自动记忆、轻量化、无需手动加载	记忆精度依赖模型提取能力
本地知识库 RAG	代码 / 文档向量化存入向量库，问答时检索增强	rag-local、Chroma、FAISS、LlamaIndex	大型项目、私有文档、代码库	永久存储、精准检索、不占上下文窗口	需额外部署向量库、初始化成本略高
长上下文窗口	模型原生支持超大上下文，单会话内保留信息	Qwen2.5-7B (128K)、Claude 3 (200K)	单次长任务、复杂代码重构	原生支持、无需额外工具、体验流畅	会话结束后丢失、无法跨会话
向量数据库 + RAG	全量代码 / 文档向量化，企业级检索增强	Pinecone、Weaviate、Milvus	企业级、多项目、团队协作	高并发、高可用、永久记忆	部署复杂、运维成本高
Agent 框架内置记忆	Agent 层统一管理上下文与记忆	OpenClaw、AutoGPT、LangChain	自动化任务、多步骤开发	一体化体验、自动关联上下文	依赖框架设计、灵活性稍弱

选型方案推荐

场景	推荐技术栈	方案
个人本地开发（Ollama + Qwen）	OpenClaw + mem0-memory + rag-local	开箱即用，自动记住项目和习惯，AI 随时查阅代码库
单次复杂长任务	Qwen2.5-7B (128K) + 对话日志	单会话内搞定，结束后导出日志备用
企业级 / 多项目协作	向量数据库 + RAG + LangChain	构建私有知识库，团队共享记忆

8、提示词Prompt

提示词：给 AI 的指令 + 上下文 + 要求。提示词写的越详细，AI理解的越全面。

不同模型的理解能力不同，导致一套提示词很难复用到不同的模型上。

现阶段大模型产品化的难点之一是在切换客户本地化模型后，如何保证原AI提示词可复用。如果都是用公用大模型，又会存在数据安全问题。以下是推荐的提示词写法。

结构模块	作用	写法示例	必须 / 可选
角色定位	让 AI 进入专业身份	你是资深 Java 后端工程师 / 前端开发专家 / 代码重构师	必选
任务目标	明确让 AI 做什么	请修复 Bug / 生成接口 / 解释代码 / 优化 SQL / 写单元测试	必选
上下文信息	给 AI 必要背景	代码片段、报错日志、需求说明、项目结构、数据库表	必选
技术约束	语言、框架、版本、规范	使用 Java8 + SpringBoot；遵循阿里开发手册；	必选
输出格式	控制返回内容样式	只返回完整代码；代码 + 简要说明；分步骤；JSON 格式	必选
风格要求	简洁、严谨、详细、易懂	逻辑严谨；要求返回严格的JSON格式	可选
禁止行为	避免 AI 跑偏	不要省略代码；禁止聊天；不要加入自己的推理内容	可选

9、知识库RAG

RAG ： Retrieval-Augmented Generation，检索增强生成。把文档、代码、手册、知识库变成可检索的数据，交互时系统先去库里搜最相关的内容，把搜到的内容当作上下文丢给大模型，模型基于真实资料回答，不再从网上找资料理解。（防止刻意给AI投毒）推荐的技术方案如下。

组件	作用	推荐工具
向量数据库	存嵌入向量、做检索	Chroma、FAISS、Qdrant
嵌入模型	把文本转成向量	bge-small-zh、m3e、nomic-embed
RAG 框架	orchestrate 检索	LlamaIndex、LangChain、OpenClaw 内置 rag-local

RAG 就是让 AI 先查资料，再说话。是实现 “持久上下文、长期记忆” 最简单、最实用的方案。

10、MCP

MCP ： Model Context Protocol（模型上下文协议），是 Anthropic 于 2024 年底推出的开源标准化协议。

MCP 是 AI 模型与外部工具 / 数据之间的 “通用 USB 接口”，让 AI 能以统一方式调用数据库、文件、API、RAG 等外部能力，解决接口碎片化、重复开发、模型无法落地执行的问题。

组件类型	推荐工具	特点	适用场景
MCP Host/Client	Claude Desktop、Cursor、LobeChat	开箱即用，内置 MCP 支持	本地开发、AI 编辑器、聊天应用
MCP Server 框架	Anthropic MCP SDK、LangChain MCP、Lobe MCP	快速开发 Server，支持多种语言	自定义工具 / 资源服务
常用 MCP Server	File System MCP、SQL MCP、RAG MCP、Sheet Parser MCP	现成服务，直接安装使用	文件操作、数据库查询、文档解析
向量 / 知识库	Chroma、Qdrant、FAISS	与 MCP 无缝集成，做 RAG 检索	私有知识库、代码库检索
部署方式	stdio（本地）、HTTP（网络）、Docker	灵活部署，支持本地 / 云端	本地开发、生产环境服务化

总结

小白入门 AI 编程，先搞懂：LLM → Code LLM → Tool → Skill → Agent 这条链路。想要 AI 稳定、不瞎编、记得住项目：用好提示词 + 搭建 RAG 知识库。想要 AI 真正能 “动手干活”：用 Tool + MCP 协议 + Agent 自动执行。本地开发推荐：Ollama + Qwen + OpenClaw + mem0 + RAG。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于 Spring AI + Milvus 的 RAG 混合检索实战

本文介绍了基于Spring AI和Milvus构建企业级RAG知识库问答系统的完整实现方案。系统采用两阶段架构：首先通过轻量级LLM调用进行意图分类（如一般咨询、历史查询、解决方案查找），仅当需要检索时才触发完整的混合检索链路。核心创新点包括：1）向量检索与BM25的RRF融合策略；2）领域词扩展与同义映射的query改写；3）DashScope Rerank精排与多重过滤机制；4）意图路由与后处

AtomGit开源社区

开发插件：理解并严格遵循主程序规定的“插件接口契约”

文章摘要：插件开发的核心原则与实践（≤150字）插件开发的核心在于严格遵循主程序制定的接口契约，确保功能单一、边界清晰且隔离稳定。通过"契约金字塔"模型，开发者需遵守扩展点、生命周期、数据类型等规范，并在独立模块中实现输入→处理→输出的闭环。以文本编辑器Markdown表格插件为例，演示了如何通过模块化封装、错误捕获和资源清理来满足主程序要求。违反契约（如功能混杂或污染全局）将导致兼容性问题。成