AIGC算法专家五年工作感悟:AI行业深耕五年,拥抱并推动AI Agent浪潮
写在前面
【WeThinkIn出品】栏目专注于分享Rocky的认知思考与经验感悟,范围涵盖但不限于AI行业。
欢迎大家关注Rocky的公众号:WeThinkIn
欢迎大家关注Rocky的知乎:Rocky Ding
AIGC算法工程师/开发工程师面试面经秘籍分享:WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家Star~
AIGC时代的 《三年面试五年模拟》AI算法工程师求职面试秘籍独家资源: 【三年面试五年模拟】AI算法工程师面试秘籍
Rocky最新撰写AI Agent(AI智能体)的深入浅出全维度解析文章: 深入浅出完整解析AI Agent(AI智能体)的核心基础知识
AIGC算法岗/开发岗面试面经交流社群(涵盖AI Agent、AIGC图像创作、AI视频、LLM大模型、AI多模态、数字人、传统深度学习、具身智能等AIGC面试干货资源)欢迎大家加入:https://t.zsxq.com/33pJ0
大家好,我是Rocky。
如果把时间往回拨五年,AIGC产业还不是今天这个席卷全球的核心驱动引擎。 那时的AI行业,AIGC技术革命尚处在黎明前的黑暗,大家更多是在传统深度学习、计算机视觉、自然语言处理、推荐系统、自动驾驶等相对垂直的技术维度里深耕。AI有价值和潜力,但AI还没有像今天这样变成普通人每天都能感知、使用和讨论的基础生产力工具。
回顾2018年至今,Rocky一直在互联网大厂、AI独角兽、传统科技公司、国企研究院等行业一线从事AI算法技术的研究与落地,构建AI算法解决方案和AI产品。2022年AIGC元年后,Rocky果断All in AIGC,进行了多个AIGC产品的构建、打磨与商业化落地,也是在这个过程中,Rocky深知只有在一线才能深刻感受AI行业的最新变化,才能持续提升自己的认知。因此Rocky持续参与AI行业一级市场和AI主流内容社区交流,持续成长。这个过程让Rocky逐渐把技术价值判断、产品价值判断、商业价值判断、跨周期价值判断和人性判断放到同一个AI行业认知框架里思考。
对整个AI行业而言,Rocky认为这五年同样是一段清晰的战略迁徙过程: 从传统深度学习时代的单点算法技术优化,走向AIGC时代的大模型能力涌现;从图像生成、视频生成、LLM、多模态、数字人、音频生成等单点能力爆发,走向AI Agent和Vibe Coding对研发范式、产品形态和组织效率的系统性重构。AI行业真正发生变化的地方,不只是基础模型变强了,而是AI开始从“可用的技术能力”,逐步变成“可组织、可执行、可交付的智能生产力”。
Rocky越来越相信:AI真正的长期价值,发生在真实问题被解决、真实效率被提升、真实商业闭环被跑通的过程中。

所以在本文中,Rocky将站在AI行业深耕五年的节点上,对2025年下半年到2026年上半年这段AI行业关键窗口期做一次系统性复盘。Rocky想和大家探讨的核心问题是:当AI技术工具的迭代速度越来越快、能力越来越强、成本越来越低、影响力越来越普惠之后,AI行业从业者真正应该积累的长期价值到底是什么?
Rocky将分五个章节分别进行详细阐述:
- 2025下半年-2026上半年:AIGC时代的三大变革
- 从原生多模态到世界模型:AI走向物理世界
- 深耕AI行业五年,Rocky越来越相信:行业认知比AI技术本身更重要
- 一级市场交流:让AI认知接受资本市场与产业一线校准
- 拥抱并推动AI Agent浪潮
So,enjoy(与本文的BGM一起食用更佳哦):
一、2025下半年-2026上半年:AIGC时代的三大变革
如果要为2025年下半年到2026年上半年这段时间下一个判断,Rocky会把它称为AIGC时代真正的“中场时刻”。
在这个阶段,AI行业并不是简单地又发布了几个大模型、又出现了几个AI产品、又多了几个AI公司融资故事,而是发生了三个不可逆转的大变革:
- AIGC时代的“中场时刻”已经到来。 80%-90%没有跨周期能力的单点AI技术工具正在被快速淘汰,对这些技术工具误判所投入的学习时间、工程经验、团队资源和商业试错成本,都会变成永远的沉没成本。这件事给我们最本质的思考是:对AI技术工具的熟练程度不是价值,对技术趋势的判断能力与跨周期产品化能力才是护城河。
- AI Agent技术浪潮正在改变所有行业,成为基石般的基础设施。 AI Agent的本质是让大模型从“生成答案”走向“执行任务”,从“辅助工具”走向“流程节点”。未来各行各业真正有价值的AI落地,都会越来越依赖Agent化的任务拆解、工具调用、执行链路、结果验证和持续迭代。
- Vibe Coding正在瓦解编程世界和AI技术工具的旧门槛。 它让编程从少数开发者掌握的专业技能,逐渐变成普罗大众表达想法、构建产品和验证商业模式的基础工具。它真正重构的不是代码生产效率,而是AI产品的生产关系:当“会写代码”的门槛断崖式下降后,“能定义问题、理解场景、判断方向、组织交付、承担责任”的能力会变得更稀缺。
这三件事合在一起,会进一步磨平个人20-30年所谓技术经验的表层价值,击碎很多技术工人对自己所谓“技术能力护城河”的沾沾自喜。未来AI/互联网行业会逐步全栈化:AI算法不再只是图像生成、视频生成、大模型、多模态、数字人、传统深度学习等单点算法能力,而要逐步兼顾数据、产品、运营、前端、后端、测试与运维;开发也不再只是前端、后端、测试、运维各守一摊,而会走向更强的全链路理解和跨模块交付能力。
重复经验会被AI工具持续压缩,Rocky认为真正有价值的是对AI技术跨周期性判断、AI产业系统理解和把AI能力转化为落地产品的能力。

1. AIGC“中场时刻”:旧技术退潮,原生多模态登场
Rocky在2022年AIGC时代元年就All in深耕AIGC图像创作领域,所以对这一轮变化的体感非常强。
在2022年到2024年,Stable Diffusion生态的爆发,让整个AIGC图像创作行业第一次拥有了开放、可控、可训练、可插件化、繁荣的生产体系。那几年,ControlNet、LoRA、DreamBooth、PULID、InstantID、AnimateDiff、GAN、各种局部重绘技术、人像换脸技术、虚拟试衣技术、图像超分技术等组成的复杂工作流,极大推动了AIGC图像创作从玩具走向工具。
这段历史非常重要。没有这些技术的积累,就没有今天AIGC图像创作生态的持续繁荣。但技术周期从来不会因为曾经的贡献而停止前进。
从2025年下半年开始,新一代原生AIGC图像生成编辑大模型、视频生成大模型和多模态大模型的突破,让AI行业突然进入一个极其残酷但也极其振奋的阶段:过去很多需要复杂工作流、复杂插件链、复杂参数调试才能实现的效果,开始被一个更强的基础大模型End-to-End直接完成,同时效果上还实现了全面的超越。
这意味着很多过去看起来很“专业”的AIGC技术,在新一代大模型面前,会迅速失去独立存在的价值。
Rocky的判断是:2025年下半年开始,AIGC图像生成、AIGC视频生成完成了技术效果上的跨越式突破,并且在直接淘汰约80%-90%旧式AIGC单点技术的同时,也让这两个领域约80%的商业落地应用价值逐步具备真正可交付的基础。
这句话听起来很冲突,但背后的逻辑并不复杂。
过去很多AIGC应用的核心痛点,不是“有没有模型”,而是“模型效果还不够好和稳定”。图像生成会出现手部错误、文字错误、身份不一致、局部编辑失真、多轮修改跑偏;视频生成会出现物体漂移、人物崩坏、时序不一致、镜头不可控、商业素材不可用。于是AI行业只能用大量工程技巧、前/后处理流程、专用小模型和人工修补去弥补基础大模型的能力不足。
但当基础大模型本身开始具备更强的语义理解、更强的图像编辑、更强的一致性保持、更强的文字渲染、更强的多图参考、更强的视频时序建模能力时,很多“补丁式技术”的价值就会被快速压缩。这不是某个技术从业者努力不够,而是技术范式迁移的必然结果。
过去AIGC图像领域很热闹的一个现象,是大量论文和项目围绕单个细分任务做技术魔改:一个做风格,一个做姿态,一个做局部编辑,一个做角色一致,一个做文字渲染,一个做多图融合。它们在当时有价值,本质是因为基础大模型还不够强。
但到了原生多模态大模型阶段,未来真正有长期价值的方向,不会再是单个AIGC细分任务上的灌水论文和局部魔改,而是更底层、更统一、更可扩展的能力:
- 原生多模态理解与生成统一。 模型不只是“看图”或“画图”,而是能在同一上下文里理解文本、图像、视频、结构化信息和用户意图。
- 生成与编辑统一。 文生图、图生图、局部重绘、多图融合、参考信息控制、多轮修改,不再是割裂任务,而是同一个模型的不同使用方式。
- 推理与创作统一。 模型不只是机械生成,而是能理解任务目标,判断约束条件,规划创作步骤,并在结果不满足要求时进行自我修正。
- 模型与工作流统一。 原本80-90%的复杂工作量,直接压缩到一个基础大模型中,重新基于最强的基础大模型构建精炼、简约的全新优雅工作流。
因此,Rocky越来越相信:AIGC图像和视频领域的未来,不属于堆砌小技巧的人,而属于理解原生多模态技术底层趋势、理解产品工作流、理解真实场景需求的人。
AIGC中场时刻不是结束,而是分水岭。上半场,行业奖励的是“谁先掌握新工具、谁先复现新论文、谁先搭出复杂工作流”;下半场,行业奖励的会是“谁能基于更强的基础大模型,构建更稳定、更低成本、更可规模化的产品与商业系统”。也就是说,上半场更像是工具红利,下半场更像是认知红利。工具红利来得快、扩散快、消失也快;认知红利来自一个人对技术路线、模型演进、产品边界、商业闭环和产业周期的长期判断。
2. AI Agent浪潮:AIGC从生成内容走向需求交付
如果说AIGC图像和视频大模型的突破,解决的是“生成能力”的问题,那么AI Agent浪潮真正打开的,是“执行能力”的想象空间。
过去很多人对AI的理解,是一个聊天窗口:输入问题,AI输出答案;输入prompt,AI生成图片;输入脚本,AI写一段代码。这个阶段的AI更像是一个强大的生成器。
但Agent化之后,AI不再只是生成内容,而是开始具备更完整的任务闭环:
- 理解用户目标。
- 拆解任务步骤。
- 调用外部工具。
- 读取和处理文件。
- 访问数据库或业务系统。
- 编写和执行代码。
- 观察执行结果。
- 根据反馈继续修正。
- 最终交付可用成果。
这就是AI Agent的核心价值:它把大模型从一个“回答者”,推进成一个“执行者”。
AI Agent也在击碎过去AI技术和软件工程之间的壁垒。它可以帮助算法工程师补齐工程能力,也可以帮助产品和业务人员补齐技术执行能力。很多过去需要几十号人协作、长周期排期的事情,开始变成几个人带着多个Agent就能完成的任务闭环。
所以Rocky对AI Agent的判断很明确:它不是AIGC时代的一个分支热点,而是AIGC技术进入真实产业场景的关键基础设施。
3. Vibe Coding革命:编程第一次成为人人可用的思想工具
过去,编程是一个门槛很高的专业技能。
一个人想把自己的想法变成软件,通常要学习编程语言、数据结构、前端、后端、数据库、部署、接口、测试、工程规范。这个过程漫长且痛苦。很多非常好的产品想法、行业洞察和商业灵感,在还没有变成原型之前,就已经被技术门槛挡在了门外。
但Vibe Coding彻底改变了这件事。
Rocky认为,Vibe Coding技术革命是伟大的。它的伟大之处,在于它本质上瓦解了各种技术的准入门槛,第一次让编程成为一个人人都可以使用的技术工具集合体。
它带来的不是简单的研发提效,而是研发范式革命。
过去,编程更像是一门专业语言。只有学会语法、框架、工程规范的人,才有资格把想法变成软件。Vibe Coding之后,编程越来越像一种“思想到产品”的翻译系统。一个人只要能清楚描述目标、约束、流程、交互和业务逻辑,就可以借助AI把想法快速转化为可运行的产品原型。
这会彻底改变AI行业的人才结构和价值分配。过去最稀缺的是“会写代码的人”,未来更稀缺的是“能提出好问题、定义好产品、运营好产品、判断好方向、整合好资源的人”。
Vibe Coding会带来几个重要变化:
- 精炼强悍小团队的能力被指数级放大。 过去需要20个人、3个月完成的产品验证,现在可能2-3个人、几周就能跑出第一版。
- 行业专家成为AI产品创新的重要主体。 真正理解场景的人,不再必须等待技术团队排期,而是可以直接把经验变成工具。
- 软件产品从“大而全”走向“小而深”。 大量垂直场景会出现低成本、高迭代、强贴合的AI原生工具。
- 编程经验的价值结构发生变化。 单纯依赖重复代码经验的优势会下降,而架构设计、产品判断、工程质量、系统安全、业务理解和复杂问题拆解能力会变得更重要。
从这个角度看,Vibe Coding不只是研发效率工具,而是一种新的生产关系。
当编程门槛下降之后,想法会变得更多,产品会变得更多,竞争也会变得更激烈。这个时候,Rocky认为决定胜负的就不是谁能写出第一行代码,而是谁更理解用户,谁更理解行业,谁更理解技术边界,谁更有AI行业的宏观认知,谁更能判断哪些需求值得做、哪些方向会被基础模型吞掉、哪些场景能形成真正的商业闭环。
4. 共同影响:多年重复经验无价值,AI/互联网行业走向全栈化
AIGC中场、AI Agent、Vibe Coding三大变革合在一起,带来的不是线性进步,而是AI研发范式和AI产业价值的全面重构。
它们共同指向一个结论:AI技术工具的门槛正在下降,但AI技术认知和AI行业认知的门槛正在上升。
AIGC中场告诉我们,很多看起来复杂、热闹、有门槛的AI技术工具,如果无法沉淀为跨周期能力,就会被更强的基础大模型快速吸收和击败;AI Agent告诉我们,复杂任务的执行过程会被大模型和工具链不断自动化;Vibe Coding告诉我们,编程不再是少数专业开发者独占的能力,而会变成更多人表达想法、构建产品、验证商业模式的基础工具。
这也意味着,过去那种靠单点技术经验、岗位年限、框架熟练度和局部工程经验堆出来的“安全感”,会被快速打碎。20-30年所谓技术经验,如果只是重复劳动的年限叠加,而没有形成跨周期技术判断、系统架构能力、产品理解能力和商业落地能力,在AI Agent和Vibe Coding面前就无价值。
AI不会尊重一个人“熬了多少年”,只会放大一个人真正能创造多少价值。
未来AI/互联网行业会越来越全栈化。这里的全栈,不只是传统意义上的“前端 + 后端”,而是一个人需要理解更完整的价值链路:技术趋势、用户需求、产品形态、算法能力、工程实现、测试验证、部署运维、数据反馈和商业闭环。
对AI算法领域来说,过去很多人习惯把自己绑定在某个单点算法方向上:AI绘画、AI视频、大模型、多模态、数字人、传统深度学习、目标检测、图像分割、语音合成、推荐算法等。每个方向都有自己的技术栈、论文圈、工程范式和岗位标签。但在AI Agent和Vibe Coding的共同推动下,AI算法能力会逐步全栈化:一个算法专家未来不仅要掌握多个AI技术方向原理,还要理解数据场景、产品交互、业务场景、前端体验、后端服务、测试验证和部署运维。
对开发领域来说,同样会逐步全栈化。前端、后端、测试、运维之间的边界会被AI工具持续打薄。未来优秀开发者不一定要在每个方向都做到极致专家,但必须具备跨前端、后端、测试、运维的整体理解能力,并能借助AI Agent和Vibe Coding快速补齐执行短板。

二、从原生多模态到世界模型:AI走向物理世界
AIGC中场时刻到来之后,一个非常重要但容易被忽视的变化是:AIGC不再只是图像、视频、文本、语音、3D、代码等细分方向各自突破,而是这些能力开始在原生多模态大模型中重新汇合。
过去几年,行业习惯把AIGC拆成很多方向:图像生成、视频生成、LLM、数字人、语音合成、音乐生成、3D生成、具身智能等。每个方向都有自己的论文、模型、产品和创业公司。
但从2025年下半年到2026年上半年开始,一个趋势变得非常清晰:AIGC各细分方向的技术突破,最终都会被更统一的原生多模态大模型吸收、整合和重构。
图像生成的突破,让模型具备更强的空间结构理解、视觉审美和局部编辑能力;视频生成的突破,让模型开始理解时间、运动、因果和连续世界变化;语音和数字人的突破,让模型更自然地进入人机交互;3D和空间智能的突破,让模型从二维内容走向三维场景;代码编程和Agent的突破,让模型具备工具调用、任务执行和环境交互能力。
这些能力如果孤立来看,分别属于不同赛道;但如果放到更长的技术周期里看,它们其实都在指向同一个方向:世界模型。
Rocky认为,世界模型不是一个玄学概念,也不是简单地“生成一个视频”或者“模拟一个游戏场景”。真正有价值的世界模型,至少需要具备三层能力:
- 理解世界。 能够从文本、图像、视频、语音、传感器数据和历史交互中,理解对象、空间、关系、意图和规则。
- 预测世界。 能够基于当前状态推演下一步变化,理解动作会带来什么结果,理解时间、因果和物理约束。
- 作用于世界。 能够不只是生成内容,而是通过工具、机器人、智能硬件、软件系统或端侧设备,对真实世界产生影响。
这也是为什么Rocky认为,原生多模态大模型的未来趋势非常明确:它不会停留在“更会聊天、更会画图、更会做视频”的层面,而会不断走向“理解真实世界、模拟真实世界、参与真实世界”的方向。
但这里有一个关键问题:世界模型需要载体。
如果一个世界模型永远只存在于云端对话框里,它对真实世界的理解和影响仍然是间接的。它可以回答问题,可以生成计划,可以输出内容,但它并没有真正持续地感知环境、接受反馈、执行动作,也无法在真实场景中形成长期闭环。
因此,具身智能和端侧智能设备会成为世界模型非常重要的现实载体。
- 机器人和具身智能设备。 它们会把多模态理解、空间智能、任务规划和动作执行连接起来,进入家庭、工厂、物流、医疗、养老、教育和服务业。
- AI眼镜、手表、手机、PC和可穿戴设备。 它们会成为个人AI Agent和世界模型的高频入口,让AI长期陪伴用户,理解用户所处的真实环境。
- 智能汽车和移动空间。 汽车本身就是一个复杂的端侧智能体,天然连接视觉、语音、导航、空间理解、驾驶决策和用户服务。
- 工业端侧设备。 在制造、能源、安防、仓储、农业等场景中,端侧AI会直接连接传感器、机器和业务流程,形成高价值闭环。

从这个角度看,AIGC、AI Agent、世界模型、具身智能和端侧智能设备并不是割裂的五件事,而是一条连续的技术链路:
AIGC让AI学会生成内容,原生多模态让AI学会统一理解多种信息,世界模型让AI学会理解和预测环境,AI Agent让AI学会拆解和执行任务,具身智能与端侧设备让AI真正进入物理世界。
这条链路一旦打通,AI行业的想象空间会从“数字内容生产力”进一步扩展为“真实世界生产力”。
当然,这条路不会一蹴而就。世界模型仍然面临数据、算力、长时序一致性、物理真实性、实时交互、安全对齐、端侧部署成本、硬件可靠性等大量挑战。具身智能也不是只靠一个大模型就能解决,真实世界中的控制、感知、规划、执行、材料、供应链和场景交付,都比纯软件复杂得多。
AIGC中场时刻之后,真正值得关注的,不只是某个细分模型又提升了多少分,而是这些模型能力如何被统一到原生多模态系统里,如何进一步形成世界模型能力,如何通过具身智能和端侧智能设备进入真实世界。
这会是AI行业下一个更长期、更硬核、也更有产业纵深的主战场。
三、深耕AI行业五年,Rocky越来越相信:行业认知比AI技术本身更重要
讲完AIGC中场时刻、原生多模态、世界模型、AI Agent和Vibe Coding,再回到Rocky个人这五年的行业经历,很多事情会变得更加清楚。
很多人认识Rocky,可能是从Rocky撰写的AIGC系列技术文章、扩散模型数学&物理本质原理、Stable Diffusion、FLUX、LoRA、ControlNet、AI Agent、GAN、AIGC图像创作、AIGC面试求职、AIGCmagic社区,或者更早地从咱们公众号《WeThinkIn》开始的。
过去几年,Rocky持续在做一件事:把自己在AI行业一线深耕的经验和看到的前沿技术、产品、商业模式和行业变化,尽可能系统地沉淀下来,再用更通俗、更本质、更接近实战的方式分享出去。
一个AI从业者真正有价值的能力,正在从过去的“会不会某个模型、会不会某个框架、会不会某个训练技巧”,逐渐升级为四层能力:
- 能不能理解AIGC技术底层。 知道模型为什么有效,知道扩散模型、Flow Matching、自回归视觉token、原生多模态、后训练、推理加速、工具调用这些技术背后的本质逻辑。
- 能不能设计AIGC产品。 知道用户到底要什么,知道如何构建强稳定、高可用、易扩展的产品体验。
- 能不能跑通AIGC商业闭环。 知道一个AI能力如何进入行业场景,如何降本增效,如何形成客户/用户愿意持续付费的真实价值。
- 能不能理解AIGC行业生态。 知道技术周期、资本周期、人才周期、商业周期之间如何互相影响,知道什么时候该All in,什么时候该克制,什么时候该换打法。
为什么这种认知能力会变得越来越重要?因为AI技术工具本身正在快速“平权化”。
过去,一个人掌握某个训练技巧、某个插件、某个工作流、某个框架,就可能形成短期优势。但AIGC中场时刻到来后,基础模型能力会不断吞噬这些局部技巧;AI Agent会把复杂任务拆解、工具调用、代码执行、文件处理逐步自动化;Vibe Coding会把原本属于少数工程师的编程能力,释放给更多有想法、有场景、有业务理解的人。
换句话说,当工具壁垒被打碎之后,认知壁垒就会变得更重要。
未来最关键的问题,不再是“我们会不会用某个AI工具”,而是:
- 你能不能判断这个工具背后的技术路线有没有长期生命力?
- 你能不能判断这个工具解决的是刚需还是伪需求?
- 你能不能判断一个爆火AI项目/产品到底是技术范式跃迁,还是阶段性产品体验领先?
- 你能不能判断一个AI项目/产品会被基础大模型吞掉,还是能沉淀自己的数据、场景和迭代壁垒?
- 你能不能在所有人悲观时看到突破,在所有人狂热时看到风险?
这就是技术认知和行业认知比单个AI技术工具更有价值的根本原因。
这里有一个非常典型的例子,就是Sora。
在Sora发布之前,AI视频生成领域的大多数讨论,仍然局限在2-3秒、3-5秒左右的短视频生成里。80%-90%对的AI从业者默认“短时长、局部动作、单镜头稳定”就是当时视频生成的主要边界。大家围绕三秒左右的视频做论文、做demo、做参数优化、做局部工作流,也围绕这个边界去讨论商业化可能性。
但Sora一发布,直接把行业认知拉到了另一个维度:原来大模型通过更大规模的视频数据、更强的时空建模和世界模拟能力,是可以生成长达60秒的视频内容的。
这件事真正给Rocky的震撼,并不只是“Sora很强”,而是它暴露了一个更残酷的事实:能突破认知局限的人非常稀少。
在Sora之前,很多人并不是算力不够,也不是论文读得不够,而是默认接受了行业当下的边界,把“现在大家都在做什么”误认为“未来技术只能做到什么”。这是一种非常隐蔽的认知牢笼。它不会让人显得不专业,恰恰相反,它常常披着专业、谨慎、共识和经验的外衣。
但AI行业最残酷的地方就在这里:今天的共识,可能就是明天被击穿的旧世界。
更有意思的是,Sora后来的命运又给了我们第二层思考。
2026年,Sora产品彻底被淘汰,AI视频生成领域也进入了更激烈的竞争阶段。Seedance 2.0、Kling等新一代视频模型和产品路线持续快速迭代,让很多曾经把Sora视为“不可战胜标杆”的人再次被现实教育了一次。在行业体感里,Sora从“震撼行业的技术神话”到“被新一代视频模型与商业现实快速追赶和挤压”,几乎浓缩了AIGC时代最典型的周期波动。
这件事的关键不在于我们要简单地说“谁打败了谁”,而在于:不要在悲观时被旧边界困住,也不要在乐观时迷信单一神话。
Sora发布前,很多人低估了AI视频生成的上限;Sora发布后,很多人又高估了单个模型和单个产品的长期统治力。前者是认知保守,后者是认知迷信。本质上,它们都是缺少稳定技术认知和行业认知的表现。
所以Rocky越来越相信,真正有价值的AI从业者,必须同时具备两种能力:
- 在行业悲观时,看见技术突破的可能。 不要因为当前模型只能生成三秒,就断言未来只能生成三秒。
- 在行业狂热时,看见周期迭代的残酷。 不要因为某个模型今天震撼世界,就默认它明天一定不可替代。
这也是Rocky理解的AI技术认知:它不是追着每一个热点惊呼,也不是站在旁边冷嘲热讽,而是在乐观和悲观之间,始终保有自己的本质判断。既尊重技术突破的力量,也理解商业落地、产品形态、算力成本、数据壁垒、用户需求和竞争格局共同决定一个AI项目的长期命运。
AIGC时代,认知不是一句漂亮话。它就是一个人穿越周期的护城河。
四、一级市场交流:让AI认知接受资本市场与产业一线校准
过去几年,Rocky除了AIGC技术研究、产品构建落地和内容社区建设外,也一直积极参与AI领域一级市场的资源整合与交流探讨。
一方面,Rocky本身是AI行业的KOL,持续与大量AI行业从业者、AI爱好者、产业资源和一线用户进行交流与探讨;另一方面,Rocky也是很多顶级投资机构的FA合作伙伴,长期关注AI原生应用、AI Agent、AIGC内容生产、具身智能、端侧智能设备、AI工具链、企业服务和垂直行业AI落地等方向。
Rocky认为这种双重视角非常重要。站在技术和内容一线,我们能看到真实的技术变化和用户反馈;站在资本市场和产业一线,我们又能看到什么样的产品、战略、商业模式和迭代能力,真正有机会穿越周期。
AI领域的一级市场本质上是一个高度浓缩的本质价值信息场。这里汇聚了创业者、投资人、FA、产业方、技术团队、渠道资源、早期客户和行业观察者。很多技术趋势、商业模式、产品能力、融资情绪和产业需求,都会在一级市场里提前显影。
如果一个AI从业者只待在技术圈,很容易把临时的“技术先进性”和“技术炫技”误认为“商业确定性”。但一级市场会不断提醒我们:技术只是起点,市场才是考场。
一个项目/产品能不能穿越周期,至少要回答几个非常朴素和本质的问题:
- 它解决的问题是不是真实存在?
- 客户/用户是不是愿意为这个问题付钱?
- AI带来的效率提升是不是足够明显?
- 这个项目/产品有没有持续迭代和交付的能力?
- 商业模式能不能规模化?
- 数据、用户、渠道、场景、产品和解决方案之间有没有形成正循环?
- 当基础大模型能力继续提升时,这个项目/产品的壁垒会变强还是变弱?
最后一个问题尤其重要。在AIGC时代,很多项目/产品表面看起来很热闹,但如果它的核心壁垒只是“调用一个模型 + 套一个界面 + 做几个复杂工作流 + 自以为是的复杂技术炫技”,那么它很可能会被下一代基础大模型为核心的大厂平台/产品能力直接吞掉。
真正有跨周期价值的AI项目/产品,往往不是因为它今天用了某个最火的模型,而是因为它在一个真实场景里沉淀了用户、数据、流程、品牌、迭代能力和行业认知。
这也是Rocky从一级市场交流中得到的一个重要感悟:AI行业最值得长期关注的,不只是模型能力本身,而是模型能力与产业场景结合后形成的产业价值护城河。
同时,一级市场还让Rocky对“人性”有更深刻的判断。
AI项目/产品不是单纯的技术竞赛。它是技术判断、产品判断、商业判断、组织判断、周期判断乃至人品格局的综合竞赛。
如果有正在做AI创业、AI原生产品、AIGC商业化落地、AI Agent产品、具身智能和端侧智能设备方向的朋友,尤其是已经进入融资阶段、需要产业资源对接、需要梳理商业故事和融资节奏的团队,也欢迎和Rocky交流探讨。Rocky希望自己不仅能作为AI行业一线从业者分享认知,也能作为连接技术、产业和资本的长期参与者与共建者,帮助真正有价值的AI创业项目获得更好的资源支持,也帮助投资机构们更好地看清AI创业项目的价值质地。
五、拥抱并推动AI Agent浪潮
回看过去五年,Rocky越来越觉得,自己当初最大的判断,是一开始就把AI技术的工具本质看透。
从2018年开始深耕AI行业,到2022年All in AIGC,再到2025年下半年和2026年上半年亲眼经历和见证AIGC技术“中场时刻”、AI Agent浪潮爆发、Vibe Coding研发范式革命,Rocky越来越明确自己接下来要做的事:
持续深耕AIGC全栈技术,持续推动AI Agent在真实行业中的落地,持续用Vibe Coding和AI Agent构建更高效的产品闭环,持续参与一级市场和产业一线交流,持续把Rocky看到过的、经历过的、验证过的、思考过的东西,沉淀成对更多人有价值的干货内容。
未来几年,AI Agent会继续重塑产品、内容、教育、电商、设计、金融、制造、医疗、企业服务和几乎所有行业。Vibe Coding会让更多普通人拥有构建AI产品的能力。原生多模态会让大模型从“单一能力集合”走向“统一智能入口”。世界模型会让AI更深入地理解和预测真实环境,具身智能和端侧智能设备会让AI真正进入物理世界。一级市场和产业场景会不断筛选出真正具备长期价值的方向和趋势。
未来五年,Rocky希望自己不仅是AI浪潮的一线从业者和观察者,更是AI Agent浪潮的推动者和价值挖掘者。让我们一起在急速变化的AI行业中前行,保持清醒,保持热爱,保持长期主义,把AI行业的本质价值推向更真实、更普惠、更有生命力的未来。
让我们一起在AIGC时代WeThinkIn!
Rocky会持续通过公众号、视频号、知乎等平台分享AIGC时代的核心思考与本质观点,希望能持续帮助到大家,让我们一同前进。
推荐阅读
Rocky一直在运营技术交流群(WeThinkIn-技术交流群),这个群的初心主要聚焦于技术话题的讨论与学习,包括但不限于算法,开发,竞赛,科研以及工作求职等。群里有很多人工智能行业的大牛,欢迎大家入群一起学习交流~(请添加小助手微信Jarvis8866,拉你进群~)
1. 深入浅出完整解析AI Agent(AI智能体)的核心基础知识
2025年可以说是AI Agent全面落地应用的元年,因此Rocky在持续撰写对AI Agent的全维度解析文章:https://zhuanlan.zhihu.com/p/1919046969076195976
2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识
和Rocky一起学习探究扩散模型的本质原理与和核心基础知识,同时不断跟进扩散模型的最新发展。Rocky在本文中对扩散模型的本质做了全面系统的梳理与讲解:https://zhuanlan.zhihu.com/p/1964029619658261252
3、Sora等AI视频大模型的核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用AI视频大模型,从0到1训练自己的AI视频大模型,AI视频大模型性能测评,AI视频领域未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Sora等AI视频大模型文章地址:https://zhuanlan.zhihu.com/p/706722494
4、Stable Diffusion 3和FLUX.1核心原理,核心基础知识,网络结构,从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画,从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型,Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion 3和FLUX.1文章地址:https://zhuanlan.zhihu.com/p/684068402
5、Stable Diffusion XL核心基础知识,网络结构,从0到1搭建使用Stable Diffusion XL进行AI绘画,从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型,AI绘画领域的未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion XL文章地址:https://zhuanlan.zhihu.com/p/643420260
6、Stable Diffusion 1.x-2.x核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用Stable Diffusion进行AI绘画,从0到1上手使用Stable Diffusion训练自己的AI绘画模型,Stable Diffusion性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion文章地址:https://zhuanlan.zhihu.com/p/632809634
7、ControlNet核心基础知识,核心网络结构,从0到1使用ControlNet进行AI绘画,从0到1训练自己的ControlNet模型,从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
ControlNet文章地址:https://zhuanlan.zhihu.com/p/660924126
8、LoRA系列模型核心原理,核心基础知识,从0到1使用LoRA模型进行AI绘画,从0到1上手训练自己的LoRA模型,LoRA变体模型介绍,优质LoRA推荐等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
LoRA文章地址:https://zhuanlan.zhihu.com/p/639229126
9、Transformer核心基础知识,核心网络结构,AIGC时代的Transformer新内涵,各AI领域Transformer的应用落地,Transformer未来发展趋势等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Transformer文章地址:https://zhuanlan.zhihu.com/p/709874399
10、最全面的AIGC面经《手把手教你成为AIGC算法工程师,斩获AIGC算法offer!(2024年版)》文章正式发布!
码字不易,欢迎大家多多点赞:
AIGC面经文章地址:https://zhuanlan.zhihu.com/p/651076114
11、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布!
码字不易,欢迎大家多多点赞:
算法工程师三年面试五年模拟文章地址:https://zhuanlan.zhihu.com/p/545374303
《三年面试五年模拟》github项目地址(希望大家能多多star):https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer
12、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识,从0到1搭建AI绘画框架,从0到1使用AI绘画框架的保姆级教程,深入浅出介绍AI绘画框架的各模块功能,深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
AI绘画框架文章地址:https://zhuanlan.zhihu.com/p/673439761
13、GAN网络核心基础知识,网络架构,GAN经典变体模型,经典应用场景,GAN在AIGC时代的商业应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
GAN网络文章地址:https://zhuanlan.zhihu.com/p/663157306
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)