AIGC算法专家五年工作感悟：AI行业深耕五年，拥抱并推动AI Agent浪潮

【WeThinkIn】的主理人

779人浏览 · 2026-05-24 14:29:38

【WeThinkIn】的主理人 · 2026-05-24 14:29:38 发布

写在前面

【WeThinkIn出品】栏目专注于分享Rocky的认知思考与经验感悟，范围涵盖但不限于AI行业。

欢迎大家关注Rocky的公众号：WeThinkIn
欢迎大家关注Rocky的知乎：Rocky Ding
AIGC算法工程师/开发工程师面试面经秘籍分享：WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家Star～

AIGC时代的 《三年面试五年模拟》AI算法工程师求职面试秘籍独家资源： 【三年面试五年模拟】AI算法工程师面试秘籍

Rocky最新撰写AI Agent（AI智能体）的深入浅出全维度解析文章： 深入浅出完整解析AI Agent（AI智能体）的核心基础知识

AIGC算法岗/开发岗面试面经交流社群（涵盖AI Agent、AIGC图像创作、AI视频、LLM大模型、AI多模态、数字人、传统深度学习、具身智能等AIGC面试干货资源）欢迎大家加入：https://t.zsxq.com/33pJ0

大家好，我是Rocky。

如果把时间往回拨五年，AIGC产业还不是今天这个席卷全球的核心驱动引擎。 那时的AI行业，AIGC技术革命尚处在黎明前的黑暗，大家更多是在传统深度学习、计算机视觉、自然语言处理、推荐系统、自动驾驶等相对垂直的技术维度里深耕。AI有价值和潜力，但AI还没有像今天这样变成普通人每天都能感知、使用和讨论的基础生产力工具。

回顾2018年至今，Rocky一直在互联网大厂、AI独角兽、传统科技公司、国企研究院等行业一线从事AI算法技术的研究与落地，构建AI算法解决方案和AI产品。2022年AIGC元年后，Rocky果断All in AIGC，进行了多个AIGC产品的构建、打磨与商业化落地，也是在这个过程中，Rocky深知只有在一线才能深刻感受AI行业的最新变化，才能持续提升自己的认知。因此Rocky持续参与AI行业一级市场和AI主流内容社区交流，持续成长。这个过程让Rocky逐渐把技术价值判断、产品价值判断、商业价值判断、跨周期价值判断和人性判断放到同一个AI行业认知框架里思考。

对整个AI行业而言，Rocky认为这五年同样是一段清晰的战略迁徙过程： 从传统深度学习时代的单点算法技术优化，走向AIGC时代的大模型能力涌现；从图像生成、视频生成、LLM、多模态、数字人、音频生成等单点能力爆发，走向AI Agent和Vibe Coding对研发范式、产品形态和组织效率的系统性重构。AI行业真正发生变化的地方，不只是基础模型变强了，而是AI开始从“可用的技术能力”，逐步变成“可组织、可执行、可交付的智能生产力”。

Rocky越来越相信：AI真正的长期价值，发生在真实问题被解决、真实效率被提升、真实商业闭环被跑通的过程中。

在这里插入图片描述

所以在本文中，Rocky将站在AI行业深耕五年的节点上，对2025年下半年到2026年上半年这段AI行业关键窗口期做一次系统性复盘。Rocky想和大家探讨的核心问题是：当AI技术工具的迭代速度越来越快、能力越来越强、成本越来越低、影响力越来越普惠之后，AI行业从业者真正应该积累的长期价值到底是什么？

Rocky将分五个章节分别进行详细阐述：

2025下半年-2026上半年：AIGC时代的三大变革
从原生多模态到世界模型：AI走向物理世界
深耕AI行业五年，Rocky越来越相信：行业认知比AI技术本身更重要
一级市场交流：让AI认知接受资本市场与产业一线校准
拥抱并推动AI Agent浪潮

So，enjoy（与本文的BGM一起食用更佳哦）：

一、2025下半年-2026上半年：AIGC时代的三大变革

如果要为2025年下半年到2026年上半年这段时间下一个判断，Rocky会把它称为AIGC时代真正的“中场时刻”。

在这个阶段，AI行业并不是简单地又发布了几个大模型、又出现了几个AI产品、又多了几个AI公司融资故事，而是发生了三个不可逆转的大变革：

AIGC时代的“中场时刻”已经到来。 80%-90%没有跨周期能力的单点AI技术工具正在被快速淘汰，对这些技术工具误判所投入的学习时间、工程经验、团队资源和商业试错成本，都会变成永远的沉没成本。这件事给我们最本质的思考是：对AI技术工具的熟练程度不是价值，对技术趋势的判断能力与跨周期产品化能力才是护城河。
AI Agent技术浪潮正在改变所有行业，成为基石般的基础设施。 AI Agent的本质是让大模型从“生成答案”走向“执行任务”，从“辅助工具”走向“流程节点”。未来各行各业真正有价值的AI落地，都会越来越依赖Agent化的任务拆解、工具调用、执行链路、结果验证和持续迭代。
Vibe Coding正在瓦解编程世界和AI技术工具的旧门槛。 它让编程从少数开发者掌握的专业技能，逐渐变成普罗大众表达想法、构建产品和验证商业模式的基础工具。它真正重构的不是代码生产效率，而是AI产品的生产关系：当“会写代码”的门槛断崖式下降后，“能定义问题、理解场景、判断方向、组织交付、承担责任”的能力会变得更稀缺。

这三件事合在一起，会进一步磨平个人20-30年所谓技术经验的表层价值，击碎很多技术工人对自己所谓“技术能力护城河”的沾沾自喜。未来AI/互联网行业会逐步全栈化：AI算法不再只是图像生成、视频生成、大模型、多模态、数字人、传统深度学习等单点算法能力，而要逐步兼顾数据、产品、运营、前端、后端、测试与运维；开发也不再只是前端、后端、测试、运维各守一摊，而会走向更强的全链路理解和跨模块交付能力。

重复经验会被AI工具持续压缩，Rocky认为真正有价值的是对AI技术跨周期性判断、AI产业系统理解和把AI能力转化为落地产品的能力。

在这里插入图片描述

1. AIGC“中场时刻”：旧技术退潮，原生多模态登场

Rocky在2022年AIGC时代元年就All in深耕AIGC图像创作领域，所以对这一轮变化的体感非常强。

在2022年到2024年，Stable Diffusion生态的爆发，让整个AIGC图像创作行业第一次拥有了开放、可控、可训练、可插件化、繁荣的生产体系。那几年，ControlNet、LoRA、DreamBooth、PULID、InstantID、AnimateDiff、GAN、各种局部重绘技术、人像换脸技术、虚拟试衣技术、图像超分技术等组成的复杂工作流，极大推动了AIGC图像创作从玩具走向工具。

这段历史非常重要。没有这些技术的积累，就没有今天AIGC图像创作生态的持续繁荣。但技术周期从来不会因为曾经的贡献而停止前进。

从2025年下半年开始，新一代原生AIGC图像生成编辑大模型、视频生成大模型和多模态大模型的突破，让AI行业突然进入一个极其残酷但也极其振奋的阶段：过去很多需要复杂工作流、复杂插件链、复杂参数调试才能实现的效果，开始被一个更强的基础大模型End-to-End直接完成，同时效果上还实现了全面的超越。

这意味着很多过去看起来很“专业”的AIGC技术，在新一代大模型面前，会迅速失去独立存在的价值。

Rocky的判断是：2025年下半年开始，AIGC图像生成、AIGC视频生成完成了技术效果上的跨越式突破，并且在直接淘汰约80%-90%旧式AIGC单点技术的同时，也让这两个领域约80%的商业落地应用价值逐步具备真正可交付的基础。

这句话听起来很冲突，但背后的逻辑并不复杂。

过去很多AIGC应用的核心痛点，不是“有没有模型”，而是“模型效果还不够好和稳定”。图像生成会出现手部错误、文字错误、身份不一致、局部编辑失真、多轮修改跑偏；视频生成会出现物体漂移、人物崩坏、时序不一致、镜头不可控、商业素材不可用。于是AI行业只能用大量工程技巧、前/后处理流程、专用小模型和人工修补去弥补基础大模型的能力不足。

但当基础大模型本身开始具备更强的语义理解、更强的图像编辑、更强的一致性保持、更强的文字渲染、更强的多图参考、更强的视频时序建模能力时，很多“补丁式技术”的价值就会被快速压缩。这不是某个技术从业者努力不够，而是技术范式迁移的必然结果。

过去AIGC图像领域很热闹的一个现象，是大量论文和项目围绕单个细分任务做技术魔改：一个做风格，一个做姿态，一个做局部编辑，一个做角色一致，一个做文字渲染，一个做多图融合。它们在当时有价值，本质是因为基础大模型还不够强。

但到了原生多模态大模型阶段，未来真正有长期价值的方向，不会再是单个AIGC细分任务上的灌水论文和局部魔改，而是更底层、更统一、更可扩展的能力：

原生多模态理解与生成统一。 模型不只是“看图”或“画图”，而是能在同一上下文里理解文本、图像、视频、结构化信息和用户意图。
生成与编辑统一。 文生图、图生图、局部重绘、多图融合、参考信息控制、多轮修改，不再是割裂任务，而是同一个模型的不同使用方式。
推理与创作统一。 模型不只是机械生成，而是能理解任务目标，判断约束条件，规划创作步骤，并在结果不满足要求时进行自我修正。
模型与工作流统一。 原本80-90%的复杂工作量，直接压缩到一个基础大模型中，重新基于最强的基础大模型构建精炼、简约的全新优雅工作流。

因此，Rocky越来越相信：AIGC图像和视频领域的未来，不属于堆砌小技巧的人，而属于理解原生多模态技术底层趋势、理解产品工作流、理解真实场景需求的人。

AIGC中场时刻不是结束，而是分水岭。上半场，行业奖励的是“谁先掌握新工具、谁先复现新论文、谁先搭出复杂工作流”；下半场，行业奖励的会是“谁能基于更强的基础大模型，构建更稳定、更低成本、更可规模化的产品与商业系统”。也就是说，上半场更像是工具红利，下半场更像是认知红利。工具红利来得快、扩散快、消失也快；认知红利来自一个人对技术路线、模型演进、产品边界、商业闭环和产业周期的长期判断。

2. AI Agent浪潮：AIGC从生成内容走向需求交付

如果说AIGC图像和视频大模型的突破，解决的是“生成能力”的问题，那么AI Agent浪潮真正打开的，是“执行能力”的想象空间。

过去很多人对AI的理解，是一个聊天窗口：输入问题，AI输出答案；输入prompt，AI生成图片；输入脚本，AI写一段代码。这个阶段的AI更像是一个强大的生成器。

但Agent化之后，AI不再只是生成内容，而是开始具备更完整的任务闭环：

理解用户目标。
拆解任务步骤。
调用外部工具。
读取和处理文件。
访问数据库或业务系统。
编写和执行代码。
观察执行结果。
根据反馈继续修正。
最终交付可用成果。

这就是AI Agent的核心价值：它把大模型从一个“回答者”，推进成一个“执行者”。

AI Agent也在击碎过去AI技术和软件工程之间的壁垒。它可以帮助算法工程师补齐工程能力，也可以帮助产品和业务人员补齐技术执行能力。很多过去需要几十号人协作、长周期排期的事情，开始变成几个人带着多个Agent就能完成的任务闭环。

所以Rocky对AI Agent的判断很明确：它不是AIGC时代的一个分支热点，而是AIGC技术进入真实产业场景的关键基础设施。

3. Vibe Coding革命：编程第一次成为人人可用的思想工具

过去，编程是一个门槛很高的专业技能。

一个人想把自己的想法变成软件，通常要学习编程语言、数据结构、前端、后端、数据库、部署、接口、测试、工程规范。这个过程漫长且痛苦。很多非常好的产品想法、行业洞察和商业灵感，在还没有变成原型之前，就已经被技术门槛挡在了门外。

但Vibe Coding彻底改变了这件事。

Rocky认为，Vibe Coding技术革命是伟大的。它的伟大之处，在于它本质上瓦解了各种技术的准入门槛，第一次让编程成为一个人人都可以使用的技术工具集合体。

它带来的不是简单的研发提效，而是研发范式革命。

过去，编程更像是一门专业语言。只有学会语法、框架、工程规范的人，才有资格把想法变成软件。Vibe Coding之后，编程越来越像一种“思想到产品”的翻译系统。一个人只要能清楚描述目标、约束、流程、交互和业务逻辑，就可以借助AI把想法快速转化为可运行的产品原型。

这会彻底改变AI行业的人才结构和价值分配。过去最稀缺的是“会写代码的人”，未来更稀缺的是“能提出好问题、定义好产品、运营好产品、判断好方向、整合好资源的人”。

Vibe Coding会带来几个重要变化：

精炼强悍小团队的能力被指数级放大。 过去需要20个人、3个月完成的产品验证，现在可能2-3个人、几周就能跑出第一版。
行业专家成为AI产品创新的重要主体。 真正理解场景的人，不再必须等待技术团队排期，而是可以直接把经验变成工具。
软件产品从“大而全”走向“小而深”。 大量垂直场景会出现低成本、高迭代、强贴合的AI原生工具。
编程经验的价值结构发生变化。 单纯依赖重复代码经验的优势会下降，而架构设计、产品判断、工程质量、系统安全、业务理解和复杂问题拆解能力会变得更重要。

从这个角度看，Vibe Coding不只是研发效率工具，而是一种新的生产关系。

当编程门槛下降之后，想法会变得更多，产品会变得更多，竞争也会变得更激烈。这个时候，Rocky认为决定胜负的就不是谁能写出第一行代码，而是谁更理解用户，谁更理解行业，谁更理解技术边界，谁更有AI行业的宏观认知，谁更能判断哪些需求值得做、哪些方向会被基础模型吞掉、哪些场景能形成真正的商业闭环。

4. 共同影响：多年重复经验无价值，AI/互联网行业走向全栈化

AIGC中场、AI Agent、Vibe Coding三大变革合在一起，带来的不是线性进步，而是AI研发范式和AI产业价值的全面重构。

它们共同指向一个结论：AI技术工具的门槛正在下降，但AI技术认知和AI行业认知的门槛正在上升。

AIGC中场告诉我们，很多看起来复杂、热闹、有门槛的AI技术工具，如果无法沉淀为跨周期能力，就会被更强的基础大模型快速吸收和击败；AI Agent告诉我们，复杂任务的执行过程会被大模型和工具链不断自动化；Vibe Coding告诉我们，编程不再是少数专业开发者独占的能力，而会变成更多人表达想法、构建产品、验证商业模式的基础工具。

这也意味着，过去那种靠单点技术经验、岗位年限、框架熟练度和局部工程经验堆出来的“安全感”，会被快速打碎。20-30年所谓技术经验，如果只是重复劳动的年限叠加，而没有形成跨周期技术判断、系统架构能力、产品理解能力和商业落地能力，在AI Agent和Vibe Coding面前就无价值。

AI不会尊重一个人“熬了多少年”，只会放大一个人真正能创造多少价值。

未来AI/互联网行业会越来越全栈化。这里的全栈，不只是传统意义上的“前端 + 后端”，而是一个人需要理解更完整的价值链路：技术趋势、用户需求、产品形态、算法能力、工程实现、测试验证、部署运维、数据反馈和商业闭环。

对AI算法领域来说，过去很多人习惯把自己绑定在某个单点算法方向上：AI绘画、AI视频、大模型、多模态、数字人、传统深度学习、目标检测、图像分割、语音合成、推荐算法等。每个方向都有自己的技术栈、论文圈、工程范式和岗位标签。但在AI Agent和Vibe Coding的共同推动下，AI算法能力会逐步全栈化：一个算法专家未来不仅要掌握多个AI技术方向原理，还要理解数据场景、产品交互、业务场景、前端体验、后端服务、测试验证和部署运维。

对开发领域来说，同样会逐步全栈化。前端、后端、测试、运维之间的边界会被AI工具持续打薄。未来优秀开发者不一定要在每个方向都做到极致专家，但必须具备跨前端、后端、测试、运维的整体理解能力，并能借助AI Agent和Vibe Coding快速补齐执行短板。

在这里插入图片描述

二、从原生多模态到世界模型：AI走向物理世界

AIGC中场时刻到来之后，一个非常重要但容易被忽视的变化是：AIGC不再只是图像、视频、文本、语音、3D、代码等细分方向各自突破，而是这些能力开始在原生多模态大模型中重新汇合。

过去几年，行业习惯把AIGC拆成很多方向：图像生成、视频生成、LLM、数字人、语音合成、音乐生成、3D生成、具身智能等。每个方向都有自己的论文、模型、产品和创业公司。

但从2025年下半年到2026年上半年开始，一个趋势变得非常清晰：AIGC各细分方向的技术突破，最终都会被更统一的原生多模态大模型吸收、整合和重构。

图像生成的突破，让模型具备更强的空间结构理解、视觉审美和局部编辑能力；视频生成的突破，让模型开始理解时间、运动、因果和连续世界变化；语音和数字人的突破，让模型更自然地进入人机交互；3D和空间智能的突破，让模型从二维内容走向三维场景；代码编程和Agent的突破，让模型具备工具调用、任务执行和环境交互能力。

这些能力如果孤立来看，分别属于不同赛道；但如果放到更长的技术周期里看，它们其实都在指向同一个方向：世界模型。
在这里插入图片描述
Rocky认为，世界模型不是一个玄学概念，也不是简单地“生成一个视频”或者“模拟一个游戏场景”。真正有价值的世界模型，至少需要具备三层能力：

理解世界。 能够从文本、图像、视频、语音、传感器数据和历史交互中，理解对象、空间、关系、意图和规则。
预测世界。 能够基于当前状态推演下一步变化，理解动作会带来什么结果，理解时间、因果和物理约束。
作用于世界。 能够不只是生成内容，而是通过工具、机器人、智能硬件、软件系统或端侧设备，对真实世界产生影响。

这也是为什么Rocky认为，原生多模态大模型的未来趋势非常明确：它不会停留在“更会聊天、更会画图、更会做视频”的层面，而会不断走向“理解真实世界、模拟真实世界、参与真实世界”的方向。

但这里有一个关键问题：世界模型需要载体。

如果一个世界模型永远只存在于云端对话框里，它对真实世界的理解和影响仍然是间接的。它可以回答问题，可以生成计划，可以输出内容，但它并没有真正持续地感知环境、接受反馈、执行动作，也无法在真实场景中形成长期闭环。

因此，具身智能和端侧智能设备会成为世界模型非常重要的现实载体。

机器人和具身智能设备。 它们会把多模态理解、空间智能、任务规划和动作执行连接起来，进入家庭、工厂、物流、医疗、养老、教育和服务业。
AI眼镜、手表、手机、PC和可穿戴设备。 它们会成为个人AI Agent和世界模型的高频入口，让AI长期陪伴用户，理解用户所处的真实环境。
智能汽车和移动空间。 汽车本身就是一个复杂的端侧智能体，天然连接视觉、语音、导航、空间理解、驾驶决策和用户服务。
工业端侧设备。 在制造、能源、安防、仓储、农业等场景中，端侧AI会直接连接传感器、机器和业务流程，形成高价值闭环。

在这里插入图片描述

从这个角度看，AIGC、AI Agent、世界模型、具身智能和端侧智能设备并不是割裂的五件事，而是一条连续的技术链路：

AIGC让AI学会生成内容，原生多模态让AI学会统一理解多种信息，世界模型让AI学会理解和预测环境，AI Agent让AI学会拆解和执行任务，具身智能与端侧设备让AI真正进入物理世界。

这条链路一旦打通，AI行业的想象空间会从“数字内容生产力”进一步扩展为“真实世界生产力”。

当然，这条路不会一蹴而就。世界模型仍然面临数据、算力、长时序一致性、物理真实性、实时交互、安全对齐、端侧部署成本、硬件可靠性等大量挑战。具身智能也不是只靠一个大模型就能解决，真实世界中的控制、感知、规划、执行、材料、供应链和场景交付，都比纯软件复杂得多。

AIGC中场时刻之后，真正值得关注的，不只是某个细分模型又提升了多少分，而是这些模型能力如何被统一到原生多模态系统里，如何进一步形成世界模型能力，如何通过具身智能和端侧智能设备进入真实世界。

这会是AI行业下一个更长期、更硬核、也更有产业纵深的主战场。

三、深耕AI行业五年，Rocky越来越相信：行业认知比AI技术本身更重要

讲完AIGC中场时刻、原生多模态、世界模型、AI Agent和Vibe Coding，再回到Rocky个人这五年的行业经历，很多事情会变得更加清楚。

很多人认识Rocky，可能是从Rocky撰写的AIGC系列技术文章、扩散模型数学&物理本质原理、Stable Diffusion、FLUX、LoRA、ControlNet、AI Agent、GAN、AIGC图像创作、AIGC面试求职、AIGCmagic社区，或者更早地从咱们公众号《WeThinkIn》开始的。

过去几年，Rocky持续在做一件事：把自己在AI行业一线深耕的经验和看到的前沿技术、产品、商业模式和行业变化，尽可能系统地沉淀下来，再用更通俗、更本质、更接近实战的方式分享出去。

一个AI从业者真正有价值的能力，正在从过去的“会不会某个模型、会不会某个框架、会不会某个训练技巧”，逐渐升级为四层能力：

能不能理解AIGC技术底层。 知道模型为什么有效，知道扩散模型、Flow Matching、自回归视觉token、原生多模态、后训练、推理加速、工具调用这些技术背后的本质逻辑。
能不能设计AIGC产品。 知道用户到底要什么，知道如何构建强稳定、高可用、易扩展的产品体验。
能不能跑通AIGC商业闭环。 知道一个AI能力如何进入行业场景，如何降本增效，如何形成客户/用户愿意持续付费的真实价值。
能不能理解AIGC行业生态。 知道技术周期、资本周期、人才周期、商业周期之间如何互相影响，知道什么时候该All in，什么时候该克制，什么时候该换打法。

为什么这种认知能力会变得越来越重要？因为AI技术工具本身正在快速“平权化”。

过去，一个人掌握某个训练技巧、某个插件、某个工作流、某个框架，就可能形成短期优势。但AIGC中场时刻到来后，基础模型能力会不断吞噬这些局部技巧；AI Agent会把复杂任务拆解、工具调用、代码执行、文件处理逐步自动化；Vibe Coding会把原本属于少数工程师的编程能力，释放给更多有想法、有场景、有业务理解的人。

换句话说，当工具壁垒被打碎之后，认知壁垒就会变得更重要。

未来最关键的问题，不再是“我们会不会用某个AI工具”，而是：

你能不能判断这个工具背后的技术路线有没有长期生命力？
你能不能判断这个工具解决的是刚需还是伪需求？
你能不能判断一个爆火AI项目/产品到底是技术范式跃迁，还是阶段性产品体验领先？
你能不能判断一个AI项目/产品会被基础大模型吞掉，还是能沉淀自己的数据、场景和迭代壁垒？
你能不能在所有人悲观时看到突破，在所有人狂热时看到风险？

这就是技术认知和行业认知比单个AI技术工具更有价值的根本原因。

这里有一个非常典型的例子，就是Sora。

在Sora发布之前，AI视频生成领域的大多数讨论，仍然局限在2-3秒、3-5秒左右的短视频生成里。80%-90%对的AI从业者默认“短时长、局部动作、单镜头稳定”就是当时视频生成的主要边界。大家围绕三秒左右的视频做论文、做demo、做参数优化、做局部工作流，也围绕这个边界去讨论商业化可能性。

但Sora一发布，直接把行业认知拉到了另一个维度：原来大模型通过更大规模的视频数据、更强的时空建模和世界模拟能力，是可以生成长达60秒的视频内容的。

这件事真正给Rocky的震撼，并不只是“Sora很强”，而是它暴露了一个更残酷的事实：能突破认知局限的人非常稀少。

在Sora之前，很多人并不是算力不够，也不是论文读得不够，而是默认接受了行业当下的边界，把“现在大家都在做什么”误认为“未来技术只能做到什么”。这是一种非常隐蔽的认知牢笼。它不会让人显得不专业，恰恰相反，它常常披着专业、谨慎、共识和经验的外衣。

但AI行业最残酷的地方就在这里：今天的共识，可能就是明天被击穿的旧世界。

更有意思的是，Sora后来的命运又给了我们第二层思考。

2026年，Sora产品彻底被淘汰，AI视频生成领域也进入了更激烈的竞争阶段。Seedance 2.0、Kling等新一代视频模型和产品路线持续快速迭代，让很多曾经把Sora视为“不可战胜标杆”的人再次被现实教育了一次。在行业体感里，Sora从“震撼行业的技术神话”到“被新一代视频模型与商业现实快速追赶和挤压”，几乎浓缩了AIGC时代最典型的周期波动。

这件事的关键不在于我们要简单地说“谁打败了谁”，而在于：不要在悲观时被旧边界困住，也不要在乐观时迷信单一神话。
在这里插入图片描述

Sora发布前，很多人低估了AI视频生成的上限；Sora发布后，很多人又高估了单个模型和单个产品的长期统治力。前者是认知保守，后者是认知迷信。本质上，它们都是缺少稳定技术认知和行业认知的表现。

所以Rocky越来越相信，真正有价值的AI从业者，必须同时具备两种能力：

在行业悲观时，看见技术突破的可能。 不要因为当前模型只能生成三秒，就断言未来只能生成三秒。
在行业狂热时，看见周期迭代的残酷。 不要因为某个模型今天震撼世界，就默认它明天一定不可替代。

这也是Rocky理解的AI技术认知：它不是追着每一个热点惊呼，也不是站在旁边冷嘲热讽，而是在乐观和悲观之间，始终保有自己的本质判断。既尊重技术突破的力量，也理解商业落地、产品形态、算力成本、数据壁垒、用户需求和竞争格局共同决定一个AI项目的长期命运。

AIGC时代，认知不是一句漂亮话。它就是一个人穿越周期的护城河。

四、一级市场交流：让AI认知接受资本市场与产业一线校准

过去几年，Rocky除了AIGC技术研究、产品构建落地和内容社区建设外，也一直积极参与AI领域一级市场的资源整合与交流探讨。

一方面，Rocky本身是AI行业的KOL，持续与大量AI行业从业者、AI爱好者、产业资源和一线用户进行交流与探讨；另一方面，Rocky也是很多顶级投资机构的FA合作伙伴，长期关注AI原生应用、AI Agent、AIGC内容生产、具身智能、端侧智能设备、AI工具链、企业服务和垂直行业AI落地等方向。

Rocky认为这种双重视角非常重要。站在技术和内容一线，我们能看到真实的技术变化和用户反馈；站在资本市场和产业一线，我们又能看到什么样的产品、战略、商业模式和迭代能力，真正有机会穿越周期。

AI领域的一级市场本质上是一个高度浓缩的本质价值信息场。这里汇聚了创业者、投资人、FA、产业方、技术团队、渠道资源、早期客户和行业观察者。很多技术趋势、商业模式、产品能力、融资情绪和产业需求，都会在一级市场里提前显影。

如果一个AI从业者只待在技术圈，很容易把临时的“技术先进性”和“技术炫技”误认为“商业确定性”。但一级市场会不断提醒我们：技术只是起点，市场才是考场。

一个项目/产品能不能穿越周期，至少要回答几个非常朴素和本质的问题：

它解决的问题是不是真实存在？
客户/用户是不是愿意为这个问题付钱？
AI带来的效率提升是不是足够明显？
这个项目/产品有没有持续迭代和交付的能力？
商业模式能不能规模化？
数据、用户、渠道、场景、产品和解决方案之间有没有形成正循环？
当基础大模型能力继续提升时，这个项目/产品的壁垒会变强还是变弱？

最后一个问题尤其重要。在AIGC时代，很多项目/产品表面看起来很热闹，但如果它的核心壁垒只是“调用一个模型 + 套一个界面 + 做几个复杂工作流 + 自以为是的复杂技术炫技”，那么它很可能会被下一代基础大模型为核心的大厂平台/产品能力直接吞掉。

真正有跨周期价值的AI项目/产品，往往不是因为它今天用了某个最火的模型，而是因为它在一个真实场景里沉淀了用户、数据、流程、品牌、迭代能力和行业认知。

这也是Rocky从一级市场交流中得到的一个重要感悟：AI行业最值得长期关注的，不只是模型能力本身，而是模型能力与产业场景结合后形成的产业价值护城河。

同时，一级市场还让Rocky对“人性”有更深刻的判断。

AI项目/产品不是单纯的技术竞赛。它是技术判断、产品判断、商业判断、组织判断、周期判断乃至人品格局的综合竞赛。

如果有正在做AI创业、AI原生产品、AIGC商业化落地、AI Agent产品、具身智能和端侧智能设备方向的朋友，尤其是已经进入融资阶段、需要产业资源对接、需要梳理商业故事和融资节奏的团队，也欢迎和Rocky交流探讨。Rocky希望自己不仅能作为AI行业一线从业者分享认知，也能作为连接技术、产业和资本的长期参与者与共建者，帮助真正有价值的AI创业项目获得更好的资源支持，也帮助投资机构们更好地看清AI创业项目的价值质地。

五、拥抱并推动AI Agent浪潮

回看过去五年，Rocky越来越觉得，自己当初最大的判断，是一开始就把AI技术的工具本质看透。

从2018年开始深耕AI行业，到2022年All in AIGC，再到2025年下半年和2026年上半年亲眼经历和见证AIGC技术“中场时刻”、AI Agent浪潮爆发、Vibe Coding研发范式革命，Rocky越来越明确自己接下来要做的事：

持续深耕AIGC全栈技术，持续推动AI Agent在真实行业中的落地，持续用Vibe Coding和AI Agent构建更高效的产品闭环，持续参与一级市场和产业一线交流，持续把Rocky看到过的、经历过的、验证过的、思考过的东西，沉淀成对更多人有价值的干货内容。
在这里插入图片描述

未来几年，AI Agent会继续重塑产品、内容、教育、电商、设计、金融、制造、医疗、企业服务和几乎所有行业。Vibe Coding会让更多普通人拥有构建AI产品的能力。原生多模态会让大模型从“单一能力集合”走向“统一智能入口”。世界模型会让AI更深入地理解和预测真实环境，具身智能和端侧智能设备会让AI真正进入物理世界。一级市场和产业场景会不断筛选出真正具备长期价值的方向和趋势。

未来五年，Rocky希望自己不仅是AI浪潮的一线从业者和观察者，更是AI Agent浪潮的推动者和价值挖掘者。让我们一起在急速变化的AI行业中前行，保持清醒，保持热爱，保持长期主义，把AI行业的本质价值推向更真实、更普惠、更有生命力的未来。

让我们一起在AIGC时代WeThinkIn！

Rocky会持续通过公众号、视频号、知乎等平台分享AIGC时代的核心思考与本质观点，希望能持续帮助到大家，让我们一同前进。

AIGC算法专家五年工作感悟：AI行业深耕五年，拥抱并推动AI Agent浪潮

【WeThinkIn】的主理人

写在前面

一、2025下半年-2026上半年：AIGC时代的三大变革

1. AIGC“中场时刻”：旧技术退潮，原生多模态登场

2. AI Agent浪潮：AIGC从生成内容走向需求交付

3. Vibe Coding革命：编程第一次成为人人可用的思想工具

4. 共同影响：多年重复经验无价值，AI/互联网行业走向全栈化

二、从原生多模态到世界模型：AI走向物理世界

三、深耕AI行业五年，Rocky越来越相信：行业认知比AI技术本身更重要

四、一级市场交流：让AI认知接受资本市场与产业一线校准

五、拥抱并推动AI Agent浪潮

推荐阅读

1. 深入浅出完整解析AI Agent（AI智能体）的核心基础知识

2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识

3、Sora等AI视频大模型的核心原理，核心基础知识，网络结构，经典应用场景，从0到1搭建使用AI视频大模型，从0到1训练自己的AI视频大模型，AI视频大模型性能测评，AI视频领域未来发展等全维度解析文章正式发布！

5、Stable Diffusion XL核心基础知识，网络结构，从0到1搭建使用Stable Diffusion XL进行AI绘画，从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型，AI绘画领域的未来发展等全维度解析文章正式发布！

6、Stable Diffusion 1.x-2.x核心原理，核心基础知识，网络结构，经典应用场景，从0到1搭建使用Stable Diffusion进行AI绘画，从0到1上手使用Stable Diffusion训练自己的AI绘画模型，Stable Diffusion性能优化等全维度解析文章正式发布！

7、ControlNet核心基础知识，核心网络结构，从0到1使用ControlNet进行AI绘画，从0到1训练自己的ControlNet模型，从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布！

8、LoRA系列模型核心原理，核心基础知识，从0到1使用LoRA模型进行AI绘画，从0到1上手训练自己的LoRA模型，LoRA变体模型介绍，优质LoRA推荐等全维度解析文章正式发布！

9、Transformer核心基础知识，核心网络结构，AIGC时代的Transformer新内涵，各AI领域Transformer的应用落地，Transformer未来发展趋势等全维度解析文章正式发布！

10、最全面的AIGC面经《手把手教你成为AIGC算法工程师，斩获AIGC算法offer！（2024年版）》文章正式发布！

11、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布！

13、GAN网络核心基础知识，网络架构，GAN经典变体模型，经典应用场景，GAN在AIGC时代的商业应用等全维度解析文章正式发布！

所有评论(0)

【WeThinkIn】的主理人

AIGC算法专家五年工作感悟：AI行业深耕五年，拥抱并推动AI Agent浪潮

【WeThinkIn】的主理人

写在前面

一、2025下半年-2026上半年：AIGC时代的三大变革

1. AIGC“中场时刻”：旧技术退潮，原生多模态登场

2. AI Agent浪潮：AIGC从生成内容走向需求交付

3. Vibe Coding革命：编程第一次成为人人可用的思想工具

4. 共同影响：多年重复经验无价值，AI/互联网行业走向全栈化

二、从原生多模态到世界模型：AI走向物理世界

三、深耕AI行业五年，Rocky越来越相信：行业认知比AI技术本身更重要

四、一级市场交流：让AI认知接受资本市场与产业一线校准

五、拥抱并推动AI Agent浪潮

推荐阅读

1. 深入浅出完整解析AI Agent（AI智能体）的核心基础知识

2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识

3、Sora等AI视频大模型的核心原理，核心基础知识，网络结构，经典应用场景，从0到1搭建使用AI视频大模型，从0到1训练自己的AI视频大模型，AI视频大模型性能测评，AI视频领域未来发展等全维度解析文章正式发布！

5、Stable Diffusion XL核心基础知识，网络结构，从0到1搭建使用Stable Diffusion XL进行AI绘画，从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型，AI绘画领域的未来发展等全维度解析文章正式发布！

6、Stable Diffusion 1.x-2.x核心原理，核心基础知识，网络结构，经典应用场景，从0到1搭建使用Stable Diffusion进行AI绘画，从0到1上手使用Stable Diffusion训练自己的AI绘画模型，Stable Diffusion性能优化等全维度解析文章正式发布！

7、ControlNet核心基础知识，核心网络结构，从0到1使用ControlNet进行AI绘画，从0到1训练自己的ControlNet模型，从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布！

8、LoRA系列模型核心原理，核心基础知识，从0到1使用LoRA模型进行AI绘画，从0到1上手训练自己的LoRA模型，LoRA变体模型介绍，优质LoRA推荐等全维度解析文章正式发布！

9、Transformer核心基础知识，核心网络结构，AIGC时代的Transformer新内涵，各AI领域Transformer的应用落地，Transformer未来发展趋势等全维度解析文章正式发布！

10、最全面的AIGC面经《手把手教你成为AIGC算法工程师，斩获AIGC算法offer！（2024年版）》文章正式发布！

11、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布！

13、GAN网络核心基础知识，网络架构，GAN经典变体模型，经典应用场景，GAN在AIGC时代的商业应用等全维度解析文章正式发布！

所有评论(0)

温馨提示：您尚未绑定手机号

【WeThinkIn】的主理人