AI Agent Harness Engineering 创业潮：哪些垂直领域存在“杀手级”应用机会？

大阳阳544

270人浏览 · 2026-04-27 23:50:41

大阳阳544 · 2026-04-27 23:50:41 发布

AI Agent Harness Engineering 创业潮：哪些垂直领域存在“杀手级”应用机会？

1. 标题（Title）

AI Agent 2.0时代：从「Prompt调参」到「Harness工程」，开发者垂直创业的黄金赛道已打开
拆解Agent Harness：技术创业者如何用「乐高式工具链」替代传统Prompt，打造杀手级垂直应用？
AI Agent Harness Engineering创业指南：5大潜力垂直赛道+1个可落地的技术原型案例
告别“昙花一现的Prompt玩具”：用Harness工程构建能长期盈利的AI垂直Agent商业闭环

2. 引言（Introduction）

2.1 痛点引入（Hook）

2023年下半年到2024年上半年，AI圈经历了一轮过山车式的降温：先是年初GPT-4发布时的全民狂欢，接着是无数基于“堆Prompt+Few-Shot示例”的通用Agent（比如AutoGPT、BabyAGI、AgentGPT）涌入市场，然后是这些通用Agent在真实场景下的集体“翻车”——要么是在完成复杂任务时频繁“断链”（比如要订机票但突然忘了目的地的时区限制），要么是成本过高（AutoGPT跑1小时可能花掉几十美元API费），要么是根本无法信任（让它写代码可能调用未授权的API、让它做财务分析可能把数据泄露给第三方模型）。

我身边有好几个去年夏天辞职搞通用Agent的技术朋友，现在要么转行做Prompt Engineer外包，要么在痛苦地打磨垂直方向的demo——上个月聚会时，有人拍着桌子吐槽：「老子写了5年分布式系统架构，结果现在跟个营销号似的天天调Prompt语气？这根本不是我想做的AI创业！」

这句话戳中了很多技术出身、想在AI领域真正“搞技术”而非“搞话术”的创始人的痛点。

2.2 文章内容概述（What）

那么，有没有一种方法，能让我们摆脱对“玄学Prompt”的依赖，像开发传统Web应用、移动应用那样，用工程化的思路、可复用的组件、可量化的指标来构建AI Agent？答案是肯定的——这就是我们今天要聊的核心主题：AI Agent Harness Engineering（AI Agent“线束工程”/“整合工程”）。

本文将带你从以下几个维度，系统性地拆解这个技术创业新赛道：

核心概念澄清：什么是AI Agent？什么是Harness？Harness Engineering和传统的Prompt Engineering、Agent框架（LangChain/LlamaIndex）有什么区别？（这部分我会用最通俗的语言、甚至用传统汽车工业的“线束”来类比，同时画概念结构图和对比表格）
问题背景与演变：从GPT-3到GPT-4o，从通用Prompt玩具到垂直领域刚需场景，AI Agent为什么会从“调参时代”走到“工程化时代”？（这里我会整理一张详细的行业发展历史表格）
杀手级应用的筛选标准：什么样的垂直领域才适合用Harness Engineering做AI Agent？不是所有“重复劳动”都能做，我会给你一套包含6个维度的筛选框架
5大潜力垂直赛道深度解析：我会从技术可行性、市场规模、付费意愿、竞争壁垒四个方面，详细拆解医疗临床辅助决策支持（CDSS）+ 电子病历（EMR）整合、跨境电商供应链全链路自动化、工业物联网（IIoT）设备预测性维护+工单闭环、法律合同审查+内部合规流程自动化、科研文献综述+实验方案设计优化这5个赛道，每个赛道都会给你1-2个具体的应用场景、技术架构的初步设想、甚至是部分可落地的代码片段（用Python+LangChain Core的可插拔组件实现，因为LangChain Core是目前最接近Harness思想的底层工具库）
一个可落地的技术原型案例：我会手把手教你用Python+FastAPI+LangChain Core+React，搭建一个简化版的「跨境电商供应链订单异常预警与自动处理Agent」——包含订单异常检测模块（用规则引擎+LLM混合判断）、供应商自动沟通模块（用多模态LLM处理邮件/WhatsApp/微信消息）、物流自动追踪与调整模块、内部数据同步模块（对接Shopify、1688、UPS的API）
最佳实践与创业避坑指南：作为一名见过太多创业项目踩坑的资深工程师，我会给你10条干货满满的最佳实践——比如“不要一开始就用最强大的GPT-4o，先从GPT-3.5-turbo+本地小模型混合推理开始降本”、“规则引擎是Harness的骨架，LLM只是肌肉，千万不要反过来”、“一定要先找10-20个种子用户付费试用，验证PMF再大规模开发”
行业发展与未来趋势：我会聊聊AI Agent Harness Engineering接下来5年可能的发展方向——比如“本地小模型的普及对Harness的影响”、“Agent网络的兴起（多个Agent协同完成更复杂的任务）”、“政府监管对Agent合规性的要求越来越高”

2.3 读者收益（Why）

如果你是一名技术出身、想在AI领域找垂直创业切入点的开发者/技术创始人，读完本文你将：

彻底搞懂Harness Engineering的本质：不再被市场上的各种概念（比如“自主Agent”、“认知Agent”、“多模态Agent”）搞晕，知道自己该学什么、该用什么
掌握一套筛选杀手级应用的方法论：再也不会一拍脑袋就去做“通用AI助理”这种没竞争壁垒、没付费意愿的项目
看到5个真实存在的、有巨大市场空间的垂直赛道：每个赛道都有具体的场景，你可以直接拿去和种子用户聊PMF
学会用工程化的思路搭建AI Agent原型：告别“堆Prompt碰运气”的时代，知道如何用规则引擎、可插拔工具、状态管理来构建稳定、可维护、可扩展的AI Agent
避开AI Agent创业的99%的坑：比如不要一开始就追求“完全自主”、不要忽略数据安全和合规性、不要高估LLM的能力、不要低估种子用户的价值

3. 准备工作（Prerequisites）

3.1 技术栈/知识

虽然本文会用最通俗的语言讲解，但为了更好地理解核心内容和代码片段，你最好具备以下基础：

Python编程基础：熟悉Python的基本语法、函数、类、异常处理，能看懂简单的Python代码
Web开发基础：了解HTTP协议、RESTful API、JSON数据格式，如果用过FastAPI或Flask会更好
AI/LLM基础：知道什么是大语言模型（LLM）、什么是Prompt Engineering、什么是Few-Shot/Zero-Shot学习，用过OpenAI的API或LangChain的基本功能会更好
软件工程基础：了解模块化设计、可复用组件、状态管理、测试驱动开发（TDD）等基本概念，这对理解Harness Engineering的核心思想至关重要

3.2 环境/工具

如果你想跟着本文的步骤，动手搭建那个「跨境电商供应链订单异常预警与自动处理Agent」的原型，你需要准备以下环境和工具：

操作系统：Windows 10/11、macOS、Linux（推荐macOS或Linux，因为开发体验更好）
Python版本：Python 3.10或更高版本（建议用Pyenv管理Python版本，避免环境冲突）
Node.js版本：Node.js 18或更高版本（用于搭建React前端，建议用NVM管理Node.js版本）
开发工具：VS Code（推荐，搭配Python、FastAPI、ESLint等插件）或PyCharm
API密钥：
- OpenAI API密钥（用于调用GPT-3.5-turbo或GPT-4o，也可以换成Claude 3的API或本地小模型，比如Llama 3 8B）
- Shopify API密钥（用于对接电商平台的测试数据，没有的话可以用Mock API代替）
- 1688 API密钥（可选，用于对接供应商的测试数据）
- UPS API密钥（可选，用于对接物流的测试数据）
数据库：SQLite（内置在Python中，用于原型开发）或PostgreSQL（用于生产环境）

4. 核心内容：AI Agent Harness Engineering 从概念到实战

4.1 核心概念澄清：什么是AI Agent？什么是Harness？Harness Engineering和传统方法有什么区别？

4.1.1 核心概念拆解

4.1.1.1 什么是AI Agent？

在聊Harness之前，我们必须先把「AI Agent」这个被炒得满天飞的概念给澄清——因为现在市场上很多人把“能自动执行几个Prompt的脚本”都叫AI Agent，这是不对的。

AI Agent（人工智能智能体） 的定义，最早可以追溯到人工智能学科的起源——1956年的达特茅斯会议。不过，在大语言模型（LLM）出现之前，AI Agent主要是指「基于规则的自动化系统」（比如工厂里的机器人、智能家居的自动化场景），或者「基于强化学习的游戏玩家」（比如AlphaGo、AlphaStar）。

LLM出现之后，AI Agent的定义被重新定义了——现在业界比较公认的定义是：「AI Agent是一个能够感知环境、根据目标自主推理、做出决策、采取行动、并能从环境反馈中学习的人工智能系统」。

为了更好地理解这个定义，我们可以用「一个外卖骑手」来类比一个AI Agent：

感知环境（Perception）：外卖骑手通过手机APP感知订单信息（比如取餐地址、送餐地址、用户备注）、通过地图APP感知实时路况、通过电话/短信感知商家和用户的消息
根据目标自主推理（Reasoning）：外卖骑手的目标是“在规定时间内把餐送到用户手中，同时赚最多的钱”——他会根据感知到的信息推理：比如“这条路堵车了，要不要绕路？”、“这个订单和下一个订单顺路，要不要一起接？”、“这个商家出餐慢，要不要先去取下一个订单？”
做出决策（Decision Making）：根据推理的结果，外卖骑手会做出具体的决策——比如“绕路5分钟，避开拥堵路段”、“一起接这两个顺路的订单”、“先给商家打个电话，问出餐时间”
采取行动（Action）：根据决策的结果，外卖骑手会采取具体的行动——比如“打开导航绕路”、“在APP上同时接两个订单”、“给商家打电话”
从环境反馈中学习（Learning）：如果外卖骑手绕路之后反而迟到了，或者一起接的两个订单因为顺路性判断错误而超时了，他下次就会调整自己的推理和决策规则——这就是学习

而在LLM时代，AI Agent的这五个核心模块，通常是由以下技术组件构成的：

感知层（Perception Layer）：负责收集和处理环境数据——比如语音识别（Whisper）、图像识别（GPT-4o、Claude 3 Opus）、文本处理（OCR）、API数据拉取（对接各种第三方服务的API）
推理层（Reasoning Layer）：负责根据感知到的信息和目标进行推理——这是LLM时代AI Agent的核心，通常由大语言模型（GPT-4o、Claude 3 Opus、Llama 3 70B）+ 推理框架（比如思维链CoT、思维树ToT、ReAct）构成
决策层（Decision Making Layer）：负责根据推理的结果做出具体的决策——这通常由规则引擎（比如Drools、Pyke、自定义的Python规则库）+ LLM混合判断构成（规则引擎处理确定性强的决策，LLM处理不确定性强的决策）
行动层（Action Layer）：负责根据决策的结果采取具体的行动——这通常由可插拔工具库（比如LangChain Tools、LlamaIndex Tools、自定义的Python工具）构成，每个工具负责执行一个具体的任务（比如“发邮件”、“调用Shopify API更新订单状态”、“查询实时天气”）
状态管理层（State Management Layer）：负责存储和管理Agent的状态——比如Agent的目标、感知到的历史信息、推理的历史记录、决策的历史记录、行动的历史结果、从环境中学习到的规则或知识
学习层（Learning Layer）：负责从环境反馈中学习——这通常由微调（Fine-tuning）本地小模型、检索增强生成（RAG）更新知识库、强化学习（RL）优化决策规则构成（不过在大多数垂直领域的刚需场景下，RAG和规则优化已经足够，RL的成本太高、落地难度太大）

4.1.1.2 什么是Harness？

聊完了AI Agent，我们再来聊今天的核心关键词——Harness（线束）。

首先，我们来看一下传统汽车工业中的线束是什么：在传统汽车中，线束是“连接汽车各个电子元件（比如发动机、传感器、仪表盘、音响、导航）的‘神经和血管’”——它负责传输电力和信号，让各个电子元件能够协同工作，完成汽车的各种功能（比如启动、加速、刹车、导航、播放音乐）。

如果把传统汽车中的各个电子元件比作AI Agent的各个核心模块（感知层、推理层、决策层、行动层、状态管理层、学习层），把电力和信号比作数据和指令，那么AI Agent中的Harness（AI Agent“线束”/“整合工程”） 就是：「连接AI Agent各个核心模块的可复用、可插拔、可配置的整合工具链」——它负责在各个模块之间传输数据和指令，让各个模块能够协同工作，完成Agent的目标。

用更通俗的话说：Harness就是AI Agent的“骨架”和“胶水”——骨架让Agent的结构稳定，胶水让Agent的各个模块紧密配合。

4.1.1.3 什么是AI Agent Harness Engineering？

既然Harness是AI Agent的“骨架”和“胶水”，那么AI Agent Harness Engineering（AI Agent“线束工程”/“整合工程”） 就是：「用工程化的思路、可复用的组件、可量化的指标来设计、开发、测试、部署、维护、优化AI Agent的Harness的过程」。

4.1.2 概念之间的关系：对比表格、ER实体关系图、交互关系图

4.1.2.1 概念核心属性维度对比：Prompt Engineering vs. Agent框架（LangChain/LlamaIndex）vs. Harness Engineering

很多人可能会混淆这三个概念——它们之间有什么区别？哪个更适合技术创业？

为了让你一目了然，我整理了一张详细的对比表格，从核心目标、核心思路、核心组件、适用场景、开发难度、维护成本、可扩展性、稳定性、可量化性、商业价值这10个维度进行了对比：

对比维度	Prompt Engineering	Agent框架（LangChain/LlamaIndex）	AI Agent Harness Engineering
核心目标	让LLM输出符合预期的结果（比如“写一篇营销文案”、“翻译一段文字”、“回答一个问题”）	把LLM和各种工具、知识库连接起来，快速搭建一个AI Agent原型（比如AutoGPT、BabyAGI的简化版）	用工程化的思路构建稳定、可维护、可扩展、可信任、可盈利的AI Agent垂直应用
核心思路	玄学调参——通过调整Prompt的语气、结构、Few-Shot示例来让LLM输出更好的结果	模块化拼接——把Agent分解成“LLM调用”、“工具调用”、“RAG检索”等模块，然后用框架把它们拼接起来	工程化整合——把Agent分解成“感知层”、“推理层”、“决策层”、“行动层”、“状态管理层”、“学习层”等核心模块，然后用可复用、可插拔、可配置的Harness工具链把它们整合起来，同时用规则引擎作为骨架，LLM作为肌肉，不要反过来
核心组件	各种Prompt模板、Few-Shot示例库、Prompt优化工具（比如PromptPerfect、AutoPrompt）	LLM封装（比如ChatOpenAI、ChatAnthropic）、工具库（比如LangChain Tools）、RAG组件（比如VectorStores）、Agent模板（比如ReAct Agent、ZeroShot Agent）	感知层整合组件（对接各种第三方API、语音识别、图像识别、OCR的可复用组件）、推理层整合组件（思维链CoT、思维树ToT、ReAct的可复用封装，支持混合推理——本地小模型处理简单推理，云端大模型处理复杂推理）、决策层整合组件（规则引擎的可复用封装，支持规则+LLM混合判断）、行动层整合组件（可插拔工具库的标准化接口，支持自定义工具的快速接入）、状态管理层整合组件（支持Agent状态的持久化、版本控制、回滚的可复用组件）、学习层整合组件（支持RAG知识库自动更新、本地小模型微调的可复用组件）、监控与测试组件（支持Agent性能监控、异常检测、自动化测试的可复用组件）、部署与运维组件（支持Agent的容器化部署、自动扩缩容、故障恢复的可复用组件）
适用场景	简单的、一次性的、对结果要求不是特别高的任务（比如“写一篇朋友圈文案”、“翻译一段简单的文字”、“回答一个常识性问题”）	快速验证AI Agent的想法（比如“我想做一个能帮我整理邮件的Agent，先看看能不能用LangChain快速搭个原型”）	复杂的、长期的、对结果要求特别高的、对稳定性要求特别高的、对成本要求特别高的、对数据安全和合规性要求特别高的垂直领域刚需场景（比如“医疗临床辅助决策支持”、“跨境电商供应链全链路自动化”、“工业物联网设备预测性维护”）
开发难度	入门容易，但要调出“完美Prompt”非常难（完全依赖经验和运气）	入门容易，但要搭建一个“稳定的、可维护的、可扩展的Agent”非常难（框架的抽象程度太高，很多底层细节需要自己处理）	入门有一定难度（需要掌握软件工程的基本概念、AI/LLM的基本原理、规则引擎的基本使用），但一旦掌握了方法论，开发效率会非常高，而且开发出来的Agent质量也会非常高
维护成本	非常高——LLM更新一次（比如从GPT-3.5-turbo-0301更新到GPT-3.5-turbo-1106），之前的“完美Prompt”可能就失效了，需要重新调参；而且如果要修改Agent的功能，需要完全重写Prompt	比较高——框架的更新速度非常快（比如LangChain几乎每周都有更新），而且很多API是不稳定的；如果要修改Agent的功能，需要修改很多模块的代码，而且可能会引入新的bug；另外，Agent的状态管理和异常处理通常需要自己写代码，维护起来非常麻烦	非常低——因为Harness是模块化的、可配置的，LLM更新一次只需要修改配置文件里的模型名称和参数，不需要修改核心代码；如果要修改Agent的功能，只需要添加或删除一些可插拔组件，或者修改一些规则，不需要修改核心代码；另外，Harness自带状态管理、异常处理、监控与测试组件，维护起来非常简单
可扩展性	几乎没有——如果要给Agent添加新的功能（比如“调用Shopify API”），需要完全重写Prompt，而且Prompt的长度是有限制的（比如GPT-3.5-turbo-1106的最大上下文长度是16K tokens），功能越多，Prompt越长，效果越差	有一定的可扩展性——可以通过添加新的工具或RAG组件来给Agent添加新的功能，但框架的抽象程度太高，添加新功能的成本也比较高；另外，Agent的状态管理和异常处理通常需要自己写代码，功能越多，状态越复杂，异常处理越麻烦，可扩展性也会受到限制	非常强——因为Harness是模块化的、可插拔的、可配置的，添加新功能只需要添加一个新的可插拔组件（比如“对接Shopify API的组件”），然后在配置文件里注册这个组件即可；另外，Harness自带标准化的状态管理和异常处理接口，功能越多，只需要按照接口要求添加新的状态字段和异常处理规则即可，不需要修改核心代码
稳定性	非常差——完全依赖LLM的输出，而LLM的输出是不确定的（比如同一个Prompt，LLM可能会输出不同的结果）；而且如果Prompt太长或太复杂，LLM可能会“断链”（比如忘记之前的上下文）	比较差——虽然框架提供了一些状态管理和异常处理的功能，但大多数时候还是需要自己写代码；另外，LLM的输出还是不确定的，Agent还是可能会“断链”或做出错误的决策	非常强——因为Harness用规则引擎作为骨架，处理确定性强的任务，LLM只是作为肌肉，处理不确定性强的任务；另外，Harness自带完善的状态管理和异常处理功能，比如如果LLM断链了，Harness会自动回滚到之前的状态，重新调用LLM或切换到规则引擎处理；如果Agent做出了错误的决策，Harness会自动记录下来，并通知管理员
可量化性	几乎没有——很难用量化的指标来衡量Prompt的质量，通常只能靠人工评估	有一定的可量化性——可以用量化的指标来衡量Agent的“任务完成率”、“平均响应时间”、“平均API调用成本”，但这些指标的收集通常需要自己写代码	非常强——Harness自带完善的监控与测试组件，可以自动收集Agent的各种量化指标，比如“任务完成率”、“平均响应时间”、“平均API调用成本”、“规则引擎使用率”、“LLM使用率”、“异常发生率”、“MTTR（平均故障恢复时间）”；另外，Harness还支持自动化测试，可以用测试用例来自动验证Agent的功能是否正常
商业价值	比较低——大多数Prompt Engineer只能做外包，很难打造出有竞争壁垒的产品	有一定的商业价值——可以用Agent框架快速搭建原型，然后卖给投资人或种子用户，但很难打造出能长期盈利的产品（因为框架的抽象程度太高，很多底层细节需要自己处理，维护成本和可扩展性都是问题）	非常高——因为Harness可以构建出稳定、可维护、可扩展、可信任、可盈利的AI Agent垂直应用，这些应用通常有巨大的市场空间、很高的付费意愿、很强的竞争壁垒（因为规则引擎和Harness工具链都是需要时间和经验积累的，很难被竞争对手复制）

4.1.2.2 概念联系的ER实体关系图（mermaid架构图）

为了让你更直观地理解Prompt Engineering、Agent框架、Harness Engineering这三个概念之间的联系，我画了一张ER实体关系图：

从这张ER图中我们可以看出：

Prompt Engineering 是最基础的工具，主要用于优化LLM的输出
Agent框架（LangChain/LlamaIndex） 是比Prompt Engineering更高一层的工具，它集成了Prompt Engineering、LLM封装调用、工具集成、RAG集成等功能，可以快速搭建AI Agent原型
Harness Engineering 是比Agent框架更高一层的工具，它可以使用Agent框架作为底层工具（比如用LangChain Core作为推理层和行动层的底层工具），但它的核心是规则引擎、标准化可插拔组件、状态管理、监控与测试、部署与运维这些工程化的组件
垂直领域的AI Agent应用 是最终的产品，它是用Harness Engineering构建的

4.1.2.3 AI Agent Harness的交互关系图（mermaid架构图）

为了让你更直观地理解AI Agent Harness的各个核心模块之间的交互关系，我画了一张交互关系图：

4.1.3 边界与外延

4.1.3.1 Harness Engineering的边界

虽然Harness Engineering非常强大，但它也不是万能的——它有自己的边界：

它不能替代LLM：LLM是AI Agent的“大脑”（或者说“肌肉”），Harness只是“骨架”和“胶水”，没有LLM，Harness就是一个空壳
它不能替代业务知识：要构建一个成功的垂直领域AI Agent应用，你必须对那个垂直领域有深入的了解——比如要做医疗CDSS应用，你必须有医生团队的支持；要做跨境电商供应链应用，你必须有跨境电商卖家的支持；规则引擎的规则、RAG知识库的内容，都来自于业务知识
它不能替代种子用户：要构建一个成功的垂直领域AI Agent应用，你必须先找10-20个种子用户付费试用，验证PMF（产品市场匹配）——Harness Engineering只能帮你快速构建、测试、部署产品，但不能帮你找到PMF
它目前不适合处理完全开放式的通用任务：比如“帮我写一篇能获得诺贝尔奖的物理学论文”、“帮我制定一个能让公司市值翻10倍的商业计划”——这些任务完全依赖LLM的创造力和推理能力，规则引擎几乎帮不上忙，Harness Engineering的优势也无法发挥出来

4.1.3.2 Harness Engineering的外延

Harness Engineering的外延非常广——它可以和很多其他技术结合起来，构建更强大的AI Agent应用：

和本地小模型结合：可以降低API调用成本，提高数据安全性和响应速度——比如用Llama 3 8B处理简单的推理（比如“订单超时12小时，判断是商家出餐慢还是物流延迟”），用GPT-4o处理复杂的推理（比如“分析最近30天的订单异常数据，找出根本原因，并提出优化建议”）
和多模态LLM结合：可以处理图像、视频、语音等多模态数据——比如用GPT-4o处理供应商发来的商品图片，判断商品是否符合要求；用Whisper处理用户发来的语音投诉，转换成文字后进行分析
和Agent网络结合：可以让多个Agent协同完成更复杂的任务——比如在跨境电商供应链应用中，可以有“订单异常检测Agent”、“供应商沟通Agent”、“物流追踪Agent”、“用户安抚Agent”、“财务处理Agent”，这些Agent通过Harness连接起来，协同完成“订单异常处理”这个复杂的任务
和区块链结合：可以提高Agent的可信度和透明度——比如在医疗CDSS应用中，可以用区块链存储Agent的推理过程、决策结果、行动结果，确保这些数据不可篡改；在法律合同审查应用中，可以用区块链存储合同的审查过程和结果，确保合同的合法性和有效性
和物联网（IoT）结合：可以让Agent感知和控制物理世界——比如在工业物联网设备预测性维护应用中，可以让Agent感知设备的传感器数据，预测设备的故障，并自动派单给维修人员；在智能家居应用中，可以让Agent感知用户的语音指令和环境数据，控制家里的灯光、空调、电视等设备

（接下来的章节将继续深入探讨问题背景与演变、杀手级应用的筛选标准、5大潜力垂直赛道深度解析、可落地的技术原型案例、最佳实践与创业避坑指南、行业发展与未来趋势等内容，预计总字数将超过10000字）

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

天赐范式第36天：独立创作者的一天——明天论文前途未卜

AtomGit开源社区

你怎么理解skill？如何在这个项目运用skill或者不用你的判断？在这个过程中badcase是自动评估的吗有做自动回流吗？需要人工评badcase还是可以自动化？评估体系如何迭代数据指标是什么

指标计算公式目标值采集方式完成率完成考试数/开始考试数>70%埋点：exam_start vs exam_complete准确率(1 -AI分数-人工分数/9) * 100%Badcase率Badcase数/总会话数<10%数据库统计修复周期<3天数据库时间戳召回率人工发现的错误数/总错误数>90%抽样人工全量审核优先级任务判断P0保持当前人工审核 Badcase数据量小，人工更准P1上线后加自动