一个合同审查项目的阶段性探索

qq_38709462

693人浏览 · 2026-03-27 14:45:27

qq_38709462 · 2026-03-27 14:45:27 发布

让AI不偷懒：一个合同审查项目的阶段性探索

——过去几周，我都在跟AI斗智斗勇

当你发现AI审查同一份合同两次，结果却像两个不同的人写的，你就知道：这玩意儿得“管教”一下了。

一、崩溃瞬间

几周前，我做了一个看起来挺酷的东西：一套覆盖20多个行业的合同知识库，加上大模型（DeepSeek R1），让AI自动审查合同。

理想很丰满：上传合同，一键出报告，法务老师可以摸鱼了。

现实很骨感：同一份合同，上午审查说“付款账期90天，风险高”，下午审查说“账期较长，建议缩短”，第三次干脆把风险点给漏了。

我盯着屏幕，脑子里只有一个念头：这货是不是在摸鱼？

于是，我开始了这几周的“管教AI”之旅。现在，我把这段经历记录下来——不是成功学，只是踩坑实录。希望对你有点用。

二、我想做什么

项目叫“智能合同治理与行业知识库体系”（Contract Intelligence Engine，简称CIE）。目标挺大：让AI像老法师一样审合同，而且每次都一样。

我手里有：

970+个行业知识文件（农业、制造业、金融、软件……）
一套插件体系（可以给特定行业加私货）
大模型API（DeepSeek R1、GPT-4）

但把它们拼起来后，效果就是开头那样——飘忽不定。

于是我决定分阶段搞：

版本	干啥	状态
2.0	画蓝图：行业知识库长啥样，顺便试水几个“技能”	✅ 搞定
3.0	撸代码：把蓝图变成文件，插件搭起来，技能多写几个	✅ 搞定
4.0	填坑：检查每个文件，别让AI偷懒	🔄 正在被折磨
5.0	预想：让AI“选规则”而不是“写作文”	📝 梦里
6.0	预想：搞个网关，让外面随便调	📝 梦里

目前我正在4.0里苦哈哈地当“质检员”。5.0和6.0还只是睡前想想，能不能成不知道。

三、2.0和3.0阶段：我试过的那些“技能”

在2.0和3.0阶段，我除了搭框架，还尝试做了几个“技能”——其实就是一些小工具，让AI帮着干点杂活。这些技能放在仓库的.trae/skills/目录下，有的已经上传，有的还在本地躺着。

3.1 contract-taxonomy-builder（合同分类构建技能）

这个技能的想法是：给AI一堆合同，它能自动给合同分类——比如这个是采购合同，那个是销售合同，那个是保密协议。

设计的时候觉得挺美：AI阅读合同，提取关键词，然后自动归类。省得人工一个个打标签了。

实际效果：能分个七七八八，但遇到边界情况就懵了。比如“技术服务合同”和“软件开发合同”到底算一类还是两类？AI表示：我也不知道，要不你告诉我？

3.2 contract-field-generator（合同字段生成技能）

这个技能的思路是：根据合同类型，自动生成该类型应该包含哪些字段。比如“采购合同”应该有“付款条件”“交货期”“质量标准”这些字段。

实际效果：能生成个大概，但字段的粒度很难控制。有时候太细，列了50个字段；有时候太粗，漏掉关键项。我琢磨，这事儿可能还是得靠人定模板。

3.3 industry-knowledge-graph（行业知识图谱构建技能）

这个技能想做的是：从现有的行业知识文件里，提取行业信息、合同模式、产业链关系，然后拼成一个知识图谱。

实际效果：能画出图来，但图谱的质量取决于输入数据的质量。而当时输入数据本身还有一堆占位符……所以画出来的图也挺“抽象”的。

3.4 supply-chain-analyzer（供应链分析技能）

这个技能想基于产业链数据，分析供应链的关键节点、瓶颈环节，然后给出优化建议。

实际效果：架子搭好了，但数据没跟上。相当于做了一个很漂亮的计算器，但缺少按键。

3.5 enterprise-terminology-generator（企业术语生成技能）

这个技能设计了一套流程：企业名称 → 查经营范围 → 分析集团结构 → 梳理上下游 → 匹配合同类型 → 匹配法律条款 → 生成行业画像 → 输出术语库。

实际效果：流程走得通，但每一步都需要数据支撑。有些数据可以从公开渠道拿到，有些需要企业自己提供。目前还在慢慢填。

3.6 knowledge-graph-builder（通用图谱构建技能）

这是一个通用版的图谱构建工具，支持从YAML、JSON、CSV、Excel等多种格式提取实体和关系。

实际效果：这个相对成熟一些，因为不依赖特定行业数据。但通用就意味着不够“聪明”，需要人工定义提取规则。

3.7 几个插件（Plugin_Construction、Plugin_Finance、Plugin_SaaS）

除了技能，我还做了几个行业插件。比如建筑工程插件，里面放了工期风险、天气影响的判断逻辑；SaaS插件，放了数据安全、服务等级的规则。

这些插件的现状：架子搭好了，但里面的规则还在慢慢填。相当于盖好了房子，家具还没买齐。

四、4.0：跟AI的“偷懒”作斗争

4.1 AI自动plan的真相

我一开始天真地以为：有了大模型，知识库生成可以全自动。写个脚本，让AI自己填行业画像、风险全景、术语表……不香吗？

太天真了。

AI这玩意儿，如果你不给它明确约束，它就会用最省力的方式“交差”。我发现在自动生成的文档里出现了各种“偷懒”痕迹：

占位符狂魔：写着“【此处待补充】”，然后没了。
复制粘贴侠：不同行业的风险全景，除了名字改了，内容一模一样。农业的风险和软件IT的风险能一样？AI表示：一样。
标题党：只有标题，内容要么不写，要么写“待完善”。
逻辑黑洞：写着“风险等级高”，应对措施却只有“加强管理”。怎么加强？不知道。

这些AI生成的文档，看起来像极了大学期末考前一天晚上突击的论文——有框架，没内容；有术语，没逻辑。

4.2 我的“反偷懒”对策

于是我开启了4.0阶段：逐行业、逐文件检查，消除一切占位符。

每个行业有7类文件：行业画像、法规框架、风险全景、合同模式、术语表、知识签名、国标映射。每一类都要过一遍，确保：

没有“【待补充】”
风险等级和量化指标匹配（比如“高”风险，必须给出具体损失范围）
术语和行业标准对齐
逻辑自洽（比如“风险描述”和“应对措施”要能对上）

我甚至做了个“行业知识库修复总控”看板，一个个行业打钩。目前制造业、农业已经搞定，剩下的还在排队。

这活儿不酷，甚至有点枯燥，但不得不做。因为如果地基是豆腐渣，后面无论怎么调模型，结果都是烂的。

五、5.0的预想：让AI“选规则”而不是“写作文”

4.0做完之后，我在想：知识干净了，但怎么让AI稳定地输出呢？

我现在（或者说大多数人的做法）是：把知识库塞进提示词，让AI生成风险描述。但自由文本的随机性根本压不住。

所以我想换一种思路：把每条风险定义成一个“模板”。

比如，付款账期风险不再让AI写“建议缩短账期”，而是规定：

规则ID：R-FIN-001
描述模板：付款账期为{actual_days}天，超过{threshold}天上限
建议模板：建议缩短至{threshold}天以内

AI的任务变成：判断合同有没有触发这条规则，如果有，就填两个参数：actual_days和evidence（原文证据）。

后端拿到参数，套进模板，渲染出最终文字。这样，相同参数必然得到相同文本。

相当于让AI做选择题，而不是作文题。

我计划用Function Calling来实现：把每个规则模板定义成一个“函数”，让AI调用并传参。输出结构化，可校验，可比较。两次审查结果是否一致，就看命中的规则ID集合重叠多少。

这个思路还在梦里，但感觉比现在靠谱。

六、6.0的预想：搞个网关，让外面随便调

如果5.0走通了，我想再往前走一步：把内部复杂的技能调度、知识检索、插件执行，封装成一个OpenAI兼容的网关。

外部系统只要像调OpenAI一样调我的接口，就能自动获得增强后的审查结果。不用改代码，换个base_url就行。

网关还会内置重试、降级、熔断、日志、安全隔离——这些生产环境“续命”的东西。这样，别人用我的能力，不用操心稳定性，我也不用被半夜告警电话吵醒。

当然，这也是预想。能不能做到，得等4.0做完，5.0验证了再说。

七、这些预想能行吗？不一定

必须坦诚：以上所有5.0、6.0的设想，都还没落地。可能走通了，也可能走着走着发现此路不通。

而且就算通了，这套方案也有明显的局限性：

依赖结构化的知识库：没有现成知识，玩不转。
只适合能“模板化”的风险：遇到那种“看着就感觉不对”的模糊风险，还是得靠人。
牺牲了创造性：如果你想让AI发现未知风险，这套方案会把它框死。

说白了，这是在当前大模型能力下，用工程手段“框住”不确定性。以后模型更强了，也许根本不需要这么费劲。

八、一些可能不对的感受

做了这几周，我有一个不一定对的感受：

大模型在企业级应用里，可能不是“取代”传统软件，而是“补充”。

传统软件确定、可靠，但僵硬。大模型灵活、聪明，但不可预测。把两者结合——用大模型理解意图、抽取参数，用传统代码做确定性执行——也许是一条更务实的路。

合同审查是这样，法律咨询、医疗辅助、金融风控，可能也是这样。

当然，这只是我现在的感受。过两个月可能就变了。

九、接下来的计划

接下来几周，我打算：

继续4.0：把剩下的行业一个个检查完，确保知识库不再有“偷懒”痕迹。【20多个行业才完成2个，好慢啊！！！】
小范围验证5.0：选制造业，挑几条核心风险，写模板、做Function Calling，看看AI能不能稳定地“选规则”。
如果可行：再考虑6.0的网关；如果不可行，就换个思路。

写在最后

这篇文章不是成功学，只是一份踩坑记录。如果你也在做类似的事，欢迎交流。我做得不一定对，但希望能给你一些参考。

项目代码已经开源在Gitee：
https://gitee.com/laopiao93/knowledge

里面放了几个技能（contract-taxonomy-builder、contract-field-generator、industry-knowledge-graph、supply-chain-analyzer、enterprise-terminology-generator、knowledge-graph-builder）【PS：如果缺了，那一定是我懒的上传😂】和行业插件（Construction、Finance、SaaS）。虽然还不够完善，但也许能给你一些启发。

最后，如果你发现AI在审查合同时偷懒，别怪它——它只是随了我。😂

作者：一个在4.0里挣扎的码农
2026年3月