一、背景

       随着人工智能模型的爆发,从国外ChatGP开始,到国内的DeepSeek,到现在千问Qwen、Glok、Gemini、Gemma …… 然后智能体的崛起,从龙虾OpenClaw到大量的龙虾变体智能体,到现在的爱马仕Hermes Agent。然后就是大量的Token被消耗,就像我一天就可以轻松用掉过亿的Token,而且我自我感觉还不属于重度使用的人,虽然全球大量的算力集群和机房建设,但后面我看了一些大厂得出的我也比较认可的一个结论,目前人工智能算力的设施都是为人类设计的,但满足不了人工智能的使用。因为人工智能从一个被动使用的时代到了一个人工智能主动的时代。

       虽然现在也出现了一些模型路由的概念,比如Hermes的模型路由,还有什么‌LLMRouter、模型网关等等。但我也是思考了几个月的事情,感觉方向性大家思考是差不多了。首先就是穷人思维,薅不到羊毛的时候如何解决Token消耗的问题,当然在国内想安全、流畅调用国外的模型使用也是个问题。大模型路由与调度方案正是节约Token和解决隐私保护问题。所以还是决定把我思考的、设计的、实践的一部分和大家探讨、交流和分享。

 

二、思路

     先谈下思路,再讨论可行性和实线。比较粗糙的考虑如下:

  1. 从不同的维度判断下任务复杂度和类型,自动调用不同的本地模型或网络模型处理。比如说简单的任务可以考虑用本地的小模型处理;
  2. 涉及隐私的考虑都用本地模型处理;
  3. 复杂和需要质量高的任务尽量用大的或全量的模型处理;
  4. 涉及图片、视频的模型自动调用相应功能的模型处理;
  5. 建立智能体检测本地和云模型清单,重点需要根据本地电脑的性能对模型性能进行评估;
  6. 建立任务分类,比如一级分类为“涉及隐私、敏感任务”和“非隐私敏感隐私、敏感任务",然后二级分类为文本、图片、视频、音频等,三级分类再分类为简单、中等、难度;
  7. 考虑到极端情况,使用本地合理小大的模型作为初始模型进行任务分类判断和调度。

     总体考虑还需要“离线优先、网络感知、智能路由、容错”

 

三、实践

       方案基于任务的多维度特征(复杂度、隐私敏感度、任务类型、质量要求),自动选择最优的本地或云端模型进行处理,实现效率与质量的平衡。

1、执行流程

Step 1: 网络连通性检测

Step 2: 任务分析(类型+复杂度+隐私)

Step 3: 路由决策(根据网络状态)

Step 4: 创建子代理,指定模型执行

Step 5: 结果整合+容错处理

 

其中路由决策:

1)输入解析: 理解用户意图和任务类型

2)特征提取: 提取任务复杂度、领域等特征

3)模型匹配: 根据特征匹配最优模型

4)执行调用: 调用选定的模型

5)结果评估: 评估结果质量

6)反馈学习: 更新路由策略

 

自建路由系统要点:

# 核心路由逻辑示例

def route_task(task, models):

    # 1. 分析任务

    features = analyze_task(task)

    # 2. 预测难度

    difficulty = predict_difficulty(features)

    # 3. 选择模型

    if difficulty == "simple":

        return models["small"]  # 小模型

    elif difficulty == "medium":

        return models["medium"]  # 中模型

    else:

        return models["large"]   # 大模型

```

2、任务类型

类型

标识关键词

适用模型

通用文本

对话、问答、写作、总结

qwen3.6、gemma4、qwen3.5

代码

代码、编程、调试、注释

qwen-coder

视觉理解

图片、截图、OCR、图表

qwen3-vl、minicpm-v

推理分析

分析、推理、思考、逻辑

deepseek-r1、phi4-reasoning

网络安全

安全、漏洞、渗透、威胁

SecGPT、CISO系列

嵌入向量

embedding、相似度、检索

nomic-embed-text

3、复杂度分级

级别

特征

Token估算

推荐模型规格

简单

快速问答、日常对话、短文本处理

<500

small (0.8B-4B)

中等

分析总结、中等长度、简单多步骤

500-2000

medium (4B-9B)

复杂

深度分析、长文档、专业领域、复杂推理

>2000

large (14B-32B)

 

4、隐私敏感级

级别

场景

关键词

策略

低敏感

公开信息、常识问答、搜索引擎

公开、搜索、查询

可使用云端模型

中敏感

工作文档、内部项目、培训资料

工作、项目、报告

优先本地模型

高敏感

账号密码、个人信息、财务数据

密码、账号、密钥、机密

强制本地模型

5、建立模型清单

建立本地已安装模型清单、云模型清单,可以人工建立指定,也可以作为任务让智能体结合本地设备性能进行测试评估完成。如:

1)本地模型

模型名称

规格

显存

用途

优先级

2)云模型

模型名称

规格

显存

用途

优先级

 

6、建立路由策略矩阵

    1)离线模式 (OFFLINE),举例如下:

任务类型

简单

中等

复杂

通用文本

qwen3.5:0.8b

qwen3.5:2b

qwen3.5:4b

代码

qwen3.5:2b

qwen3.5:4b

qwen3-coder:30b

推理分析

qwen3.5:4b

deepseek-r1:8b

deepseek-r1:14b

视觉理解

minicpm-v

qwen3-vl:8b

qwen3-vl:32b

网络安全

secgpt_mini

secgpt_chat

threatanalysisv2

    2)在线模式 (ONLINE),举例如下:

任务类型

简单

中等

复杂

通用文本

qwen3.5:2b

qwen3.5:4b

deepseek-v4:cloud

代码

qwen3.5:2b

qwen3.5:4b

qwen3-coder-next:cloud

推理分析

deepseek-r1:8b

phi4-reasoning

kimi-k2-thinking:cloud

视觉理解

minicpm-v

qwen3-vl:8b

qwen3-vl:32b

网络安全

secgpt_mini

secgpt_chat

threatanalysisv2

 

四、实践总结分析

     本文构建的智能体大模型路由与调度系统在Windows环境的部分智能体完成部分功能测试完,通过语义感知路由,更通过reflect`/`self-learning赋予持续进化能力。但也有所限制,比如有些智能体因为设计固化UI和模型选择,还有就是需要支持多Agent会理想些,尽管方案系统架构相对完整,但在实际部署中仍受以下环境约束:

1、平台依赖壁垒

      kc-gui、peekaboo强绑定Windows/macOS底层API,跨平台迁移需重写编码与自动化层。

2.、外部依赖敏感性

       tavily、online-search、qveris等依赖第三方API配额与网络稳定性;离线场景下需依赖 ollama-local与sherpa-onnx-tts降级等等。

3、安全与权限边界

      虽然强制拦截策略虽保障合规,但增加路由链路长度;部分Skill(如tencentmap、tencentmeeting)需前置Key配置与企业认证,无法开箱即用。

4、算力与存储限制

       本地模型体积庞大,部署困难,像我的老笔记本拯救者32G内存+移动级显卡3080(16G)对超过30b的模型运作就非常慢了,而且supermemory与ontology的向量检索在低内存设备易出现错误。

 

五、改进思路与演进路线

       整个方案只是给大家在体能提模型使用一个参考,甚至可以编成一个技能,但最终目的始终是按需,还有就是解决隐私数据和节约商业云模型的调用费用。往后我们还可以结合几各方面去最佳实践和改进:

1、改进路由策略设计:

1)分层路由:先分类再路由

2)降级策略:大模型不可用时自动降级

3)熔断机制:防止级联故障

4)灰度发布:新路由策略逐步推广

2、成本优化技巧:

1)批量处理: 聚合小任务降低调用开销

2)缓存命中: 相同任务直接返回缓存

3)模型蒸馏: 用大模型训练小模型

4)混合精度: 平衡精度和速度

3、质量保障:

1)结果对比: 关键任务多模型验证

2)人工反馈: 收集用户纠正

3)A/B测试: 持续优化路由策略

4)监控告警: 异常路由自动告警

4、拟人式进化

      人工智能的初期其实我觉得拟人式会更有效率,未来可能是摆脱人的框架进入超人运行方式。目前针对这个方案,我觉得可与采用拟人脑方式来进行信息处理传递、模型管理和多层记忆改进。比如按阶段、关键脑区/机制建立模型分配、执行机制、结果记忆存储机制:

1)感官输入:感官皮层(视觉皮层、听觉皮层等)

2)初步处理 :枕叶(视觉)、颞叶(听觉)

3)关联与整合:前额叶、顶叶(联想网络)

4)知识调用与推理:前额叶

5)决策形成:前额叶、杏仁核(情感处理)

6)行动执行:运动皮层、基底神经节

7)反馈与学习:前额叶、海马体。

 

      只是个IT老民工的无聊思考之作,仅供参考。2026年4月29日by 阳光

 

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐