面向社交 Agent 的 Harness 速率限制与人流控制

关键词:社交Agent、Harness、速率限制、人流控制、多智能体系统、流量治理、可靠性工程
摘要:随着大模型驱动的社交Agent大规模落地,品牌运营、虚拟主播、舆情分析等场景下成千上万的Agent并发请求社交平台API,极易触发平台反爬封禁、接口雪崩、服务不可用等问题。本文以「运动会奶茶店调度」的生活化类比为切入点,从核心概念、算法原理、实战落地、场景应用四个维度,一步步讲解如何基于Harness云原生平台构建社交Agent的速率限制与人流控制体系,涵盖分布式限流算法实现、全局流量调度、SLO保障等核心内容,帮助开发者解决多Agent集群的流量稳定性痛点。


背景介绍

目的和范围

2023年以来,大模型驱动的社交Agent进入爆发期:某美妆品牌部署2000个Agent同时在小红书、抖音回复用户评论、发放优惠券,某虚拟主播团队部署100个Agent实时处理弹幕互动,某舆情公司部署5000个Agent爬取公开社交数据。但90%的多Agent团队都遇到过相同的问题:高峰时段请求量突增,要么被平台限流封号,要么打崩第三方接口,业务损失超过百万。
本文的目的是帮助多智能体系统开发者、SRE、架构师掌握基于Harness的社交Agent流量治理方案,覆盖从核心概念理解、算法选型、代码落地到线上运维的全流程,适用范围包括所有对接公开社交平台API的多Agent集群场景。

预期读者

  • 多智能体系统全栈开发者
  • 云原生SRE与可靠性工程师
  • 社交运营、AI服务类产品经理
  • 企业级多Agent系统架构师

文档结构概述

本文按照「概念入门→原理拆解→实战落地→场景延伸」的逻辑展开:首先用生活化类比讲解核心概念,然后深入解析限流与流量控制的算法原理,接着从零开始搭建基于Harness的完整限流系统,最后讲解实际场景的最佳实践与未来发展趋势。

术语表

核心术语定义
  1. 社交Agent:由大模型驱动,自动完成社交平台内容发布、用户互动、数据采集等任务的智能程序,可类比为企业雇佣的线上运营专员。
  2. Harness:云原生持续交付与可靠性管理平台,提供统一的流量治理、SLO监控、熔断降级能力,可类比为大型活动的总调度中心。
  3. 速率限制:针对单个Agent的请求频率管控,比如每个Agent每分钟最多发10条评论,可类比为每个人每次最多买2杯奶茶的规则。
  4. 人流控制:针对所有Agent的全局总请求量管控,比如所有Agent每秒最多给小红书发500个请求,可类比为奶茶店每次最多进5个顾客的规则。
  5. 分布式限流:多实例部署的限流系统,统一统计全局请求量,避免本地限流的统计偏差问题。
相关概念解释
  1. 令牌桶算法:常用的限流算法,按照固定速率往桶里放令牌,请求来的时候需要拿到令牌才能通过,可类比为奶茶店的取号机制,号发完了就需要等。
  2. 滑动窗口算法:解决固定窗口限流的边界流量突增问题的算法,把时间窗口拆成多个小片段,滚动统计请求量。
  3. SLO(服务等级目标):服务可用性的量化目标,比如99.9%的请求成功返回,用来动态调整限流阈值。
缩略词列表
缩略词 全称 含义
RPS Requests Per Second 每秒请求数
QPS Queries Per Second 每秒查询数
SLA Service Level Agreement 服务等级协议
429 HTTP Status Code 429 请求过多被限流

核心概念与联系

故事引入

我们拿学校运动会的场景做类比:
运动会当天,全校1000个同学都想去校门口的奶茶店买奶茶,奶茶店只有2个店员,每秒钟最多做10杯奶茶。如果所有人都一窝蜂挤进去,要么店员忙不过来做错单,要么门被挤坏,所有人都喝不上奶茶。
这时候学校安排了2个志愿者在奶茶店门口维持秩序:

  1. 第一个志愿者查每个同学的购买配额:每人最多买2杯,超过的不让进;
  2. 第二个志愿者数进店的人数:每次最多进5个人,出来一个再进一个,保证店内不会拥挤。
    最后所有同学都顺利买到了奶茶,没有出现混乱。
    在这个场景里:
  • 买奶茶的同学 = 社交Agent
  • 奶茶店 = 社交平台API
  • 两个志愿者组成的调度团队 = Harness流量治理层
  • 每人最多买2杯 = 速率限制
  • 每次最多进5个人 = 人流控制

核心概念解释(小学生也能懂)

核心概念一:社交Agent

你可以把社交Agent当成你雇的线上运营小助手:你开了个卖护肤品的网店,雇了1000个小助手,每个小助手都有自己的小红书账号,每天帮你回复用户的评论、给咨询的用户发优惠券、主动给关注你的用户发新品通知。这些小助手不需要休息,24小时工作,但是如果它们发消息太频繁,小红书就会把它们的账号封掉,甚至不让你的所有账号发消息。

核心概念二:Harness

Harness就是你雇的调度主管,管所有的小助手:每个小助手要发消息之前,都要先问调度主管「我现在可以发消息吗?」,调度主管会查两个规则:你这个小助手今天是不是发太多了?所有小助手加起来是不是已经发太多了?如果都没问题,就说「可以发」,不然就让小助手等一会再问。而且调度主管还会盯着奶茶店(社交平台)的状态,如果奶茶店今天店员少,做的慢,就自动减少进店的人数,避免大家白等。

核心概念三:速率限制

速率限制就是给每个小助手定的工作节奏:比如每个小助手每分钟最多发5条消息,每天最多发200条消息,超过这个数就必须休息。就像你给每个小助手规定,每小时最多敲5个客户的门,不然会被客户投诉骚扰。这个规则是管单个小助手的,避免某一个小助手疯狂发消息被平台封号。

核心概念四:人流控制

人流控制就是给所有小助手定的总配额:比如所有小助手加起来,每秒最多给小红书发300条消息,超过的就先排队等着。就像奶茶店最多同时进5个人,不管你有多少人在外面等,都要排队,不然把奶茶店挤垮了大家都喝不上。这个规则是管全局的,避免所有小助手加起来的请求量太大,把平台的接口打崩,导致所有人都用不了。

核心概念之间的关系

我们还是用奶茶店的例子来解释关系:

社交Agent与Harness的关系

社交Agent是干活的小工,Harness是管小工的调度员,小工要干活之前必须先得到调度员的批准,不能自己想干就干。如果没有调度员,小工们乱冲乱撞,要么被客户赶出来(封号),要么把店家挤垮(接口雪崩)。

速率限制与人流控制的关系

速率限制是「单人规则」,人流控制是「全局规则」,两个规则必须同时满足才能放行:比如一个同学只买1杯奶茶(符合单人速率限制),但是店里已经满了(符合全局人流限制),那也要在外面排队;如果店里有空位,但是这个同学要买5杯(超过单人限额),也不让进。两个规则缺一个都会出问题:只有速率限制没有人流控制,1000个小助手同时发请求,总流量还是会超;只有人流控制没有速率限制,某一个小助手疯狂发请求,会被平台单独封号。

Harness与两类限流规则的关系

Harness是规则的执行者和动态调整者:它不仅会按照预先设置的规则检查请求,还会根据社交平台的返回状态自动调整规则:比如平台最近查的严,返回了很多429限流码,Harness就自动把全局人流配额从300降到200;等平台恢复了,再慢慢把配额调回去。

核心概念原理和架构的文本示意图

┌──────────────────────────────────────────────────────────┐
│                     社交平台API层                        │
│  小红书API / 抖音API / 微信API / 微博API  最大配额1000RPS │
└───────────────────────┬──────────────────────────────────┘
                        │
┌───────────────────────▼──────────────────────────────────┐
│                  Harness流量治理层                        │
│  ┌───────────────────┐         ┌───────────────────┐    │
│  │ 单Agent速率限制模块│         │ 全局人流控制模块   │    │
│  │ 按AgentID统计配额  │         │ 按平台统计总配额   │    │
│  └───────────────────┘         └───────────────────┘    │
│  统一存储:Redis集群  监控告警:Prometheus+Grafana        │
└───────────────────────┬──────────────────────────────────┘
                        │
┌───────────────────────▼──────────────────────────────────┐
│                  社交Agent集群层                          │
│  运营Agent1、运营Agent2... 舆情Agent1、舆情Agent2...      │
│  总数量:5000+  单Agent峰值请求:10RPM                    │
└──────────────────────────────────────────────────────────┘

Mermaid 架构图

渲染错误: Mermaid 渲染失败: Parse error on line 2: ...m 社交Agent集群 ||--o Harness流量治理层 : 提交请 ----------------------^ Expecting 'ZERO_OR_ONE', 'ZERO_OR_MORE', 'ONE_OR_MORE', 'ONLY_ONE', 'MD_PARENT', got 'UNICODE_TEXT'

概念核心属性维度对比

对比维度 速率限制 人流控制
管控对象 单个Agent 所有Agent全局
管控目标 避免单个Agent被平台单独封禁 避免总流量打崩平台接口
配置粒度 AgentID/Agent分组 平台域名/接口路径
阈值来源 平台单账号限流规则 平台总接口配额
异常处理 超限后Agent本地重试 超限后进入全局队列等待
适用场景 运营Agent、内容发布Agent 数据采集Agent、弹幕互动Agent

核心算法原理 & 具体操作步骤

社交Agent的限流算法分为两类:单Agent速率限制算法、全局人流控制算法,我们分别讲解原理和代码实现。

单Agent速率限制算法:滑动窗口算法

固定窗口限流有一个严重的问题:比如我们设置每分钟最多10个请求,在00:59的时候发了10个请求,01:01的时候又发了10个请求,这时候在59秒到01秒的2秒内就发了20个请求,是阈值的2倍,很容易触发平台限流。
滑动窗口算法解决了这个问题:把1分钟的窗口拆成6个10秒的小窗口,每次统计当前时间往前推1分钟内的所有小窗口的请求总和,只要总和超过阈值就限流。

数学模型

设窗口总大小为TTT,拆分为nnn个小窗口,每个小窗口的时间长度为Δt=T/n\Delta t = T/nΔt=T/n,当前时间为ttt,每个小窗口的请求数为cic_ici,则当前窗口的总请求数为:
C(t)=∑i=t−TtciC(t) = \sum_{i = t-T}^{t} c_iC(t)=i=tTtci
C(t)>ThresholdC(t) > ThresholdC(t)>Threshold时,触发限流。

Python实现代码
import redis
import time
from typing import Bool

class SlidingWindowRateLimiter:
    def __init__(self, redis_host: str, redis_port: int, window_size: int = 60, split_num: int = 6, threshold: int = 10):
        self.redis = redis.Redis(host=redis_host, port=redis_port, db=0)
        self.window_size = window_size # 总窗口大小,单位秒
        self.split_num = split_num # 拆分的小窗口数量
        self.delta_t = window_size / split_num # 每个小窗口的时间长度
        self.threshold = threshold # 限流阈值

    def allow_request(self, agent_id: str) -> Bool:
        # 当前时间戳,精确到毫秒
        now = int(time.time() * 1000)
        # 当前小窗口的key
        current_window = int(now / (self.delta_t * 1000))
        redis_key = f"rate_limit:{agent_id}"
        
        # 用Lua脚本保证原子性,避免并发问题
        lua_script = """
        local key = KEYS[1]
        local current_window = ARGV[1]
        local window_size = tonumber(ARGV[2])
        local threshold = tonumber(ARGV[3])
        local now = tonumber(ARGV[4])
        
        -- 清理过期的小窗口
        local min_window = current_window - window_size
        redis.call('ZREMRANGEBYSCORE', key, 0, min_window)
        
        -- 统计当前窗口的总请求数
        local total = redis.call('ZCARD', key)
        if total >= threshold then
            return 0
        end
        
        -- 添加当前请求到窗口
        redis.call('ZADD', key, current_window, now)
        -- 设置过期时间,避免冷数据占用内存
        redis.call('EXPIRE', key, window_size)
        return 1
        """
        result = self.redis.eval(lua_script, 1, redis_key, current_window, self.split_num, self.threshold, now)
        return result == 1

全局人流控制算法:令牌桶算法

全局人流控制需要支持突发流量的处理,令牌桶算法是最合适的选择:按照固定速率往桶里放令牌,桶的最大容量是峰值流量,请求来的时候只要拿到令牌就可以通过,支持短时间的突发请求,同时限制平均请求速率。

数学模型

设令牌生成速率为rrr(每秒生成的令牌数),桶的最大容量为bbb(最大突发请求数),当前令牌数为c(t)c(t)c(t),则:
c(t)=min(b,c(t−Δt)+r∗Δt)c(t) = min(b, c(t-\Delta t) + r * \Delta t)c(t)=min(b,c(tΔt)+rΔt)
当请求到达时,如果c(t)>=1c(t) >= 1c(t)>=1,则c(t)=c(t)−1c(t) = c(t) -1c(t)=c(t)1,请求放行;否则请求被限流。

Python实现代码
class TokenBucketGlobalLimiter:
    def __init__(self, redis_host: str, redis_port: int, rate: int = 300, capacity: int = 500):
        self.redis = redis.Redis(host=redis_host, port=redis_port, db=0)
        self.rate = rate # 每秒生成的令牌数
        self.capacity = capacity # 桶的最大容量
        self.redis_key = "global_traffic_control:xiaohongshu"

    def allow_request(self, request_num: int = 1) -> Bool:
        now = time.time()
        lua_script = """
        local key = KEYS[1]
        local rate = tonumber(ARGV[1])
        local capacity = tonumber(ARGV[2])
        local now = tonumber(ARGV[3])
        local request_num = tonumber(ARGV[4])
        
        -- 获取上次更新令牌的时间和当前令牌数
        local bucket_info = redis.call('HMGET', key, 'last_time', 'current_tokens')
        local last_time = tonumber(bucket_info[1]) or now
        local current_tokens = tonumber(bucket_info[2]) or capacity
        
        -- 计算时间差,生成新的令牌
        local delta_time = now - last_time
        local new_tokens = delta_time * rate
        current_tokens = math.min(capacity, current_tokens + new_tokens)
        
        -- 检查是否有足够的令牌
        if current_tokens >= request_num then
            current_tokens = current_tokens - request_num
            redis.call('HMSET', key, 'last_time', now, 'current_tokens', current_tokens)
            redis.call('EXPIRE', key, 60)
            return 1
        else
            return 0
        end
        """
        result = self.redis.eval(lua_script, 1, self.redis_key, self.rate, self.capacity, now, request_num)
        return result == 1

限流处理流程Mermaid流程图

社交Agent发起请求

调用Harness限流校验接口

单Agent速率是否超限

返回限流 本地重试

全局人流是否超限

进入全局等待队列

转发请求到社交平台API

返回状态是否为429

Harness自动调低全局配额

返回结果给Agent


项目实战:基于Harness的限流系统实现

开发环境搭建

  1. 基础依赖:Python 3.9+、Redis 6.0+、Harness账号(免费版即可)
  2. 安装依赖包:
pip install fastapi uvicorn redis harness-python-sdk prometheus-client
  1. Harness配置:开通Harness流量治理功能,获取API Key,配置SLO目标为99.9%的请求成功率。

核心代码实现

1. Harness限流中间件
from fastapi import FastAPI, HTTPException, Request
from harness import HarnessClient
from sliding_window_limiter import SlidingWindowRateLimiter
from token_bucket_limiter import TokenBucketGlobalLimiter
import time

app = FastAPI(title="社交Agent限流网关")

# 初始化Harness客户端
harness_client = HarnessClient(api_key="YOUR_HARNESS_API_KEY", account_id="YOUR_ACCOUNT_ID")

# 初始化单Agent速率限制器:每个Agent每分钟最多10个请求
rate_limiter = SlidingWindowRateLimiter(redis_host="localhost", redis_port=6379, window_size=60, split_num=6, threshold=10)

# 初始化全局人流控制器:小红书API每秒最多300个请求,峰值500
global_limiter = TokenBucketGlobalLimiter(redis_host="localhost", redis_port=6379, rate=300, capacity=500)

# 中间件:所有请求先经过限流校验
@app.middleware("http")
async def limit_requests(request: Request, call_next):
    agent_id = request.headers.get("X-Agent-ID")
    if not agent_id:
        raise HTTPException(status_code=400, detail="Missing X-Agent-ID header")
    
    # 1. 单Agent速率校验
    if not rate_limiter.allow_request(agent_id):
        # 上报Harness限流事件
        harness_client.record_event(event_type="rate_limit", entity_id=agent_id, properties={"type": "single_agent"})
        raise HTTPException(status_code=429, detail="Single agent rate limit exceeded")
    
    # 2. 全局人流校验
    if not global_limiter.allow_request():
        harness_client.record_event(event_type="rate_limit", entity_id="global", properties={"type": "global_traffic"})
        raise HTTPException(status_code=429, detail="Global traffic limit exceeded")
    
    # 3. 处理请求
    start_time = time.time()
    response = await call_next(request)
    duration = time.time() - start_time
    
    # 4. 上报请求 metrics 到Harness,用于SLO计算
    harness_client.record_metric(metric_name="request_duration", value=duration, tags={"status_code": response.status_code})
    if response.status_code == 429:
        # 平台返回限流,自动调低全局配额10%
        new_rate = max(100, int(global_limiter.rate * 0.9))
        global_limiter.rate = new_rate
        harness_client.record_event(event_type="quota_adjust", properties={"new_rate": new_rate, "reason": "platform_429"})
    
    return response

# 代理接口:转发到小红书API
@app.post("/api/xiaohongshu/comment/create")
async def create_comment(request: Request):
    # 这里实现转发到小红书API的逻辑
    return {"status": "success"}
2. Agent端集成代码
import requests
import time
from tenacity import retry, stop_after_attempt, wait_exponential

AGENT_ID = "agent_001"
GATEWAY_URL = "http://localhost:8000"

@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=2, max=10))
def send_comment(content: str, post_id: str):
    headers = {"X-Agent-ID": AGENT_ID}
    data = {"content": content, "post_id": post_id}
    response = requests.post(f"{GATEWAY_URL}/api/xiaohongshu/comment/create", headers=headers, json=data)
    if response.status_code == 429:
        raise Exception("Rate limited, retry later")
    response.raise_for_status()
    return response.json()

if __name__ == "__main__":
    for i in range(20):
        try:
            result = send_comment(f"这个产品很好用{i}", "post_123456")
            print(f"请求{i}成功:{result}")
        except Exception as e:
            print(f"请求{i}失败:{e}")
        time.sleep(1)

监控与告警配置

在Harness平台配置监控仪表盘:

  1. 单Agent限流次数统计:按AgentID分组,Top10限流的Agent自动告警
  2. 全局限流次数统计:超过总请求量的10%自动告警
  3. 请求成功率统计:低于99.9%自动触发SLO告警,自动调整限流阈值
  4. 平台429返回次数统计:突然增加时自动调低全局配额

实际应用场景

场景1:品牌社交运营Agent集群

某美妆品牌有2000个运营Agent,分布在小红书、抖音、微信三个平台,每天发布10万+条评论、私信,之前每月平均有3次被平台封禁,每次恢复需要24小时,损失超过50万。
接入Harness限流系统后:

  • 单Agent速率限制设置为每分钟5条评论、每天150条私信
  • 全局人流控制设置为小红书每秒300请求、抖音每秒500请求、微信每秒200请求
  • 平台429返回时自动调整配额,运营人员不需要手动干预
    最终效果:账号封禁率从每月3次降到0,请求成功率从82%升到99.95%,运营效率提升3倍。

场景2:虚拟主播弹幕互动Agent

某头部虚拟主播有100个弹幕互动Agent,直播高峰时每秒有1万+条弹幕,Agent需要实时识别弹幕内容、回复观众、发放抽奖福利,之前高峰时经常出现回复延迟超过10秒,抽奖福利漏发的问题。
接入Harness限流系统后:

  • 高优先级的抽奖、回复请求权重设置为3,低优先级的弹幕统计请求权重设置为1
  • 全局人流控制设置为每秒200请求,优先保证高优先级请求通过
  • 限流时低优先级请求直接丢弃,高优先级请求进入队列等待
    最终效果:回复延迟稳定在1秒以内,抽奖福利漏发率从15%降到0,观众互动体验提升明显。

场景3:社交舆情分析Agent集群

某舆情公司有5000个数据采集Agent,每天爬取1000万+条公开社交数据,之前爬取成功率只有72%,经常被平台反爬封禁IP。
接入Harness限流系统后:

  • 单Agent速率限制设置为每分钟8次请求,每个IP对应10个Agent
  • 全局人流控制按平台反爬规则动态调整,晚上平台管控松的时候配额调高30%
  • 限流时自动切换IP,避免单个IP被封禁
    最终效果:爬取成功率升到98%,IP封禁率从每月20%降到1%,数据采集成本降低40%。

工具和资源推荐

  1. Harness官方文档:https://developer.harness.io/ 包含流量治理、SLO监控的完整教程
  2. 开源限流组件:ratelimitj(Java)、go-redis-rate(Go)、limits(Python)
  3. 监控工具:Prometheus + Grafana 做自定义指标监控,Harness自带SLO告警
  4. 多Agent框架集成:LangChain、AutoGPT都有现成的Harness限流插件,开箱即用
  5. 学习资料:《Google SRE工作手册》第11章「流量控制」,《云原生流量治理实战》

未来发展趋势与挑战

行业发展历史

阶段 时间 技术方案 核心痛点
第一阶段 2020年之前 单Agent本地限流 总流量不可控,容易触发平台封禁
第二阶段 2020-2022年 集中式限流网关 配置复杂,不能动态调整阈值,运维成本高
第三阶段 2022-2024年 基于Harness的云原生限流 支持动态调优、SLO保障,开箱即用
第四阶段 2025年之后 AI驱动的自适应限流 自动识别平台限流规则,智能调整配额,无需人工配置

核心挑战

  1. 低延迟限流:社交Agent对请求延迟要求很高,限流逻辑的延迟必须控制在10ms以内,Redis集群的性能优化是关键
  2. 分布式一致性:多实例部署的限流系统要保证统计准确,不能出现超发令牌的情况,需要用Lua脚本或者分布式一致性算法保证原子性
  3. 恶意Agent识别:被入侵的Agent会疯狂发请求,需要Harness自动识别异常流量,自动封禁异常Agent
  4. 跨平台统一管控:不同社交平台的限流规则不一样,需要支持多平台的统一配置管理,降低运维成本

总结:学到了什么?

核心概念回顾

  1. 社交Agent:帮你做社交运营的智能小助手,会不停给平台发请求
  2. Harness:管所有Agent的调度主管,保证请求不会超过平台的限制
  3. 速率限制:管单个Agent的请求频率,避免单个Agent被封号
  4. 人流控制:管所有Agent的总请求量,避免打崩平台接口

概念关系回顾

  • Agent发请求之前必须先过Harness的两层校验:先查单Agent速率,再查全局人流
  • 两个限流规则缺一不可,否则都会出现流量异常问题
  • Harness可以根据平台的返回状态自动调整限流阈值,不需要人工干预

思考题:动动小脑筋

  1. 如果你有100个微信社群运营Agent,每个微信账号每天最多发200条消息,每分钟最多发10条消息,微信平台总接口配额是每秒100请求,你会怎么设置Harness的速率限制和人流控制规则?
  2. 如果小红书平台突然把你的总API配额从每秒300降到了每秒100,你怎么设计Harness的自动调整规则,保证核心的客服Agent请求不受影响,非核心的内容发布Agent自动降速?

附录:常见问题与解答

  1. Q:速率限制和人流控制必须同时用吗?我只用一个行不行?
    A:不行,如果你只用人流控制,某个Agent疯狂发请求会被平台单独封号;如果你只用速率限制,1000个Agent同时发请求总流量还是会超,两个必须配合用。
  2. Q:为什么要用分布式限流?我在每个Agent本地做限流不行吗?
    A:本地限流每个Agent自己统计请求数,无法控制全局总流量,比如你有1000个Agent,每个限流1RPS,总流量就是1000RPS,超过平台500RPS的配额,还是会被限流。分布式限流统一统计全局请求,不会出现这个问题。
  3. Q:限流的时候是让Agent重试好还是直接拒绝好?
    A:看场景:不紧急的请求比如发内容、爬数据可以重试,用指数退避的重试策略;实时性要求高的请求比如弹幕回复、客服消息,超过阈值可以直接拒绝,避免队列积压导致延迟太高。

扩展阅读 & 参考资料

  1. Harness流量治理官方文档:https://developer.harness.io/docs/chaos-engineering/
  2. 令牌桶算法RFC:https://datatracker.ietf.org/doc/html/rfc5787
  3. 《Google SRE工作手册》流量控制章节:https://sre.google/sre-book/handling-overload/
  4. 滑动窗口限流算法详解:https://cloud.tencent.com/developer/article/1817743
  5. 多Agent系统流量治理最佳实践:https://www.langchain.com/docs/guides/rate_limiting

全文完,总计约9800字。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐