过冲:拥塞控制的呼吸与盲行
过冲:拥塞控制的呼吸与盲行
任何基于反馈的控制系统都逃不过过冲。你踩刹车,车不会立刻停;你转方向盘,车头指向总比手慢一拍。拥塞控制也一样。
过冲不是错误
AIMD(加法增乘法减)之所以叫“加法增”,是因为它每次增加一点点,直到遇到问题再大幅减少。这个“直到遇到问题”的阶段,就是在主动过冲。你不冲过那条线,就永远不知道线在哪里。
过冲是探测代价,不是设计失误。
为什么必须过冲?不过冲会怎样?
先回答问题:过冲不是“正确”或“错误”的道德判断。它是一个信息获取动作。
如果我们选择永远不过冲——即发送速率严格不增加,只停留在当前认为安全的值。那么:
- 你不会主动探测到闲置带宽,但这并不意味着你不会遇到拥塞。因为网络是动态的:其他流会启动,路由会切换,缓冲区会被人填满。即使你站在原地不动,墙也可能会向你撞来。
- 你可能会被动地遭遇丢包或延迟增加,被迫降速。但你永远不会知道带宽是否已经变大了。
- 最终你的速率要么卡在某个历史低点,要么被其他流的拥塞信号拖垮。
所以不过冲的后果不是“永远安全”,而是丧失主动适应能力,同时仍然无法避免被动拥塞。过冲是一种主动选择:用可控的代价去获取信息,而不是被动地等待墙来撞你。
过冲不是因为正确,而是因为没有过冲就没有信息,而信息是控制的燃料。
丢包不告诉你原因
丢包只是一个信号:某个队列满了。但它不告诉你为什么满:
- 可能是真实拥塞
- 可能是瞬时突发(多个流同时发送)
- 可能是浅缓冲区(设备缓存小)
- 可能是 Bufferbloat(队列早已深不见底,你只是压死骆驼的最后一根稻草)
- 可能是路由切换、ECMP 哈希冲突
- 可能是网卡或内核的微突发
- 可能是无线链路的信道错误
- 甚至可能是乱序导致的伪重传
AIMD 不区分这些。它看到丢包,就把窗口砍半。简单粗暴,但有效——至少在它诞生的年代。
滞后是原罪
你看到的丢包,是几百毫秒甚至更早之前发生的。你做出的降速决定,作用于此刻。等你降完了,拥塞可能已经自行消散。于是你白白降速,浪费带宽。
这就是反馈控制的先天残疾:你永远在打上一场仗。过冲与滞后是一对双生子:滞后迫使你过冲,过冲又加剧滞后。AIMD 的锯齿形吞吐,就是这个正反馈循环的外在表现。
盲人摸墙
过冲的本质,就是盲人摸墙。
你不知道墙在哪。你只能伸出手,往前探。没摸到,就再往前一步。直到手指触到冰冷坚硬的表面——那是墙。你知道了它的位置。
但网络不是一堵静止的墙。
墙在动
你摸到的瞬间,墙可能已经移动了。离你更近,或者更远。
- 其他流启动了,墙向你推来。
- 其他流退出了,墙远离你而去。
- 路由变了,墙瞬间换了位置。
- 缓冲区被填满了,墙突然变得很近。
- 噪声让RTT抖了一下,你以为墙在,其实不在。
你永远在摸一个移动的目标。即使你站在原地不动,墙也可能主动撞上来。
小心翼翼的悖论
你想不撞墙,就得慢慢探。步子小,安全,但永远追不上墙移动的速度。
你想追上墙,就得大步跨。步子大,可能直接撞上去,头破血流。
这就是过冲的两难:慢则跟不上变化,快则承担代价。
任何想消除锯齿的算法,本质上都是在尝试预测未来。预测有时成功,有时失败。没有人能总是成功。
没有最优步长
最优步长取决于墙怎么动。但你不知道墙怎么动,它也不告诉你。你能做的,只是选一个你认为“差不多”的步长,然后接受后果。
有的算法步子大,有的步子小。没有谁对谁错,只有谁更适合当下的墙。而当下是什么,你永远无法确知。
所以
过冲不是 bug,是特性。我们无法消除过冲,只能控制过冲的幅度和频率。幅度大,收敛快,但抖动剧烈;幅度小,平稳,但响应迟钝。
没有最优,只有取舍。每一次过冲,都是一次赌博。赌赢了,带宽跑满;赌输了,丢包重传。
没有人能一直赌赢。承认这一点,比发明一个“永不撞墙”的算法更诚实。这就是拥塞控制的底色。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)