过冲:拥塞控制的呼吸与盲行

任何基于反馈的控制系统都逃不过过冲。你踩刹车,车不会立刻停;你转方向盘,车头指向总比手慢一拍。拥塞控制也一样。

过冲不是错误

AIMD(加法增乘法减)之所以叫“加法增”,是因为它每次增加一点点,直到遇到问题再大幅减少。这个“直到遇到问题”的阶段,就是在主动过冲。你不冲过那条线,就永远不知道线在哪里。

过冲是探测代价,不是设计失误。

为什么必须过冲?不过冲会怎样?

先回答问题:过冲不是“正确”或“错误”的道德判断。它是一个信息获取动作。

如果我们选择永远不过冲——即发送速率严格不增加,只停留在当前认为安全的值。那么:

  • 你不会主动探测到闲置带宽,但这并不意味着你不会遇到拥塞。因为网络是动态的:其他流会启动,路由会切换,缓冲区会被人填满。即使你站在原地不动,墙也可能会向你撞来。
  • 你可能会被动地遭遇丢包或延迟增加,被迫降速。但你永远不会知道带宽是否已经变大了。
  • 最终你的速率要么卡在某个历史低点,要么被其他流的拥塞信号拖垮。

所以不过冲的后果不是“永远安全”,而是丧失主动适应能力,同时仍然无法避免被动拥塞。过冲是一种主动选择:用可控的代价去获取信息,而不是被动地等待墙来撞你。

过冲不是因为正确,而是因为没有过冲就没有信息,而信息是控制的燃料

丢包不告诉你原因

丢包只是一个信号:某个队列满了。但它不告诉你为什么满:

  • 可能是真实拥塞
  • 可能是瞬时突发(多个流同时发送)
  • 可能是浅缓冲区(设备缓存小)
  • 可能是 Bufferbloat(队列早已深不见底,你只是压死骆驼的最后一根稻草)
  • 可能是路由切换、ECMP 哈希冲突
  • 可能是网卡或内核的微突发
  • 可能是无线链路的信道错误
  • 甚至可能是乱序导致的伪重传

AIMD 不区分这些。它看到丢包,就把窗口砍半。简单粗暴,但有效——至少在它诞生的年代。

滞后是原罪

你看到的丢包,是几百毫秒甚至更早之前发生的。你做出的降速决定,作用于此刻。等你降完了,拥塞可能已经自行消散。于是你白白降速,浪费带宽。

这就是反馈控制的先天残疾:你永远在打上一场仗。过冲与滞后是一对双生子:滞后迫使你过冲,过冲又加剧滞后。AIMD 的锯齿形吞吐,就是这个正反馈循环的外在表现。

盲人摸墙

过冲的本质,就是盲人摸墙。

你不知道墙在哪。你只能伸出手,往前探。没摸到,就再往前一步。直到手指触到冰冷坚硬的表面——那是墙。你知道了它的位置。

但网络不是一堵静止的墙。

墙在动

你摸到的瞬间,墙可能已经移动了。离你更近,或者更远。

  • 其他流启动了,墙向你推来。
  • 其他流退出了,墙远离你而去。
  • 路由变了,墙瞬间换了位置。
  • 缓冲区被填满了,墙突然变得很近。
  • 噪声让RTT抖了一下,你以为墙在,其实不在。

你永远在摸一个移动的目标。即使你站在原地不动,墙也可能主动撞上来。

小心翼翼的悖论

你想不撞墙,就得慢慢探。步子小,安全,但永远追不上墙移动的速度。

你想追上墙,就得大步跨。步子大,可能直接撞上去,头破血流。

这就是过冲的两难:慢则跟不上变化,快则承担代价。

任何想消除锯齿的算法,本质上都是在尝试预测未来。预测有时成功,有时失败。没有人能总是成功。

没有最优步长

最优步长取决于墙怎么动。但你不知道墙怎么动,它也不告诉你。你能做的,只是选一个你认为“差不多”的步长,然后接受后果。

有的算法步子大,有的步子小。没有谁对谁错,只有谁更适合当下的墙。而当下是什么,你永远无法确知。

所以

过冲不是 bug,是特性。我们无法消除过冲,只能控制过冲的幅度和频率。幅度大,收敛快,但抖动剧烈;幅度小,平稳,但响应迟钝。

没有最优,只有取舍。每一次过冲,都是一次赌博。赌赢了,带宽跑满;赌输了,丢包重传。

没有人能一直赌赢。承认这一点,比发明一个“永不撞墙”的算法更诚实。这就是拥塞控制的底色。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐