创新成果 - 拥塞感知的广域RDMA传输控制技术研究

传输架构

创新成果一：拥塞感知的传输控制增强框架

随着算力设备数量的快速扩展和实时数据处理需求的增长，远程直接内存访问RDMA技术因其高性能和低CPU占用率，在边缘数据中心中变得越来越重要。为充分发挥RDMA潜力，通常需要通过逐跳优先级流控制PFC来实现无损底层网络。然而，现有边缘数据中心的RDMA拥塞控制机制难以实现快速速率收敛，可能会加剧PFC的副作用，如队头阻塞、不公平性甚至死锁。本项目提出了一种基于强化学习的RDMA拥塞控制增强框架RDI。该框架通过利用接收端信息和网络拥塞级别，为拥塞流提供精确的速率指导，从而缓解拥塞并减轻PFC问题。RDI结合在线学习和离线学习，辅助接收端信息实现更精细的速率调整，以动态适应不断变化的网络工作负载下的拥塞程度并优化拥塞控制性能。RDI具有透明性，与现有RDMA网络架构兼容，无需修改网络设备。在实际流量模式下的大量仿真实验表明，经RDI增强的拥塞控制方案在吞吐量和流完成时间方面显著优于原始机制，同时减少了PFC副作用。RDI增强的拥塞控制将99分位尾部流完成时间降低高达92%，平均流完成时间降低高达60%。

创新成果二：基于流块粒度的流量控制方法

选择合适的细粒度的网络流量控制单元对于低熵流量的LLM训练数据中心网络至关重要。通过深入的实验研究，项目组发现基于传统flowlet的多路径传输流控方案在面对LLM流量时，难以在流片段超时设置与数据包乱序问题之间实现最优平衡。为此，项目组提出应用层与网络层跨层协同设计的流量控制与负载均衡方案CoLB。该方案采用基于模型参数大小的"流块"而非基于超时值的flowlet作为LLM流量的基本控制单元，其中流块规模可自适应于应用负载层生成的集体通信模式。此外，CoLB能感知底层RDMA网络中受PFC机制影响的链路利用率，从而更精准地把控链路拥塞状态。在NS-3仿真器中基于LLM的集体通信流量和实际工作负载对CoLB进行了评估。实验结果表明：相较于现有交换机负载均衡方案，CoLB展现出显著优势。例如，在99百分位流完成时间延迟指标上，CoLB较LetFLow最高可降低79.88%，较Conweave最高可降低38.83%。

拥塞检测

创新成果三：相位感知的网络性能异常检测方法

随着现代网络系统与分布式计算平台规模的不断扩大，越来越多关键应用呈现出显著的相位化运行特征。例如，在大模型训练网络、分布式并行计算框架、高性能批处理系统以及异步–同步混合调度环境中，系统在运行过程中会周期性地切换于不同的通信或计算阶段，而各阶段对应的网络负载模式与性能特征存在显著差异。大模型训练网络是典型的相位化系统，在相位化运行环境下，对关键网络性能指标进行准确的异常检测，对于保障系统稳定性和提升资源利用效率具有重要意义。为应对相位化网络环境中存在的阶段性分布差异、多模态流量结构以及多指标耦合等问题，项目组提出一种相位感知的Anomaly Transformer异常检测方案。该方法以通信相位为核心建模维度，将相位信息引入数据预处理、特征学习与异常判定的全过程，从而构建面向复杂动态网络环境的统一异常检测框架。该方法首先对原始多维网络指标序列进行预处理，并结合网络运行特征识别各时间点所属的通信相位。在此基础上，通过相位感知标准化方法对不同相位的数据进行独立归一化处理，以消除跨相位分布差异的影响。随后，将处理后的时序数据划分为滑动窗口序列，并输入基于Anomaly Transformer的时序建模模块，学习多指标之间的关联结构与时序依赖关系。在异常检测阶段，通过设计指标级解耦机制，对各指标分别计算异常分数，并结合相位化阈值建模方法，实现针对不同相位与不同指标的自适应异常判定，最终输出指标级与相位级的异常检测结果。

创新成果四：训练效率感知的流量测量与分析技术

大规模训练集群规模已扩展至数千乃至数万GPU量级，GPU间的通信开销随模型规模的增大而显著上升。当前的分布式训练策略采用混合并行，这些并行策略在时序上高度交织，共同决定了分布式训练的通信效率。然而，在实际部署中，训练集群频繁出现通信性能下降，导致训练效率周期性降低。这些问题的根源可能来自多个层面：RDMA网络拥塞、PCIe链路瓶颈、GPU硬件异常、集合通信调度失配等多个层面，且通信瓶颈与硬件故障在表面现象上往往高度相似，仅凭单一层面的指标难以区分。针对上述不足，项目组对一个大规模训练集群的GPU和RDMA网卡性能进行了全面的测量研究，分析了轨道式网络拓扑与训练迭代中的流量模式。通过深入测量，选取GPU算法带宽作为训练效率的关键观测指标，该指标直接度量集合通信的实际效率，能够综合反映全链路性能。基于对GPU算法带宽的分析，揭示了GPU算法带宽抖动这一现象，并进一步发现训练集群面临多种影响性能的通信瓶颈类型。在此基础上，项目组提出跨层流量特征采集与关联分析框架TFD。该框架以 GPU 算法带宽为核心观测基准，融合 GPU 传输带宽、RDMA 网卡带宽、延迟与拥塞信号等多维性能数据，实现对训练集群通信流量的持续采集与跨层关联分析。该框架还提供可选的链路瓶颈主动探测模块，可在特定场景下进一步提升网络侧分析能力。依托该框架在生产集群的长期运行与数据积累，识别出5类通信瓶颈并区分出14种表现相似的集群故障干扰因素。

创新成果五：FPGA加速的带内网络遥测乱序重排

带内网络遥测作为一种新型网络测量技术，是实现数据包路径级网络状态检测与跟踪的有效手段，然后，在多路径传输场景下，带内网络遥测面临严重的乱序问题，即先发后至，这对基于带内网络遥测的拥塞检测与判断产生乱序影响。项目组提出基于FPGA的带内网络遥测乱序重排架构O2R，用于解决带内网络遥测（INT）报告乱序导致网络测量准确性和应用效率下降的问题。针对现有FPGA重排序解决方案仅能支持在线或离线单一处理，无法同时满足实时响应和大规模数据处理并发需求的局限性，O2R实现了在单个FPGA上同时支持在线与离线重排序。该框架的核心创新在于能够根据在线/离线的实时处理需求以及多维度的乱序指标，动态调整硬件比较器资源的分配。通过引入自适应权重调整、资源分配控制和比例微调等机制，O2R不仅优化了整体性能，还能有效防止长期运行中的性能漂移。实验结果表明，该框架显著增强了基于INT的遥测系统效能，与基准方案相比，O2R将在线重排序延迟降低了11.1%至20.5%，同时将局部排序质量提升了53.5%至73.6%，提升了网络测量系统的响应能力与精确度。

创新成果六：基于经验感知能力的故障诊断 LLM

针对智算集群架构复杂导致故障诊断困难，以及现有云端大型语言模型在运维场景中面临领域数据稀缺和隐私泄露风险等问题，项目组提出支持完全本地化部署的经验感知大型语言模型框架 MetaKube。该框架整合了多项核心机制：利用情景模式记忆网络（EPMN）从历史故障记录中提取并复用诊断模式以积累经验；通过元认知控制器根据问题复杂度在直觉响应与深度分析两种诊断路径间进行动态路由；并以 Kubernetes 集群为例，基于作者构建的包含约 7000 个样本的专属 Kubernetes 故障解决数据集（KFRD），对 Qwen3-8B 进行了后训练，开发出核心模型 KubeLLM，同时辅以 KubeGraph 组件提供因果推理支持。基于 1873 个真实故障场景的实验评估表明，MetaKube 将基础模型的诊断得分从 50.9 分提升至 90.5 分，在通过本地部署确保企业运维数据隐私的前提下，展现出了接近部分大规模闭源云端模型（如 GPT-4.1）的诊断能力。

拥塞控制

创新成果七：基于时延的跨数据中心流量拥塞公平控制

跨数据中心环境中部署RDMA给拥塞控制带来了独特的挑战。典型的基于延迟的拥塞控制算法（如TIMELY和Swift）依赖精确的往返时延RTT进行拥塞检测和控制。但是由于地理限制，跨数据中心流表现出毫秒级的RTT，而数据中心内流保持微秒级的RTT。通过深入的实验，项目组观察到以下关键现象：首先，Inter-DC流的性能优于Intra-DC流，当发生拥塞时，inter-DC流通常在毫秒级RTT反馈到达之前就完成了传输，而intra-DC流则会响应微秒级的反馈迅速降低速率或窗口大小；其次，Inter-DC长流遭受严重的尾部FCT恶化，基于延迟的CC算法将广域网的高延迟误认为是严重的拥塞，从而触发激进的速率/窗口坍缩。这两个问题都源于控制环路不匹配，即intra-DC流在微秒级时间尺度上适应，而inter-DC流在毫秒级时间尺度上运行。为了克服这些问题，项目组提出适用于基于延迟的RDMA拥塞控制的轻量级透明增强算法Reflex。它主要包含两个组件：1）近源端反馈（NSF）模块，位于源数据中心的外部交换机（ESW）上。NSF基于三态流状态机有选择地生成伪ACK，为发送端提供近端RTT反馈。这种机制有效地将控制环路与广域网解耦；2）近目的端限流（NDT）模块，位于目的数据中心的ESW上。NDT根据源自目的端近端延迟的状态表，将inter-DC流隔离到普通队列或受控队列中。为了有效限制拥塞流，NDT实现了自适应加权轮询调度、乱序预防以及流暂停机制。在仿真实验中评估了Reflex，结果显示其大幅改善了整体FCT性能，并显著降低了inter-DC长流的尾部延迟。

创新成果八：面向长短距混合流量的多路径传输方法

在短距RDMA和长距RDMA流量共存场景下，智算中心内的短距RDMA流量一种主流方案是采用逐包散列的多路径传输方法提高网络带宽资源利用率。然而，跨智算中心的长距RDMA流量仍采用默认的ECMP逐流散列的方式。然而，当逐包散列与逐流散列共存的混合流量环境中，逐流散列中的大流流量仍会引发路径拥塞，而逐包散列流量对拥塞极为敏感，易因碰撞引发大面积性能退化；同时，现有网络内重排序机制等方案依赖复杂网络信令与缓存管理，且难以在快速路径切换时有效避免乱序，导致接收端丢包重传与吞吐量下降，影响流完成时间。为此，项目组提出一种面向混合流量的端侧多路径传输方法，针对短距RDMA流量，发送端通过拥塞监测模块判断第一路径是否发生拥塞；在第一路径发生拥塞的情况下，通过选择性重传模块，从包含多条路径的候选路径集合中，确定出第二路径，并计算第二路径与第一路径的往返时间差值；通过计算每个在途数据包的已飞行时间，并将已飞行时间与往返时间差值进行比较；将第一路径上，已飞行时间小于往返时间差值的在途数据包确定为重传数据包，使用第二路径将每个重传数据包重新传输至接收端。该方法能够在混合流量环境中有效避免路径质量差异导致的数据包乱序问题，避免接收方将乱序识别为丢包导致的性能损失问题。

创新成果九：基于优先级的大模型流量传输控制算法

大语言模型LLM训练高度依赖分布式加速器之间的高效通信协调。现有方法聚焦于独立优化特定并行策略，缺乏跨不同通信模式的系统化优先级分配，导致训练性能次优。项目组提出混合并行优先级分配框架HyPA。HyPA采用离线代理建模实现闭式优先级优化，结合在线参数感知进行动态环境适应，在无需修改网络基础设施的前提下实现自适应带宽分配和拥塞控制。通过对混合并行LLM训练中通信瓶颈的深入分析，识别了跨服务器带宽竞争、服务器内计算资源竞争以及接收端incast拥塞等关键问题。HyPA通过策略映射器提取训练配置、优先级计算器推导最优优先级公式，以及在线拥塞控制系统提供自适应速率指导，实现了对所有并行维度的通信调度优化。在实际训练工作负载下的全面评估表明，HyPA在密集和稀疏LLM模型上均取得显著改进。微基准测试中作业完成时间JCT降低最高达18.59%，大规模训练部署中降低最高达16%。

创新成果十：基于网卡的确定性多路径负载均衡机制

项目组提出新型确定性负载均衡机制PRO，专门旨在解决传统网络在处理大型语言模型（LLM）训练工作负载时，因流量高度同步和数据包大小统一而引发的网络拥塞与负载不均问题。与依赖交换机进行随机或自适应路径选择的传统方法不同，PRO的核心突破在于将其部署在RDMA网卡上，通过精确编排QP内部和QP之间的流量，利用确定性的轮询顺序进行流量调度，从而在交换机的上下行链路上实现完美的队列分布平衡。为了保证该机制在复杂真实网络中的高效性与鲁棒性，PRO系统还创新性地引入了带有动态乱序窗口的快速重传机制，以迅速响应链路故障并避免全局退避重传，同时支持乱序数据包绕过重组逻辑直接放置到应用程序内存中，极大地降低了网卡缓存压力并显著提升了端到端的数据吞吐量。基于Intel FPGA网卡开发的硬件原型，以及在真实32-GPU测试平台和大规模网络仿真环境中的详尽评估结果表明，相比于目前业界最先进的负载均衡方案（如DRILL、ConWeave及自适应路由），PRO不仅实现了最优的全局网络链路与队列均衡，还在真实的测试床中将任务完成时间（JCT）的减速降低了30%至48%，在大规模仿真环境中JCT降幅达83.6%，为大规模的LLM模型训练提供了高效底层网络架构支撑。

应用示范

创新成果十一：面向跨数据中心模型训练的语义感知丢包恢复

跨数据中心训练流量两种主要的通信模式是数据并行（DP）和流水线并行（PP），其数据流量表现出显著不同的丢包敏感性。对于 DP流量，梯度的重要性呈现不均匀的特征：丢失大数值梯度的危害远大于丢失小数值梯度，先前的工作表明，小梯度能够容忍比大梯度高得多的丢包率。对于 PP流量，激活值数据包通常对丢包更加敏感，因为它直接影响后续计算，但即使在 PP 流量内部，所需的丢包保护也依赖于流水线的深度：在较早的流水线边界引入的扰动比在较晚边界引入的扰动更具破坏性。这些观察表明，统一的包级别保护对于跨数据中心训练来说是浪费的。基于上述观察，项目组提出针对跨数据中心 AI 训练的特定领域丢包恢复方案TLR。TLR 使用轻量级的应用标签来区分 DP 梯度和 PP 激活值，并暴露出用于优先级划分所需的最小上下文。然后，根据训练语义实现差异化保护。对于 DP流量，TLR 识别高优先级的梯度包，并仅对它们使用 FEC 进行保护，而低优先级的包可能不经恢复直接交付，并通过感知容忍度的路径进行处理。对于 PP流量，TLR 保护所有激活包，但为较早层的流量分配更强的冗余，为较晚层的流量分配较弱的冗余。为了防止可容忍的 DP 丢包使得优化产生偏差，TLR 进一步引入了误差补偿机制，该机制将未恢复的低优先级丢包反馈回来，并将残差重新注入到后续传输中。通过NS-3 评估了 TLR，基于 Qwen3-3B 工作负载的跨数据中心 PP 和 DP 流量，在所有流量模式和所有测试的错误率下，相对于仅重传的恢复和统一的 FEC，TLR 持续降低了平均和 P99 流完成时间。进一步通过在 WikiText-2 上进行的 LSTM 训练表明，即使容忍了低优先级的梯度丢包，TLR 的误差补偿机制也能使收敛保持在接近无丢包基线的水平。

创新成果十二：面向推理场景的通信库瓶颈定位和加速

跨域推理近年来逐渐成为重要的跨域传输场景。在跨域推理中，推理的预填充阶段和解码两个阶段分散在不同的数据中心执行。大语言模型依赖混合专家（MoE）架构来高效扩展计算能力。专家并行（EP）将专家模型分布在多个图形处理器（GPU）上，在数据分发与聚合阶段会引入预填充阶段的ALLtoALL通信开销。现有通信库如DeepEP存在图形处理器流多处理器占用率过高、互联带宽利用率不足的问题，制约了预填充阶段的性能。项目发现了推理预填充阶段性能不佳的两大根本原因：冗余的缓冲区拷贝，以及基于NVLink的服务器内部传输效率低下。针对上述问题，项目组提出专为混合专家模型预填充场景设计的通信库SwiftEP，该库融合了缓冲区融合技术与张量内存加速器（TMA）卸载机制。缓冲区融合技术可消除冗余的临时拷贝，实现真正的零拷贝通信；而张量内存加速器卸载则能最大化 NVLink 利用率，并支持高效的多播/归约操作。此外，SwiftEP 还集成了远程直接内存访问（RDMA）分散-集中列表、队列对传输并行化以及统一计算设备架构（CUDA）进程间通信技术，以应对动态词元排布与 GPU 间内存访问需求。在 16 卡和 32 卡 GPU 集群上的评估结果表明，相较于 DeepEP，SwiftEP 的算法带宽最高提升 119.7%，流多处理器占用率最多降低 66.7%，请求服务能力提升 21.2%。