中科曙光发布国产原生无损RDMA高速网络，破解算力网络自主瓶颈

这次中科曙光推出的scaleFabric，是咱们国内第一款原生无损RDMA（远程直接内存访问）高速网络，它的技术标准完全对标英伟达NDR，部分关键指标甚至比后者更出色。这款网络是专门为超大规模智能计算集群设计的，从核心的关键IP、交换芯片、网卡，到交换机、驱动程序和管理软件，全都是自主研发的，形成了一套从硬件到软件的完整技术体系，不用依赖国外技术。

中国工程院院士邬贺铨在主题演讲中提到，现在人工智能已经全面普及，算力已经成为核心生产力，而算力之间的竞争，也早就升级成了“计算、网络、存储”协同发展的全生态比拼。不管是大模型的训练，还是智算集群的规模化搭建，对网络都提出了极高的要求——超低延迟、超高带宽，还要全程没有数据丢失。作为算力基础设施里的核心关键技术，高速网络能不能实现自主可控，直接关系到国家算力基建的安全，以及算力产业发展的质量。

如今，超大规模集群服务已经成了人工智能发展的基础支撑，想要训练出全球领先的大模型，万卡级甚至十万卡级的智算集群是必不可少的。有研究显示，在大规模分布式训练过程中，网络通信所花费的时间，已经占到了总耗时的30%到50%，也就是说，网络性能好不好，直接影响着整个算力系统的工作效率。中科曙光高级副总裁李斌打了个比方，从以前的边缘计算，到现在的人工智能大模型训练，对网络通信速度的要求越来越高、越来越严格。对于中小规模的算力系统来说，计算能力比网络稍微重要一点，但要是到了大规模算力系统，网络的重要性就得排第一。“计算能力决定了算力系统能达到的最高性能，而网络则决定了它能发挥出的最低水平，要是网络不给力，整个算力系统的性能可能会直接归零。”

据《环球时报》记者了解，在大规模智算集群领域，RDMA网络因为有着零丢包、高带宽、低延迟的特点，能大幅提升数据通信的效率，现在已经成了算力中心的基本需求，没有它，大规模智算集群很难正常高效运行。

邬贺铨还表示，在大模型训练和智算集群规模化部署的大背景下，网络必须同时具备超低延迟、超高带宽和无损传输这三个能力，而RDMA高速网络，就相当于智算集群的“算力大动脉”，负责数据的快速、稳定传输。其中，InfiniBand网络架构因为延迟低、能实现原生无损传输，在全球顶级的超级计算机和AI集群中被广泛使用。根据TOP500榜单的数据，目前全球大约60%的高性能计算系统，用的都是这种网络架构。

邬贺铨特别强调，目前高端高速网络市场一直被国外技术垄断，这已经成了我国算力产业自主发展的主要障碍之一。中国信通院云计算与数字化研究所云计算部副主任郑立介绍，现在超大规模智算集群已经成了全球人工智能竞争的焦点，但当前智算网络普遍面临着资源不互通、延迟过高、计算与网络协同困难等问题，而且传统的RDMA实现方式，要么生态封闭、难以兼容，要么性能有短板，这些问题都在推动行业朝着融合发展和自主研发的方向前进。

李斌透露，在实际应用方面，scaleFabric目前已经部署在了国家超算互联网郑州核心节点，支撑着三套万卡级scaleX智算集群顺利上线运行。随着scaleFabric的正式发布，国产原生RDMA技术也在慢慢走向成熟，围绕这款网络形成的高性能网络产业生态，也在加速发展、逐步完善。