中科曙光发布国产原生无损RDMA高速网络,破解算力网络自主瓶颈

2026-03-13 14:20:11 5 0

这次中科曙光推出的scaleFabric,是咱们国内第一款原生无损RDMA(远程直接内存访问)高速网络,它的技术标准完全对标英伟达NDR,部分关键指标甚至比后者更出色。这款网络是专门为超大规模智能计算集群设计的,从核心的关键IP、交换芯片、网卡,到交换机、驱动程序和管理软件,全都是自主研发的,形成了一套从硬件到软件的完整技术体系,不用依赖国外技术。

中科曙光发布国产原生无损RDMA高速网络,破解算力网络自主瓶颈

中国工程院院士邬贺铨在主题演讲中提到,现在人工智能已经全面普及,算力已经成为核心生产力,而算力之间的竞争,也早就升级成了“计算、网络、存储”协同发展的全生态比拼。不管是大模型的训练,还是智算集群的规模化搭建,对网络都提出了极高的要求——超低延迟、超高带宽,还要全程没有数据丢失。作为算力基础设施里的核心关键技术,高速网络能不能实现自主可控,直接关系到国家算力基建的安全,以及算力产业发展的质量。

如今,超大规模集群服务已经成了人工智能发展的基础支撑,想要训练出全球领先的大模型,万卡级甚至十万卡级的智算集群是必不可少的。有研究显示,在大规模分布式训练过程中,网络通信所花费的时间,已经占到了总耗时的30%到50%,也就是说,网络性能好不好,直接影响着整个算力系统的工作效率。中科曙光高级副总裁李斌打了个比方,从以前的边缘计算,到现在的人工智能大模型训练,对网络通信速度的要求越来越高、越来越严格。对于中小规模的算力系统来说,计算能力比网络稍微重要一点,但要是到了大规模算力系统,网络的重要性就得排第一。“计算能力决定了算力系统能达到的最高性能,而网络则决定了它能发挥出的最低水平,要是网络不给力,整个算力系统的性能可能会直接归零。”

据《环球时报》记者了解,在大规模智算集群领域,RDMA网络因为有着零丢包、高带宽、低延迟的特点,能大幅提升数据通信的效率,现在已经成了算力中心的基本需求,没有它,大规模智算集群很难正常高效运行。

邬贺铨还表示,在大模型训练和智算集群规模化部署的大背景下,网络必须同时具备超低延迟、超高带宽和无损传输这三个能力,而RDMA高速网络,就相当于智算集群的“算力大动脉”,负责数据的快速、稳定传输。其中,InfiniBand网络架构因为延迟低、能实现原生无损传输,在全球顶级的超级计算机和AI集群中被广泛使用。根据TOP500榜单的数据,目前全球大约60%的高性能计算系统,用的都是这种网络架构。

邬贺铨特别强调,目前高端高速网络市场一直被国外技术垄断,这已经成了我国算力产业自主发展的主要障碍之一。中国信通院云计算与数字化研究所云计算部副主任郑立介绍,现在超大规模智算集群已经成了全球人工智能竞争的焦点,但当前智算网络普遍面临着资源不互通、延迟过高、计算与网络协同困难等问题,而且传统的RDMA实现方式,要么生态封闭、难以兼容,要么性能有短板,这些问题都在推动行业朝着融合发展和自主研发的方向前进。

李斌透露,在实际应用方面,scaleFabric目前已经部署在了国家超算互联网郑州核心节点,支撑着三套万卡级scaleX智算集群顺利上线运行。随着scaleFabric的正式发布,国产原生RDMA技术也在慢慢走向成熟,围绕这款网络形成的高性能网络产业生态,也在加速发展、逐步完善。

相关推荐

亲伊朗黑客组织突袭美医疗科技巨头,数据被删、运营瘫痪
美国国防部长宣称对伊朗军事打击“才刚开始”,伊总统强硬回应
统一了!阿里大模型 未来都叫“千问”
“海洋石油696”:全球领先的海上压裂巨轮
中东航班逐步复飞,滞留同胞陆续平安回国,外交部紧急提醒
雷军建议:人工智能时代,或可实现每周工作3天、每天2小时

发布评论