成本下探30%,中科曙光IB产品冲击RoCE性价比「护城河」
智算集群的建设瓶颈,正在经历转移。过去两年,行业还聚焦在算力规模上,仿佛谁拿到了更多GPU,谁就掌握了AI竞争的入场券。但当万卡集群逐渐落地,一个更隐蔽的瓶颈浮出水面:网络。中科曙光高级副总裁李斌算了这样一笔账:“原来以CPU为中心的计算单元,双路的计算节点插一张网卡就够了;现在以GPU为中心的计算节点,一台机器要配八张甚至更多的网卡。”由此算下来,如今网络的用量相比以往的数据中心,提高了十到二十倍。数量膨胀背后,智算集群也对网络性能提出更苛刻的要求:万卡集群的训练,需要网络时延在纳秒级内,且传输精度做到无损。而现实是,无论选择英伟达主导的IB(InfiniBand)路线,还是运维复杂的RoCE路线,国内用户都一定程度上“受制于人”。<img src="https://static.leiphone.com/uploads/new/image
来源: 雷锋网