万卡集群利用率不足20%,TaaS平台如何破解算力「空转」难题?
当AI产业从模型能力竞争逐步转向规模化应用竞争,围绕“Token推理效率”进行系统性优化成为行业的核心命题。“随着智能体、AI Coding等应用的爆发式增长,Token消耗量呈百倍、千倍级跃升,2026年已成为名副其实的‘Token爆发元年’。AI产业的核心关注焦点,正从模型参数规模、模型可用性全面转向稳定、低成本、高质量交付的Token产能。”郑纬民院士表示。但与此同时,国内算力利用率正深陷结构性困境。首先,资源配比严重失衡,Token生成过度绑定GPU,高端内存、集群SSD、IB互联等昂贵闲置资源利用率不足10%,整机综合利用率不及20%,造成巨额智算成本空耗。软硬协同样存在短
来源: 雷锋网