华为云发布ems弹性内存存储服务 打破大模型训练瓶颈-爱游戏官网

互联网
2024
06/21
18:54
分享
评论

在华为开发者大会(hdc 2024)上,华为云cto张宇昕正式发布了ems弹性内存存储服务。这一服务主要为了解决当前大模型训练与推理领域所面临的“内存墙”挑战,即单个神经处理单元(npu)的高带宽内存(hbm)容量限制,该问题长期制约着ai算力的高效利用。

华为云ems的创新之处在于它在npu卡与持久化存储之间增设了一层弹性内存存储,运用memory pooling专利技术,综合显存扩展、算力卸载和以存代算三大策略,有效打破了内存瓶颈。具体来说:

显存扩展:大模型推理中,由于模型太大,通常需要使用大量的npu卡才能将模型参数装下来进行推理,但是npu的算力往往利用率不高。ems将模型参数分层存储在显存和ems,只用了一半的卡,就可存下万亿参数的大模型,npu部署数量减少50%。

算力卸载:大模型推理过程中包括模型计算和kv相关计算,其中kv相关计算的显存占用很大。ems将kv相关计算的步骤卸载到ems,而模型计算仍在npu中进行,将ai推理性能提升了100%。

以存代算:大模型推理中为了节省显存,历史对话的kv cache都不会保存,后续推理都只能重新计算,导致新推理的首token时延超过1秒。现在可以将历史kv cache保存在ems里,供后续推理直接调用。优化后推理首token时延降低到0.2秒以内,优化了80%。

目前,ems弹性内存存储服务已在华为云爱游戏官网上线,面向开发者与客户开放。

the end
广告、内容合作请点击这里
免责声明:本文系转载,爱游戏ayx官网的版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

最新文章

相关推荐

网站地图