彩神vll(中国)-华为重磅推出UCM技术，或降低对HBM依赖

更新时间：2025-10-20 12:52:55 发布人：奥伦德代理商品牌：奥伦德(ORIENT) 浏览量：559

当前，人工智能已经步入成长深水区，AI推理正成为下一个发作式增加的要害阶段，推理体验及推理成本成了权衡模子价值的黄金标尺。

但“推不动”“推患上慢”“推患上贵”（运算成本过高）等成了AI推理历程中碰到的难题。

近日，华为重磅推出了其AI推理立异技能UCM（Unified Cache Manager，推理影象数据治理器）。旨于鞭策AI推理体验进级，晋升推理性价比，加快AI贸易正轮回。

值患上留意的是，据媒体报导，UCM技能有望减缓当前因HBM（高带宽内存）资源欠缺致使的使命阻滞与相应延迟问题，为AI运用提供更流利的体验，从而削减行业对于HBM的过分依靠。

UCM技能以KV Cache为中央，交融了多类型缓存加快算法东西，对于推理历程中孕育发生的KV Cache影象数据举行分级治理，旨于扩展推理上下文窗口，实现高吞吐、低延迟的推理体验，同时降低每一Token的推理成本。

据华为官方先容，UCM技能具有智能分级缓存能力，可按照影象热度于HBM、DRAM、SSD等存储介质中实现按需流动；同时交融多种稀少留意力算法，实现存算深度协同，使长序列场景下TPS（每一秒处置惩罚token数）晋升2-22倍，显著降低每一Token推理成本。

同时，依托UCM层级化自顺应的全局前缀缓存技能，体系能直接挪用KV缓存数据，防止反复计较，使首Token时延最年夜降低90%。同时，UCM将超长序列Cache分层卸载至外置专业存储，经由过程算法立异冲破模子及资源限定，实现推理上下文窗口10倍级扩大，满意长文本处置惩罚需求。

-彩神vll(中国)