当前,人工智能已经步入成长深水区,AI推理正成为下一个发作式增加的要害阶段,推理体验及推理成本成了权衡模子价值的黄金标尺。
但“推不动”“推患上慢”“推患上贵”(运算成本过高)等成了AI推理历程中碰到的难题。
近日,华为重磅推出了其AI推理立异技能UCM(Unified Cache Manager,推理影象数据治理器)。旨于鞭策AI推理体验进级,晋升推理性价比,加快AI贸易正轮回。
值患上留意的是,据媒体报导,UCM技能有望减缓当前因HBM(高带宽内存)资源欠缺致使的使命阻滞与相应延迟问题,为AI运用提供更流利的体验,从而削减行业对于HBM的过分依靠。
UCM技能以KV Cache为中央,交融了多类型缓存加快算法东西,对于推理历程中孕育发生的KV Cache影象数据举行分级治理,旨于扩展推理上下文窗口,实现高吞吐、低延迟的推理体验,同时降低每一Token的推理成本。
据华为官方先容,UCM技能具有智能分级缓存能力,可按照影象热度于HBM、DRAM、SSD等存储介质中实现按需流动;同时交融多种稀少留意力算法,实现存算深度协同,使长序列场景下TPS(每一秒处置惩罚token数)晋升2-22倍,显著降低每一Token推理成本。
同时,依托UCM层级化自顺应的全局前缀缓存技能,体系能直接挪用KV缓存数据,防止反复计较,使首Token时延最年夜降低90%。同时,UCM将超长序列Cache分层卸载至外置专业存储,经由过程算法立异冲破模子及资源限定,实现推理上下文窗口10倍级扩大,满意长文本处置惩罚需求。
-彩神vll(中国)