基于全自研的极速分布式存储引擎“WiDE”构建,专为大规模模型推理场景设计。作为 AI 原生的 KV Cache Storage,它通过原生 KV 接口无缝对接 vLLM 等主流推理框架,将分布式 KV Cache 存储层作为 GPU HBM 显存的扩展层,支持 KV Cache 的无限容量扩展与全局共享,为长上下文、高并发推理提供高性能支持。
其核心创新在于原生的 KV 接口、针对 KV 读写 I/O 特征设计的分布式 KV 存储后端,以及灵活的数据卸载架构。在常规模式下,系统通过 RDMA 网络将 HBM 数据经主机内存中转至外部 SSD 存储池;若启用 GPU Direct Storage 技术,则可实现 HBM 直连SSD存储池的零拷贝路径,彻底绕过主机内存瓶颈。两种模式均通过统一接口提供即插即用的存储扩展能力,有效平衡性能与成本。ExponTech WQS以软件定义方式实现 KV Cache 的分布式外扩,助力企业构建高性能、高弹性的模型推理基础设施。

产品价值
以存代算实现 AI 推理十倍加速,更长上下文和更高并发
将 KVCache 从 GPU 显存分层到 DRAM/SSD,显著降低显存占用,支持多会话并发与长上下文推理
大幅提升LLM推理效率,并且降低显存和内存的使用成本
极低时延和极高吞吐的存储底座,推理性能跃升
基于 WiDE 引擎的高性能低时延的 KV 读写性能,保障关键路径的稳定响应us级别,带宽逼近物理网络上限,为推理模型过程中做深度的性能优化,助力模型更加高效地推理能力
超高性能表现,TTFT,TPOT 降低为原来的1/5~1/20, Token吞吐量(Token/s)提升5~20倍
原生 KV 接口和原生 KV Cache 存储层
像管理HBM一样管理外置的分布式 KV 存储空间,提供高性能随机小IO读写,实现更高的KV Cache命中率以及极致的低时延和高带宽
KV接口近乎无限放大HBM的内存空间,全局共享KVCache,Context数据及Agent记忆
弹性容量,全局共享
全局共享的无限可扩展KV空间,长期保存和复用重复提示词和前缀,上下文长度无限(只受限于模型)
广泛的兼容生态
与主流推理框架无缝兼容:vLLM, SGLang, Mooncake, Dynamo等,通过推理框架兼容主流GPU及大模型
构建下一代智能数据基础架构,获取业务增长的新动力。