openFuyao v26.03版本发布

Release-management Maintainer

2026-04-03

2026年4月3日

openFuyao社区致力于构建面向多样化算力集群的开放软件生态，专注于推动云原生与AI原生技术的高效协同，促进算力的极致释放。

社区发行版v26.03发布了诸多新特性，并对若干存量特性进行优化，以下介绍具体的特性新增与变动。

InferNex：AI推理能力全面升级

SIG-ai-inference InferNex在v26.03推出首个完整包含智能路由、弹性伸缩与决策系统、可观测、分布式KVCache管理以及端到端一键式部署能力的方案，平均首token时延降低30%，端到端时延降低10%。具体性能数据详见表1：

表1 InferNex性能表现

路由策略	集群场景	E2EL收益（avg）	TTFT收益（avg）
aggregate KVCache aware	同机集群	9.15%	37.35%
PD KVCache aware	同机集群	22.08%	27.73%
PD KVCache aware	跨机集群	17.31%	22.03%

Elastic Scaler：完整具备分布式推理作业弹性伸缩资源管理和决策能力，开放决策算法接入并内置潮汐算法、支持指标&事件驱动、from/to 0弹性伸缩能力；特别地，支持成组和组内资源根据用户定义策略伸缩，以解决分布式推理PD分离场景，按PD组、固定配比PD优雅伸缩的诉求。
Hermes-router ：解决KVCache aware、分桶策略的兼容性问题、同时将状态感知粒度从服务级进一步细化至Pod级，提升路由策略的性能表现。
分布式KVCache：提供分布式KVCache池化存储与跨实例的KVCache高速传输，提升缓存复用效率；构建热点缓存能力，实现固定内存总量占用下推理性能提升。相关特性与架构优化已合入上游Mooncake社区。
Eagle-eye：构建面向AI推理场景的系统性可观测体系，新增A2/A3代际主机侧&卡侧RDMA、主机侧PCIe带宽等网络静态指标、过载降频等部分设备亚健康指标。
推理后端：支持基于vLLM/vLLM-Ascend的云原生场景推理引擎一键部署。

更多信息，欢迎加入SIG-ai-inference社区讨论！

SIG-installation在v26.03版本进行重大架构升级，实现多项优化：

基于Kubernetes原生DRA架构完成昇腾NPU设备深度适配：

使能业务使用URMA设备进行通信，降低通信时延，提升业务性能。

内存借用：基于UB内存池化机制，裸机容器场景节点或numa的内存使用率达到预设定的值，触发内存借用，将一部分内存压力分担到借过来的内存上，适用于单节点部署大量Pod或容器的场景，通过内存超分和借用机制，提升节点内存利用率，降低硬件成本。
内存共享：支持通过内存池化能力将内存块在UBS Server集群内导入导出，实现在裸机上跨节点以及多进程间的内存共享，同时通过目录隔离和代理层保障资源的安全性与QoS，适用于需要跨节点共享大内存数据集的场景（如内存数据库、大数据分析）下避免数据复制，提升处理效率。

基于鲲鹏TEE技术，通过K8s+containerd+Kata+QEMU+KVM+CoCo的整套软件栈进行构建，实现机密容器部署，提供了类似传统虚拟机的强隔离，避免不同容器之间的安全问题。

本文由openFuyao社区首发，欢迎遵照CC-BY-SA 4.0协议规定转载。