openFuyao v26.03版本发布

博客openFuyao v26.03版本发布

openFuyao v26.03版本发布

Release-management Maintainer

2026-04-03

2026年4月3日

openFuyao社区致力于构建面向多样化算力集群的开放软件生态，专注于推动云原生与AI原生技术的高效协同，促进算力的极致释放。

社区发行版v26.03发布了诸多新特性，并对若干存量特性进行优化，以下介绍具体的特性新增与变动。

InferNex：AI推理能力全面升级

SIG-ai-inference InferNex在v26.03推出首个完整包含智能路由、弹性伸缩与决策系统、可观测、分布式KVCache管理以及端到端一键式部署能力的方案，平均首token时延降低30%，端到端时延降低10%。具体性能数据详见表1：

表1 InferNex性能表现

路由策略	集群场景	E2EL收益（avg）	TTFT收益（avg）
aggregate KVCache aware	同机集群	9.15%	37.35%
PD KVCache aware	同机集群	22.08%	27.73%
PD KVCache aware	跨机集群	17.31%	22.03%

v26.03版本中InferNex各配套组件的验证组合见表2：

表2 InferNex配套组件版本

组件	版本	是否验证	备注
推理引擎（vllm-ascend）	v0.14.0rc1	是
推理引擎（vllm-ascend）	v0.13.0	是	默认版本提供
推理引擎（vllm-ascend）	v0.11.0	是	需修改使用 MooncakeStoreConnector 以配置 Mooncake Store 能力
开源网关（Istio）	1.28.0	是
智能路由（Hermes-router）	0.21.0	是
cache-indexer	0.21.1	是
PD-Orchestrator	0.21.1	是
PD-Orchestrator	0.21.0	是
PD-Orchestrator	0.20.0	是
eagle-eye	0.22.0	是
eagle-eye	0.21.0	是
推理芯片	910B4	是
推理芯片	910B3	是
Kubernetes	1.34.0	是
Kubernetes	1.33.0	是

Elastic Scaler：完整具备分布式推理作业弹性伸缩资源管理和决策能力，开放决策算法接入并内置潮汐算法、支持指标&事件驱动、from/to 0弹性伸缩能力；特别地，支持成组和组内资源根据用户定义策略伸缩，以解决分布式推理PD分离场景，按PD组、固定配比PD优雅伸缩的诉求。
Hermes-router ：解决KVCache aware、分桶策略的兼容性问题、同时将状态感知粒度从服务级进一步细化至Pod级，提升路由策略的性能表现。
分布式KVCache：提供分布式KVCache池化存储与跨实例的KVCache高速传输，提升缓存复用效率；构建热点缓存能力，实现固定内存总量占用下推理性能提升。相关特性与架构优化已合入上游Mooncake社区。
Eagle-eye：构建面向AI推理场景的系统性可观测体系，新增A2/A3代际主机侧&卡侧RDMA、主机侧PCIe带宽等网络静态指标、过载降频等部分设备亚健康指标。
推理后端：支持基于vLLM/vLLM-Ascend的云原生场景推理引擎一键部署。

安装部署：多维度能力增强

SIG-installation在v26.03版本进行多维度能力增强，具体增强能力如下：

引导节点镜像取自自身registry：引导节点初始化所需核心镜像从本地registry直接加载，而非远程仓库拉取，可消除网络延迟和远端仓库不可用导致安装失败风险，提升成功率，缩短安装时间。
管理集群和业务集群新增健康检查接口：为关键组件提供标准化健康检查接口，统一各组件健康检查的协议和端口，消除探针协议不一致带来的对接复杂度，方便对接监控系统，提升集群运维自动化水平。
安装部署组件支持从多制品仓库拉取镜像：支持从多个镜像仓库拉取镜像，实现社区自编译镜像与第三方镜像存储分离，解决了镜像来源单一问题，满足企业级多镜像源需求。
BKECluster CR拆分：将节点信息拆分为独立BKENode CRD，实现节点扩缩容无需暂停集群调谐，并解决大集群场景下单个BKECluster资源过大导致调谐性能下降的问题，提升管理效率。
addons支持部署chart形态插件：可在BKECluster CR中配置chartRepo与chart插件，在部署集群时可自动从chartRepo拉取并安装chart包，解决了部署chart包时需先手动转换为yaml再做适配的繁琐操作。
支持创建节点前后置操作：提供统一脚本执行框架，通过ConfigMap管理脚本内容，可在创建集群的前置/后置阶段执行用户自定义Shell脚本，有效降低集群部署时需要执行定制化操作成本。

NPU DRA插件

sig-orchestration-engine NPU DRA插件基于Kubernetes原生DRA机制，实现昇腾NPU设备的统一纳管、调度与生命周期管理。关键能力如下：

设备自动发现：自动发现昇腾NPU设备，采集设备ID、内存、网络拓扑等硬件信息，精准感知底层资源分布，无需手动配置设备信息。
精细化资源调度：使用K8s原生的资源声明方式，基于CEL表达式精细化筛选资源，支持按芯片ID、节点、拓扑分组等维度灵活分配业务所需NPU资源。
极简运维和部署：插件化安装，无需改造现有K8s集群，可快速落地。基于DRA框架和CDI规范，无需维护复杂的自定义调度器和设备挂载代码。

适配环境如下：

硬件：昇腾910B系列芯片
集群：原生K8s集群（v1.34及以上）

UB容器网络设备插件

sig-orchestration-engine ub-network-device-plugin是基于Kubernetes标准规范开发容器网络设备插件，适配灵衢URMA设备。借助URMA特性，通信时延最低为1.7μs~2.5μs，较TCP协议提升90%，为高性能计算、实时通信等场景提供良好的网络性能支撑。

UB内存池化

sig-ub-enable推出基于容器的内存无感借用和内存共享组件。

内存借用：基于UB内存池化机制，裸机容器场景节点或numa的内存使用率达到预设定的值，触发内存借用，将一部分内存压力分担到借过来的内存上，适用于单节点部署大量Pod或容器的场景，通过内存超分和借用机制，提升节点内存利用率，降低硬件成本。其中内存借用最佳比例为25%，性能损耗小于5%，远端内存的使用时延为400ns左右。
内存共享：支持通过内存池化能力将内存块在UBS Server集群内导入导出，实现在裸机上跨节点以及多进程间的内存共享，同时通过目录隔离和代理层保障资源的安全性与QoS，适用于需要跨节点共享大内存数据集的场景（如内存数据库、大数据分析）下避免数据复制，提升处理效率。其中共享内存访问延迟为300~400ns，共享内存申请、映射耗时为2~5s。

sig-container-platform推出基于鲲鹏TEE技术的机密容器，通过k8s+containerd+Kata+QEMU+KVM+CoCo的整套软件栈进行构建，实现机密容器部署，提供了类似传统虚拟机的强隔离，避免不同容器之间的安全问题。机密容器在开源Kata/CoCo社区的基础上进行了定制和适配，具备远程证明、镜像签名和加密、机密容器设备直通等安全特性。本特性仅针对装备了鲲鹏920双路CPU的服务器进行适配，具体支持的环境信如下：

CPU架构：ARM64
CPU型号：鲲鹏920新型号处理器（7270Z、7280Z、7285Z、7265Y、7260Y、5253Z、5252Z、5235Z、5230Z）
操作系统：openEuler

参考链接

本文由openFuyao社区首发，欢迎遵照CC-BY-SA 4.0协议规定转载。

博客