openFuyao v26.03版本发布

博客openFuyao v26.03版本发布

openFuyao v26.03版本发布

Release-management Maintainer

2026-03-31

2026年3月31日

openFuyao社区致力于构建面向多样化算力集群的开放软件生态，专注于推动AI原生技术的高效协同，促进有效算力的极致释放。

社区发行版v26.03发布了诸多新特性，并对若干存量特性进行优化，以下介绍具体的特性新增与变动：

InferNex：hermes-router路由策略再提升，AI推理可观测体系增强，弹性扩缩容框架新发布

SIG-ai-inference推出首个完整包含智能路由、弹性伸缩和决策系统、可观测、分布式KVCache管理、以及端到端一键式部署能力的InferNex解决方案：

推理后端

分布式KVCache管理后端：新增了对Mooncake存储池化能力的支持，大幅提高KVCache命中率。
灵活的启动参数配置：在内置vLLM启动命令及常规配置项（如模型长度、批处理大小、内存利用率、块大小等）的基础上，追加额外的启动参数，使用户能够根据具体场景进行模型优化配置，提升推理性能。
多版本推理引擎支持：支持配置不同版本的vLLM推理引擎，用户可以根据需求选择最适合的引擎版本，以获得最佳的推理效果。
精细化资源配置：增强了推理引擎节点级别的资源配置能力，用户可以对CPU限制、内存限制、环境变量以及存储卷挂载等进行精细化配置，从而实现更高效的资源利用和管理。

Hermes-router

Hermes-router在本次版本中新增容灾场景流量管理能力：

自动切流：当检测到推理后端实例故障时，自动将流量切换至健康实例，保障服务连续性。
故障恢复：支持故障实例恢复后自动重新加入流量分发池，实现无人工干预的故障自愈。
请求重试：针对失败请求提供智能重试机制，降低单点故障对业务的影响。

AI推理可观测体系

构建面向AI推理场景的系统性可观测体系：

多层指标覆盖：覆盖AI网关（如性能、资源消耗、安全与合规审计、治理策略执行追踪)、推理引擎（APIServer、模型输入输出、推理过程、推理引擎状态)、mooncake(mooncake master、transfer engine、mooncake client）和基础设施（Ray、K8s、硬件)，实现全链路观测。
硬件健康检查指标采集零丢失率（HBM、DDR、NetWork、NPU）。
秒级上报：发布方单条日志采集间隔<10ms，订阅方日志接收平均时延<1ms。

Elastic Scaler弹性扩缩容框架

v26.03版本新增Elastic Scaler通用扩缩容决策框架，包含三大核心能力：

通用扩缩容决策：采用插件化架构，支持指标驱动与事件驱动双模式，内置HPA算法，支持自定义算法扩展。

ResourceScalingGroup资源组扩缩容：提供GroupReplication和InplaceScaling两种策略，支持按组复制扩缩容和按比例协同扩缩容，适合Prefill-Decode分离架构场景。

Tidal潮汐算法：面向潮汐特征业务提供定时扩缩容能力，通过CRD配置时间点自动调整副本数。

安装部署：架构重构与能力增强

SIG-installation在v26.03版本进行重大架构升级：

架构优化

BKECluster CR拆分：将BKENode独立管理，cluster-api-provider-bke、bkecommon仓库重构适配。
多制品仓库支持：安装部署组件支持从多制品仓库拉取镜像。
Kubernetes版本兼容：支持安装K8s v1.28和v1.34版本。

功能增强

支持创建节点前后置操作（shell）。
管理、业务集群支持健康检查接口。
引导节点镜像取自自身registry。
addons支持chart形态插件安装。

NPU DRA插件

基于Kubernetes原生DRA架构完成昇腾NPU设备深度适配：

支持基于NUMA节点、芯片型号、拓扑组等元信息的CEL表达式设备筛选。
支持ResourceClaim/ResourceClaimTemplate资源申请。
通过CDI将设备注入容器，实现精细化资源调度。

UB容器网络设备插件

使能业务使用URMA设备进行通信，降低通信时延，提升业务性能。

UB内存池化

内存借用：基于UB内存池化机制，裸机容器场景节点或numa的内存使用率达到预设定的值，触发内存借用，将一部分内存压力分担到借过来的内存上，适用于单节点部署大量Pod或容器的场景，通过内存超分和借用机制，提升节点内存利用率，降低硬件成本。
内存共享：支持通过内存池化能力将内存块在UBS Server集群内导入导出，实现在裸机上跨节点以及多进程间的内存共享，同时通过目录隔离和代理层保障资源的安全性与QoS，适用于需要跨节点共享大内存数据集的场景（如内存数据库、大数据分析）下避免数据复制，提升处理效率。

机密容器

基于鲲鹏TEE技术，通过k8s+containerd+Kata+QEMU+KVM+CoCo的整套软件栈进行构建，实现机密容器部署，提供了类似传统虚拟机的强隔离，避免不同容器之间的安全问题。

参考链接

本文由openFuyao社区首发，欢迎遵照CC-BY-SA 4.0协议规定转载。

博客