openFuyao v26.03版本发布
2026年4月3日
openFuyao社区致力于构建面向多样化算力集群的开放软件生态,专注于推动云原生与AI原生技术的高效协同,促进算力的极致释放。
社区发行版v26.03发布了诸多新特性,并对若干存量特性进行优化,以下介绍具体的特性新增与变动。
InferNex:AI推理能力全面升级
SIG-ai-inference InferNex在v26.03推出首个完整包含智能路由、弹性伸缩与决策系统、可观测、分布式KVCache管理以及端到端一键式部署能力的方案,平均首token时延降低30%,端到端时延降低10%。具体性能数据详见表1:
表1 InferNex性能表现
| 路由策略 | 集群场景 | E2EL收益(avg) | TTFT收益(avg) |
|---|---|---|---|
| aggregate KVCache aware | 同机集群 | 9.15% | 37.35% |
| PD KVCache aware | 同机集群 | 22.08% | 27.73% |
| PD KVCache aware | 跨机集群 | 17.31% | 22.03% |
v26.03版本中InferNex各配套组件的验证组合见表2:
表2 InferNex配套组件版本
| 组件 | 版本 | 是否验证 | 备注 |
|---|---|---|---|
| 推理引擎(vllm-ascend) | v0.14.0rc1 | 是 | |
| 推理引擎(vllm-ascend) | v0.13.0 | 是 | 默认版本提供 |
| 推理引擎(vllm-ascend) | v0.11.0 | 是 | 需修改使用 MooncakeStoreConnector 以配置 Mooncake Store 能力 |
| 开源网关(Istio) | 1.28.0 | 是 | |
| 智能路由(Hermes-router) | 0.21.0 | 是 | |
| cache-indexer | 0.21.1 | 是 | |
| PD-Orchestrator | 0.21.1 | 是 | |
| PD-Orchestrator | 0.21.0 | 是 | |
| PD-Orchestrator | 0.20.0 | 是 | |
| eagle-eye | 0.22.0 | 是 | |
| eagle-eye | 0.21.0 | 是 | |
| 推理芯片 | 910B4 | 是 | |
| 推理芯片 | 910B3 | 是 | |
| Kubernetes | 1.34.0 | 是 | |
| Kubernetes | 1.33.0 | 是 |
- Elastic Scaler:完整具备分布式推理作业弹性伸缩资源管理和决策能力,开放决策算法接入并内置潮汐算法、支持指标&事件驱动、from/to 0弹性伸缩能力;特别地,支持成组和组内资源根据用户定义策略伸缩,以解决分布式推理PD分离场景,按PD组、固定配比PD优雅伸缩的诉求。
- Hermes-router :解决KVCache aware、分桶策略的兼容性问题、同时将状态感知粒度从服务级进一步细化至Pod级,提升路由策略的性能表现。
- 分布式KVCache:提供分布式KVCache池化存储与跨实例的KVCache高速传输,提升缓存复用效率;构建热点缓存能力,实现固定内存总量占用下推理性能提升。相关特性与架构优化已合入上游Mooncake社区。
- Eagle-eye:构建面向AI推理场景的系统性可观测体系,新增A2/A3代际主机侧&卡侧RDMA、主机侧PCIe带宽等网络静态指标、过载降频等部分设备亚健康指标。
- 推理后端:支持基于vLLM/vLLM-Ascend的云原生场景推理引擎一键部署。
安装部署:多维度能力增强
SIG-installation在v26.03版本进行多维度能力增强,具体增强能力如下:
- 引导节点镜像取自自身registry:引导节点初始化所需核心镜像从本地registry直接加载,而非远程仓库拉取,可消除网络延迟和远端仓库不可用导致安装失败风险,提升成功率,缩短安装时间。
- 管理集群和业务集群新增健康检查接口:为关键组件提供标准化健康检查接口,统一各组件健康检查的协议和端口,消除探针协议不一致带来的对接复杂度,方便对接监控系统,提升集群运维自动化水平。
- 安装部署组件支持从多制品仓库拉取镜像:支持从多个镜像仓库拉取镜像,实现社区自编译镜像与第三方镜像存储分离,解决了镜像来源单一问题,满足企业级多镜像源需求。
- BKECluster CR拆分:将节点信息拆分为独立BKENode CRD,实现节点扩缩容无需暂停集群调谐,并解决大集群场景下单个BKECluster资源过大导致调谐性能下降的问题,提升管理效率。
- addons支持部署chart形态插件:可在BKECluster CR中配置chartRepo与chart插件,在部署集群时可自动从chartRepo拉取并安装chart包,解决了部署chart包时需先手动转换为yaml再做适配的繁琐操作。
- 支持创建节点前后置操作:提供统一脚本执行框架,通过ConfigMap管理脚本内容,可在创建集群的前置/后置阶段执行用户自定义Shell脚本,有效降低集群部署时需要执行定制化操作成本。
NPU DRA插件
sig-orchestration-engine NPU DRA插件基于Kubernetes原生DRA机制,实现昇腾NPU设备的统一纳管、调度与生命周期管理。关键能力如下:
- 设备自动发现:自动发现昇腾NPU设备,采集设备ID、内存、网络拓扑等硬件信息,精准感知底层资源分布,无需手动配置设备信息。
- 精细化资源调度:使用K8s原生的资源声明方式,基于CEL表达式精细化筛选资源,支持按芯片ID、节点、拓扑分组等维度灵活分配业务所需NPU资源。
- 极简运维和部署:插件化安装,无需改造现有K8s集群,可快速落地。基于DRA框架和CDI规范,无需维护复杂的自定义调度器和设备挂载代码。
适配环境如下:
- 硬件:昇腾910B系列芯片
- 集群:原生K8s集群(v1.34及以上)
UB容器网络设备插件
sig-orchestration-engine ub-network-device-plugin是基于Kubernetes标准规范开发容器网络设备插件,适配灵衢URMA设备。借助URMA特性,通信时延最低为1.7μs~2.5μs,较TCP协议提升90%,为高性能计算、实时通信等场景提供良好的网络性能支撑。
UB内存池化
sig-ub-enable推出基于容器的内存无感借用和内存共享组件。
- 内存借用:基于UB内存池化机制,裸机容器场景节点或numa的内存使用率达到预设定的值,触发内存借用,将一部分内存压力分担到借过来的内存上,适用于单节点部署大量Pod或容器的场景,通过内存超分和借用机制,提升节点内存利用率,降低硬件成本。其中内存借用最佳比例为25%,性能损耗小于5%,远端内存的使用时延为400ns左右。
- 内存共享:支持通过内存池化能力将内存块在UBS Server集群内导入导出,实现在裸机上跨节点以及多进程间的内存共享,同时通过目录隔离和代理层保障资源的安全性与QoS,适用于需要跨节点共享大内存数据集的场景(如内存数据库、大数据分析)下避免数据复制,提升处理效率。其中共享内存访问延迟为300~400ns,共享内存申请、映射耗时为2~5s。
机密容器
sig-container-platform推出基于鲲鹏TEE技术的机密容器,通过k8s+containerd+Kata+QEMU+KVM+CoCo的整套软件栈进行构建,实现机密容器部署,提供了类似传统虚拟机的强隔离,避免不同容器之间的安全问题。机密容器在开源Kata/CoCo社区的基础上进行了定制和适配,具备远程证明、镜像签名和加密、机密容器设备直通等安全特性。 本特性仅针对装备了鲲鹏920双路CPU的服务器进行适配,具体支持的环境信如下:
- CPU架构:ARM64
- CPU型号:鲲鹏920新型号处理器(7270Z、7280Z、7285Z、7265Y、7260Y、5253Z、5252Z、5235Z、5230Z)
- 操作系统:openEuler
本文由openFuyao社区首发,欢迎遵照CC-BY-SA 4.0协议规定转载。
