openFuyao v26.03版本发布
2026年4月3日
openFuyao社区致力于构建面向多样化算力集群的开放软件生态,专注于推动云原生与AI原生技术的高效协同,促进算力的极致释放。
社区发行版v26.03发布了诸多新特性,并对若干存量特性进行优化,以下介绍具体的特性新增与变动。
InferNex:AI推理能力全面升级
SIG-ai-inference InferNex在v26.03推出首个完整包含智能路由、弹性伸缩与决策系统、可观测、分布式KVCache管理以及端到端一键式部署能力的方案,平均首token时延降低30%,端到端时延降低10%。具体性能数据详见表1:
表1 InferNex性能表现
| 路由策略 | 集群场景 | E2EL收益(avg) | TTFT收益(avg) |
|---|---|---|---|
| aggregate KVCache aware | 同机集群 | 9.15% | 37.35% |
| PD KVCache aware | 同机集群 | 22.08% | 27.73% |
| PD KVCache aware | 跨机集群 | 17.31% | 22.03% |
- Elastic Scaler:完整具备分布式推理作业弹性伸缩资源管理和决策能力,开放决策算法接入并内置潮汐算法、支持指标&事件驱动、from/to 0弹性伸缩能力;特别地,支持成组和组内资源根据用户定义策略伸缩,以解决分布式推理PD分离场景,按PD组、固定配比PD优雅伸缩的诉求。
- Hermes-router :解决KVCache aware、分桶策略的兼容性问题、同时将状态感知粒度从服务级进一步细化至Pod级,提升路由策略的性能表现。
- 分布式KVCache:提供分布式KVCache池化存储与跨实例的KVCache高速传输,提升缓存复用效率;构建热点缓存能力,实现固定内存总量占用下推理性能提升。相关特性与架构优化已合入上游Mooncake社区。
- Eagle-eye:构建面向AI推理场景的系统性可观测体系,新增A2/A3代际主机侧&卡侧RDMA、主机侧PCIe带宽等网络静态指标、过载降频等部分设备亚健康指标。
- 推理后端:支持基于vLLM/vLLM-Ascend的云原生场景推理引擎一键部署。
更多信息,欢迎加入SIG-ai-inference社区讨论!
安装部署:架构重构与能力增强
SIG-installation在v26.03版本进行重大架构升级,实现多项优化:
- Kubernetes版本兼容:支持安装K8s v1.28和v1.34版本。
- 插件安装形态丰富:扩展件支持chart形态插件安装。
- 可开发性提升:支持二次开发者创建节点前后置操作,并新增- 管理、业务集群健康检查接口。
NPU DRA插件
基于Kubernetes原生DRA架构完成昇腾NPU设备深度适配:
- 支持基于NUMA节点、芯片型号、拓扑组等元信息的CEL表达式设备筛选。
- 支持ResourceClaim/ResourceClaimTemplate资源申请。
- 通过CDI将设备注入容器,实现精细化资源调度。
UB容器网络设备插件
使能业务使用URMA设备进行通信,降低通信时延,提升业务性能。
UB内存池化
- 内存借用:基于UB内存池化机制,裸机容器场景节点或numa的内存使用率达到预设定的值,触发内存借用,将一部分内存压力分担到借过来的内存上,适用于单节点部署大量Pod或容器的场景,通过内存超分和借用机制,提升节点内存利用率,降低硬件成本。
- 内存共享:支持通过内存池化能力将内存块在UBS Server集群内导入导出,实现在裸机上跨节点以及多进程间的内存共享,同时通过目录隔离和代理层保障资源的安全性与QoS,适用于需要跨节点共享大内存数据集的场景(如内存数据库、大数据分析)下避免数据复制,提升处理效率。
机密容器
基于鲲鹏TEE技术,通过K8s+containerd+Kata+QEMU+KVM+CoCo的整套软件栈进行构建,实现机密容器部署,提供了类似传统虚拟机的强隔离,避免不同容器之间的安全问题。
本文由openFuyao社区首发,欢迎遵照CC-BY-SA 4.0协议规定转载。
