openFuyao v26.03版本发布

Release-management Maintainer2026-03-31

2026年3月31日

openFuyao社区致力于构建面向多样化算力集群的开放软件生态,专注于推动AI原生技术的高效协同,促进有效算力的极致释放。

社区发行版v26.03发布了诸多新特性,并对若干存量特性进行优化,以下介绍具体的特性新增与变动:

InferNex:hermes-router路由策略再提升,AI推理可观测体系增强,弹性扩缩容框架新发布

SIG-ai-inference推出首个完整包含智能路由、弹性伸缩和决策系统、可观测、分布式KVCache管理、以及端到端一键式部署能力的InferNex解决方案:

推理后端

  • 分布式KVCache管理后端:新增了对Mooncake存储池化能力的支持,大幅提高KVCache命中率。

  • 灵活的启动参数配置:在内置vLLM启动命令及常规配置项(如模型长度、批处理大小、内存利用率、块大小等)的基础上,追加额外的启动参数,使用户能够根据具体场景进行模型优化配置,提升推理性能。

  • 多版本推理引擎支持:支持配置不同版本的vLLM推理引擎,用户可以根据需求选择最适合的引擎版本,以获得最佳的推理效果。

  • 精细化资源配置:增强了推理引擎节点级别的资源配置能力,用户可以对CPU限制、内存限制、环境变量以及存储卷挂载等进行精细化配置,从而实现更高效的资源利用和管理。

Hermes-router

Hermes-router在本次版本中新增容灾场景流量管理能力:

  • 自动切流:当检测到推理后端实例故障时,自动将流量切换至健康实例,保障服务连续性。
  • 故障恢复:支持故障实例恢复后自动重新加入流量分发池,实现无人工干预的故障自愈。
  • 请求重试:针对失败请求提供智能重试机制,降低单点故障对业务的影响。

AI推理可观测体系

构建面向AI推理场景的系统性可观测体系:

  • 多层指标覆盖:覆盖AI网关(如性能、资源消耗、安全与合规审计、治理策略执行追踪)、推理引擎(APIServer、模型输入输出、推理 过程、推理引擎状态)、mooncake(mooncake master、transfer engine、mooncake client)和基础设施(Ray、K8s、硬件),实 现全链路观测。
  • 硬件健康检查指标采集零丢失率(HBM、DDR、NetWork、NPU)。
  • 秒级上报:发布方单条日志采集间隔<10ms,订阅方日志接收平均时延<1ms

Elastic Scaler弹性扩缩容框架

v26.03版本新增Elastic Scaler通用扩缩容决策框架,包含三大核心能力:

通用扩缩容决策:采用插件化架构,支持指标驱动与事件驱动双模式,内置HPA算法,支持自定义算法扩展。

ResourceScalingGroup资源组扩缩容:提供GroupReplication和InplaceScaling两种策略,支持按组复制扩缩容和按比例协同扩缩容,适合Prefill-Decode分离架构场景。

Tidal潮汐算法:面向潮汐特征业务提供定时扩缩容能力,通过CRD配置时间点自动调整副本数。

安装部署:架构重构与能力增强

SIG-installation在v26.03版本进行重大架构升级:

架构优化

  • BKECluster CR拆分:将BKENode独立管理,cluster-api-provider-bke、bkecommon仓库重构适配。
  • 多制品仓库支持:安装部署组件支持从多制品仓库拉取镜像。
  • Kubernetes版本兼容:支持安装K8s v1.28和v1.34版本。

功能增强

  • 支持创建节点前后置操作(shell)。
  • 管理、业务集群支持健康检查接口。
  • 引导节点镜像取自自身registry。
  • addons支持chart形态插件安装。

NPU DRA插件

基于Kubernetes原生DRA架构完成昇腾NPU设备深度适配:

  • 支持基于NUMA节点、芯片型号、拓扑组等元信息的CEL表达式设备筛选。
  • 支持ResourceClaim/ResourceClaimTemplate资源申请。
  • 通过CDI将设备注入容器,实现精细化资源调度。

UB容器网络设备插件

使能业务使用URMA设备进行通信,降低通信时延,提升业务性能。

UB内存池化

  • 内存借用:基于UB内存池化机制,裸机容器场景节点或numa的内存使用率达到预设定的值,触发内存借用,将一部分内存压力分担到借过来的内存上,适用于单节点部署大量Pod或容器的场景,通过内存超分和借用机制,提升节点内存利用率,降低硬件成本。
  • 内存共享:支持通过内存池化能力将内存块在UBS Server集群内导入导出,实现在裸机上跨节点以及多进程间的内存共享,同时通过目录隔离和代理层保障资源的安全性与QoS,适用于需要跨节点共享大内存数据集的场景(如内存数据库、大数据分析)下避免数据复制,提升处理效率。

机密容器

基于鲲鹏TEE技术,通过k8s+containerd+Kata+QEMU+KVM+CoCo的整套软件栈进行构建,实现机密容器部署,提供了类似传统虚拟机的强隔离,避免不同容器之间的安全问题。

参考链接

本文由openFuyao社区首发,欢迎遵照CC-BY-SA 4.0协议规定转载。