openFuyao v26.03版本发布
2026年3月31日
openFuyao社区致力于构建面向多样化算力集群的开放软件生态,专注于推动AI原生技术的高效协同,促进有效算力的极致释放。
社区发行版v26.03发布了诸多新特性,并对若干存量特性进行优化,以下介绍具体的特性新增与变动:
InferNex:hermes-router路由策略再提升,AI推理可观测体系增强,弹性扩缩容框架新发布
SIG-ai-inference推出首个完整包含智能路由、弹性伸缩和决策系统、可观测、分布式KVCache管理、以及端到端一键式部署能力的InferNex解决方案:
推理后端
分布式KVCache管理后端:新增了对Mooncake存储池化能力的支持,大幅提高KVCache命中率。
灵活的启动参数配置:在内置vLLM启动命令及常规配置项(如模型长度、批处理大小、内存利用率、块大小等)的基础上,追加额外的启动参数,使用户能够根据具体场景进行模型优化配置,提升推理性能。
多版本推理引擎支持:支持配置不同版本的vLLM推理引擎,用户可以根据需求选择最适合的引擎版本,以获得最佳的推理效果。
精细化资源配置:增强了推理引擎节点级别的资源配置能力,用户可以对CPU限制、内存限制、环境变量以及存储卷挂载等进行精细化配置,从而实现更高效的资源利用和管理。
Hermes-router
Hermes-router在本次版本中新增容灾场景流量管理能力:
- 自动切流:当检测到推理后端实例故障时,自动将流量切换至健康实例,保障服务连续性。
- 故障恢复:支持故障实例恢复后自动重新加入流量分发池,实现无人工干预的故障自愈。
- 请求重试:针对失败请求提供智能重试机制,降低单点故障对业务的影响。
AI推理可观测体系
构建面向AI推理场景的系统性可观测体系:
- 多层指标覆盖:覆盖AI网关(如性能、资源消耗、安全与合规审计、治理策略执行追踪)、推理引擎(APIServer、模型输入输出、推理 过程、推理引擎状态)、mooncake(mooncake master、transfer engine、mooncake client)和基础设施(Ray、K8s、硬件),实 现全链路观测。
- 硬件健康检查指标采集零丢失率(HBM、DDR、NetWork、NPU)。
- 秒级上报:发布方单条日志采集间隔<10ms,订阅方日志接收平均时延<1ms。
Elastic Scaler弹性扩缩容框架
v26.03版本新增Elastic Scaler通用扩缩容决策框架,包含三大核心能力:
通用扩缩容决策:采用插件化架构,支持指标驱动与事件驱动双模式,内置HPA算法,支持自定义算法扩展。
ResourceScalingGroup资源组扩缩容:提供GroupReplication和InplaceScaling两种策略,支持按组复制扩缩容和按比例协同扩缩容,适合Prefill-Decode分离架构场景。
Tidal潮汐算法:面向潮汐特征业务提供定时扩缩容能力,通过CRD配置时间点自动调整副本数。
安装部署:架构重构与能力增强
SIG-installation在v26.03版本进行重大架构升级:
架构优化
- BKECluster CR拆分:将BKENode独立管理,cluster-api-provider-bke、bkecommon仓库重构适配。
- 多制品仓库支持:安装部署组件支持从多制品仓库拉取镜像。
- Kubernetes版本兼容:支持安装K8s v1.28和v1.34版本。
功能增强
- 支持创建节点前后置操作(shell)。
- 管理、业务集群支持健康检查接口。
- 引导节点镜像取自自身registry。
- addons支持chart形态插件安装。
NPU DRA插件
基于Kubernetes原生DRA架构完成昇腾NPU设备深度适配:
- 支持基于NUMA节点、芯片型号、拓扑组等元信息的CEL表达式设备筛选。
- 支持ResourceClaim/ResourceClaimTemplate资源申请。
- 通过CDI将设备注入容器,实现精细化资源调度。
UB容器网络设备插件
使能业务使用URMA设备进行通信,降低通信时延,提升业务性能。
UB内存池化
- 内存借用:基于UB内存池化机制,裸机容器场景节点或numa的内存使用率达到预设定的值,触发内存借用,将一部分内存压力分担到借过来的内存上,适用于单节点部署大量Pod或容器的场景,通过内存超分和借用机制,提升节点内存利用率,降低硬件成本。
- 内存共享:支持通过内存池化能力将内存块在UBS Server集群内导入导出,实现在裸机上跨节点以及多进程间的内存共享,同时通过目录隔离和代理层保障资源的安全性与QoS,适用于需要跨节点共享大内存数据集的场景(如内存数据库、大数据分析)下避免数据复制,提升处理效率。
机密容器
基于鲲鹏TEE技术,通过k8s+containerd+Kata+QEMU+KVM+CoCo的整套软件栈进行构建,实现机密容器部署,提供了类似传统虚拟机的强隔离,避免不同容器之间的安全问题。
本文由openFuyao社区首发,欢迎遵照CC-BY-SA 4.0协议规定转载。
