openFuyao v25.12 发布

Release-management Maintainer2026-02-03

2026年02月03日

openFuyao社区致力于构建面向多样化算力集群的开放软件生态,专注于推动AI原生技术的高效协同,促进有效算力的极致释放。

社区发行版v25.12发布了诸多新特性,并对若干存量特性进行优化,以下介绍具体的特性新增与变动:

InferNex: hermes-router智能路由再提升,Eagle Eye监控组件新发布

hermes-router

SIG-ai-inference推出的ai-inference-integration(AI推理集成)正式更名为InferNex,该服务集成了多个特性,其中hermes-router在本次版本中有如下功能新增:

  1. 基于K8s GIE(Gateway API Inference Extension)扩展,现支持与Istio等开源网关集成,新架构支持开发者快速创建新的路由策略。
  2. 新增3种适用于PD分离架构的路由策略:分桶调度策略pd-bucket、随机调度策略pd-random-bucket以及多因素KVCache感知策略pd-kv-cache-aware。

新路由策略对比random策略在其他数据集场景性能不劣化的情况下,在特定数据集场景平均性能提升16%~30%:

表1 hermes-router新增路由策略性能表现

测试场景路由策略性能表现
工具&智能体aggregate KVCache awareTTFT降低37%,E2E延迟降低9%
PD KVCache awareTTFT降低24%,E2E延迟降低19%
多轮对话提示词复用aggregate KVCache awareTTFT降低46%,E2E延迟降低17%
PD KVCache awareTTFT降低27%,E2E延迟降低20%
长/变长文本处理PD bucketTPS提升16%~28%

Eagle Eye

Eagle Eye是面向AI推理场景的可观测体系,旨在提供从业务运行态、系统运行态到硬件健康的全链路指标采集、实时传输与智能诊断。该体系融合了Prometheus的周期性指标采集与NATS的低延迟推送机制,既能支撑扩缩容决策的趋势分析,也能满足智能路由对秒级数据更新的需求。通过独立的硬件健康诊断模块,实现对NPU/GPU、温度、功耗、错误码等底层指标的持续监测与异常识别,构建“采集—传输—诊断—评估”的闭环监控能力,为AI推理系统的稳定性、性能优化与资源调度提供坚实的数据支撑。

可观测维度可观测类别可观测项可观测子项
业务运行态AI网关性能
资源消耗
推理引擎推理过程
推理引擎状态
mooncakemooncake master
transfer engine
mooncake client
系统运行态ray
kubernetes集群健康
资源使用
工作负载状态
硬件硬件计算资源
内存与显存hbm
ddr
互联与IOnetwork
pcie
hccs
roce
硬件健康黑匣子错误码
健康管理故障码
hbm
ddr
network
硬件状态

安装部署:大版本升级、易用性提升

大版本升级

SIG-installation在首个openFuyao LTS版本中正式推出大版本升级功能,clutsre-api-provider-bke支持社区候选版本、正式版本、LTS版本的依次升级,通过滚动升级的方式降低业务中断影响,从而解决升级难题,将运维人员从复杂的手动操作中解放,确保基础设施的稳定与安全合规。

表2 版本升级路径

待升级版本版本类型可升级版本列表
v25.12-rc.2候选版本[ v25.12-rc.3, v25.12, v25.12.2, v25.12.3, v26.03 ]
v25.12正式版本[ v25.12.2, v25.12.3, v26.03 ]
v25.12.2补丁版本[ v25.12.3, v26.03 ]
latest每日构建版本[ ]

v25.12.2和v25.12.3为补丁版本格式的版本号,v26.03为正式版本格式的版本号,实际尚未发布,在此用于举例。

易用性提升

BKE(基于Cluster-API)安装部署工具在v25.12发行版进行了多维度的易用性提升,大幅提高了安装部署的鲁棒性与自由度,安装部署成功率达到90%:

  1. 前置环境校验工具(envCheck):支持对前置环境进行路径校验,扫描系统中是否存在可能影响安装部署的K8s组件残留。
  2. 支持在线镜像仓库、chart仓库及二进制仓库的后端自定义配置
  3. 支持后端对kubelet和containerd组件的配置扩展和自定义
  4. 允许部分worker节点安装部署失败场景下的集群创建。
  5. 支持后端证书自定义配置,并进行kubeconfig权限降级。
  6. 支持后端安装业务集群通过addon配置所部署组件时根据节点标签进行亲和性部署

全新特性:超大规模集群纳管与调度能力全新落地

大规模集群:16000节点调度效率跨越式提升

SIG-large-scale-cluster发布首个核心特性,通过对Kubernetes、volcano、mind-cluster、VictoriaMetrics等组件的深度优化,突破Kubernetes单集群纳管上限,提升集群性能与稳定性,具体优化结果如下:

  1. 实现单集群1.6w节点纳管能力。
  2. 面向智算场景,1.6w acjob Pod端到端调度时间<3分钟。
  3. kube-controller-manager备实例预同步数据,故障场景下主备倒换时长降至20秒内。
  4. 基于VictoriaMetrics构建高可用、高性能大规模集群可观测能力,实现500w/s监控摄取率。
对比项未优化普通集群超大规模集群
最大纳管节点数量5k1.6w
1.6w Pod调度时间~20分钟<3分钟
大规模场景KCM主备倒换时间1~10分钟<20秒
监控摄取率100w/s500w/s

参考链接

本文由openFuyao社区首发,欢迎遵照CC-BY-SA 4.0协议规定转载。