openFuyao v25.12 发布
2026年02月03日
openFuyao社区致力于构建面向多样化算力集群的开放软件生态,专注于推动AI原生技术的高效协同,促进有效算力的极致释放。
社区发行版v25.12发布了诸多新特性,并对若干存量特性进行优化,以下介绍具体的特性新增与变动:
InferNex: hermes-router智能路由再提升,Eagle Eye监控组件新发布
hermes-router
SIG-ai-inference推出的ai-inference-integration(AI推理集成)正式更名为InferNex,该服务集成了多个特性,其中hermes-router在本次版本中有如下功能新增:
- 基于K8s GIE(Gateway API Inference Extension)扩展,现支持与Istio等开源网关集成,新架构支持开发者快速创建新的路由策略。
- 新增3种适用于PD分离架构的路由策略:分桶调度策略pd-bucket、随机调度策略pd-random-bucket以及多因素KVCache感知策略pd-kv-cache-aware。
新路由策略对比random策略在其他数据集场景性能不劣化的情况下,在特定数据集场景平均性能提升16%~30%:
表1 hermes-router新增路由策略性能表现
| 测试场景 | 路由策略 | 性能表现 |
|---|---|---|
| 工具&智能体 | aggregate KVCache aware | TTFT降低37%,E2E延迟降低9% |
| PD KVCache aware | TTFT降低24%,E2E延迟降低19% | |
| 多轮对话提示词复用 | aggregate KVCache aware | TTFT降低46%,E2E延迟降低17% |
| PD KVCache aware | TTFT降低27%,E2E延迟降低20% | |
| 长/变长文本处理 | PD bucket | TPS提升16%~28% |
Eagle Eye
Eagle Eye是面向AI推理场景的可观测体系,旨在提供从业务运行态、系统运行态到硬件健康的全链路指标采集、实时传输与智能诊断。该体系融合了Prometheus的周期性指标采集与NATS的低延迟推送机制,既能支撑扩缩容决策的趋势分析,也能满足智能路由对秒级数据更新的需求。通过独立的硬件健康诊断模块,实现对NPU/GPU、温度、功耗、错误码等底层指标的持续监测与异常识别,构建“采集—传输—诊断—评估”的闭环监控能力,为AI推理系统的稳定性、性能优化与资源调度提供坚实的数据支撑。
| 可观测维度 | 可观测类别 | 可观测项 | 可观测子项 |
|---|---|---|---|
| 业务运行态 | AI网关 | 性能 | |
| 资源消耗 | |||
| 推理引擎 | 推理过程 | ||
| 推理引擎状态 | |||
| mooncake | mooncake master | ||
| transfer engine | |||
| mooncake client | |||
| 系统运行态 | ray | ||
| kubernetes | 集群健康 | ||
| 资源使用 | |||
| 工作负载状态 | |||
| 硬件 | 硬件 | 计算资源 | |
| 内存与显存 | hbm | ||
| ddr | |||
| 互联与IO | network | ||
| pcie | |||
| hccs | |||
| roce | |||
| 硬件健康 | 黑匣子错误码 | ||
| 健康管理故障码 | |||
| hbm | |||
| ddr | |||
| network | |||
| 硬件状态 |
安装部署:大版本升级、易用性提升
大版本升级
SIG-installation在首个openFuyao LTS版本中正式推出大版本升级功能,clutsre-api-provider-bke支持社区候选版本、正式版本、LTS版本的依次升级,通过滚动升级的方式降低业务中断影响,从而解决升级难题,将运维人员从复杂的手动操作中解放,确保基础设施的稳定与安全合规。
表2 版本升级路径
| 待升级版本 | 版本类型 | 可升级版本列表 |
|---|---|---|
| v25.12-rc.2 | 候选版本 | [ v25.12-rc.3, v25.12, v25.12.2, v25.12.3, v26.03 ] |
| v25.12 | 正式版本 | [ v25.12.2, v25.12.3, v26.03 ] |
| v25.12.2 | 补丁版本 | [ v25.12.3, v26.03 ] |
| latest | 每日构建版本 | [ ] |
v25.12.2和v25.12.3为补丁版本格式的版本号,v26.03为正式版本格式的版本号,实际尚未发布,在此用于举例。
易用性提升
BKE(基于Cluster-API)安装部署工具在v25.12发行版进行了多维度的易用性提升,大幅提高了安装部署的鲁棒性与自由度,安装部署成功率达到90%:
- 前置环境校验工具(envCheck):支持对前置环境进行路径校验,扫描系统中是否存在可能影响安装部署的K8s组件残留。
- 支持在线镜像仓库、chart仓库及二进制仓库的后端自定义配置。
- 支持后端对kubelet和containerd组件的配置扩展和自定义。
- 允许部分worker节点安装部署失败场景下的集群创建。
- 支持后端证书自定义配置,并进行kubeconfig权限降级。
- 支持后端安装业务集群通过addon配置所部署组件时根据节点标签进行亲和性部署。
全新特性:超大规模集群纳管与调度能力全新落地
大规模集群:16000节点调度效率跨越式提升
SIG-large-scale-cluster发布首个核心特性,通过对Kubernetes、volcano、mind-cluster、VictoriaMetrics等组件的深度优化,突破Kubernetes单集群纳管上限,提升集群性能与稳定性,具体优化结果如下:
- 实现单集群1.6w节点纳管能力。
- 面向智算场景,1.6w acjob Pod端到端调度时间<3分钟。
- kube-controller-manager备实例预同步数据,故障场景下主备倒换时长降至20秒内。
- 基于VictoriaMetrics构建高可用、高性能大规模集群可观测能力,实现500w/s监控摄取率。
| 对比项 | 未优化普通集群 | 超大规模集群 |
|---|---|---|
| 最大纳管节点数量 | 5k | 1.6w |
| 1.6w Pod调度时间 | ~20分钟 | <3分钟 |
| 大规模场景KCM主备倒换时间 | 1~10分钟 | <20秒 |
| 监控摄取率 | 100w/s | 500w/s |
本文由openFuyao社区首发,欢迎遵照CC-BY-SA 4.0协议规定转载。
