openFuyao v25.12 发布

博客openFuyao v25.12 发布

Release-management Maintainer

2026-02-03

2026年02月03日

openFuyao社区致力于构建面向多样化算力集群的开放软件生态，专注于推动AI原生技术的高效协同，促进有效算力的极致释放。

社区发行版v25.12发布了诸多新特性，并对若干存量特性进行优化，以下介绍具体的特性新增与变动：

InferNex： hermes-router智能路由再提升，Eagle Eye监控组件新发布

hermes-router

SIG-ai-inference推出的ai-inference-integration（AI推理集成）正式更名为InferNex，该服务集成了多个特性，其中hermes-router在本次版本中有如下功能新增：

基于K8s GIE（Gateway API Inference Extension）扩展，现支持与Istio等开源网关集成，新架构支持开发者快速创建新的路由策略。
新增3种适用于PD分离架构的路由策略：分桶调度策略pd-bucket、随机调度策略pd-random-bucket以及多因素KVCache感知策略pd-kv-cache-aware。

新路由策略对比random策略在其他数据集场景性能不劣化的情况下，在特定数据集场景平均性能提升16%~30%：

表1 hermes-router新增路由策略性能表现

测试场景	路由策略	性能表现
工具&智能体	aggregate KVCache aware	TTFT降低37%，E2E延迟降低9%
工具&智能体	PD KVCache aware	TTFT降低24%，E2E延迟降低19%
多轮对话提示词复用	aggregate KVCache aware	TTFT降低46%，E2E延迟降低17%
多轮对话提示词复用	PD KVCache aware	TTFT降低27%，E2E延迟降低20%
长/变长文本处理	PD bucket	TPS提升16%~28%

Eagle Eye

Eagle Eye是面向AI推理场景的可观测体系，旨在提供从业务运行态、系统运行态到硬件健康的全链路指标采集、实时传输与智能诊断。该体系融合了Prometheus的周期性指标采集与NATS的低延迟推送机制，既能支撑扩缩容决策的趋势分析，也能满足智能路由对秒级数据更新的需求。通过独立的硬件健康诊断模块，实现对NPU/GPU、温度、功耗、错误码等底层指标的持续监测与异常识别，构建“采集—传输—诊断—评估”的闭环监控能力，为AI推理系统的稳定性、性能优化与资源调度提供坚实的数据支撑。

可观测维度	可观测类别	可观测项	可观测子项
业务运行态	AI网关	性能
	AI网关	资源消耗
	推理引擎	推理过程
	推理引擎	推理引擎状态
	mooncake	mooncake master
		transfer engine
		mooncake client
系统运行态	ray
	kubernetes	集群健康
		资源使用
		工作负载状态
硬件	硬件	计算资源
		内存与显存	hbm
		内存与显存	ddr
		互联与IO	network
			pcie
			hccs
			roce
		硬件健康	黑匣子错误码
			健康管理故障码
			hbm
			ddr
			network
			硬件状态

安装部署：大版本升级、易用性提升

大版本升级

SIG-installation在首个openFuyao LTS版本中正式推出大版本升级功能，clutsre-api-provider-bke支持社区候选版本、正式版本、LTS版本的依次升级，通过滚动升级的方式降低业务中断影响，从而解决升级难题，将运维人员从复杂的手动操作中解放，确保基础设施的稳定与安全合规。

表2 版本升级路径

待升级版本	版本类型	可升级版本列表
v25.12-rc.2	候选版本	[ v25.12-rc.3, v25.12, v25.12.2, v25.12.3, v26.03 ]
v25.12	正式版本	[ v25.12.2, v25.12.3, v26.03 ]
v25.12.2	补丁版本	[ v25.12.3, v26.03 ]
latest	每日构建版本	[ ]

v25.12.2和v25.12.3为补丁版本格式的版本号，v26.03为正式版本格式的版本号，实际尚未发布，在此用于举例。

易用性提升

BKE(基于Cluster-API)安装部署工具在v25.12发行版进行了多维度的易用性提升，大幅提高了安装部署的鲁棒性与自由度，安装部署成功率达到90%：

前置环境校验工具(envCheck)：支持对前置环境进行路径校验，扫描系统中是否存在可能影响安装部署的K8s组件残留。
支持在线镜像仓库、chart仓库及二进制仓库的后端自定义配置。
支持后端对kubelet和containerd组件的配置扩展和自定义。
允许部分worker节点安装部署失败场景下的集群创建。
支持后端证书自定义配置，并进行kubeconfig权限降级。
支持后端安装业务集群通过addon配置所部署组件时根据节点标签进行亲和性部署。

全新特性：超大规模集群纳管与调度能力全新落地

大规模集群：16000节点调度效率跨越式提升

SIG-large-scale-cluster发布首个核心特性，通过对Kubernetes、volcano、mind-cluster、VictoriaMetrics等组件的深度优化，突破Kubernetes单集群纳管上限，提升集群性能与稳定性，具体优化结果如下：

实现单集群1.6w节点纳管能力。
面向智算场景，1.6w acjob Pod端到端调度时间<3分钟。
kube-controller-manager备实例预同步数据，故障场景下主备倒换时长降至20秒内。
基于VictoriaMetrics构建高可用、高性能大规模集群可观测能力，实现500w/s监控摄取率。

对比项	未优化普通集群	超大规模集群
最大纳管节点数量	5k	1.6w
1.6w Pod调度时间	~20分钟	<3分钟
大规模场景KCM主备倒换时间	1~10分钟	<20秒
监控摄取率	100w/s	500w/s

参考链接

本文由openFuyao社区首发，欢迎遵照CC-BY-SA 4.0协议规定转载。

博客