openFuyao v25.12 LTS版本发布

Release-management Maintainer2025-12-30

2025年12月30日

openFuyao社区致力于构建面向多样化算力集群的开放软件生态,专注于推动AI原生技术的高效协同,促进有效算力的极致释放。

社区发行版v25.12发布了诸多新特性,并对若干存量特性进行优化,以下介绍具体的特性新增与变动:

InferNex: hermes-router智能路由再提升,eagle eye监控组件新发布

hermes-router

SIG-ai-inference推出的ai-inference-integration(AI推理集成)正式更名为InferNex,该服务集成了多个特性,其中hermes-router在本次版本中有如下功能新增:

  1. 基于K8s GIE(Gateway API Inference Extension)扩展,现支持与Istio等开源网关集成,新架构支持开发者快速创建新的路由策略。
  2. 新增3种适用于PD分离架构的路由策略:分桶调度策略pd-bucket、随机调度策略pd-random-bucket以及多因素KVCache感知策略pd-kv-cache-aware。

新路由策略对比random策略在其他数据集场景性能不劣化的情况下,在特定数据集场景平均性能提升16%~30%:

表1 hermes-router新增路由策略性能表现

路由策略数据集性能表现
aggregate kv cache awareaggregate kv cache aware-30%随机数据集性能无明显差异
aggregate kv cache aware-多轮对话数据集场景Total token throughput、Output token throughput及Request throughput可提升21-33%,Average latency降低20-29%、time to first token降低29-50%。
aggregate kv cache aware-完全随机数据集性能无明显差异
pd kv cache awarepd KV Cache aware-30%随机数据集性能无明显差异
pd bucketpd bucket-长短分布数据集TPS提升16%~28%

eagle eye

eagle eye提供业务运行态、系统运行态、硬件健康等不同粒度关键指标的近实时监控,支持推理场景动态扩缩容、策略选择、容灾等能力。 它面向对时效性要求高的模块(如hermes-router),通过NATS实现毫秒级指标推送,确保推理过程中的关键性能指标(如等待执行的推理请求数、NPU/GPU KVCache利用率等)能够被及时感知并影响决策。

当前,eagle eye能够做到硬件健康检查指标低丢失率的同时,毫秒级上报功能发布方单条日志采集间隔<10ms;订阅方日志接收平均时延<1ms。

安装部署:大规模集群、大版本升级、易用性提升

大规模集群:16000节点的安装部署

sig large scale cluster发布的首个特性,通过对kubernetes、volcano-ext、pytorch等组件的优化,使用installer工具安装高达6000节点规模集群,且端到端调度时间<3分钟。

大版本升级

sig installationr在首个openFuyao LTS版本中正式推出大版本升级功能,支持社区候选版本、正式版本、LTS版本的依次升级,通过滚动升级的方式降低业务中断影响,从而解决升级难题,将运维人员从复杂的手动操作中解放,确保基础设施的稳定与安全合规。

表2 版本升级路径

待升级版本版本类型可升级版本列表
v25.12-rc.2候选版本[ v25.12-rc.3, v25.12, v25.12.2, v25.12.3, v26.03 ]
v25.12正式版本[ v25.12.2, v25.12.3, v26.03 ]
v25.12.2补丁版本[ v25.12.3, v26.03 ]
latest每日构建版本[ ]

v25.12.2和v25.12.3为补丁版本格式的版本号,v26.03为正式版本格式的版本号,实际尚未发布,在此用于举例。

易用性提升

Cluster-API安装部署工具在v25.12发行版进行了多维度的易用性提升,大幅提高了安装部署的鲁棒性与自由度:

  1. 前置环境校验工具:支持对前置环境进行路径校验,扫描系统中是否存在可能影响安装部署的K8s组件残留。
  2. 支持在线镜像仓库、chart仓库及二进制仓库的后端自定义配置
  3. 支持后端对kubelet和containerd组件的配置扩展和自定义
  4. 允许部分worker节点安装部署失败场景下的集群创建。
  5. 支持后端证书自定义配置,并进行kubeconfig权限降级。
  6. 支持后端安装业务集群通过addon配置所部署组件时根据节点标签进行亲和性部署

参考链接

本文由openFuyao社区首发,欢迎遵照CC-BY-SA 4.0协议规定转载。