openFuyao v25.12 LTS版本发布
2025年12月30日
openFuyao社区致力于构建面向多样化算力集群的开放软件生态,专注于推动AI原生技术的高效协同,促进有效算力的极致释放。
社区发行版v25.12发布了诸多新特性,并对若干存量特性进行优化,以下介绍具体的特性新增与变动:
InferNex: hermes-router智能路由再提升,eagle eye监控组件新发布
hermes-router
SIG-ai-inference推出的ai-inference-integration(AI推理集成)正式更名为InferNex,该服务集成了多个特性,其中hermes-router在本次版本中有如下功能新增:
- 基于K8s GIE(Gateway API Inference Extension)扩展,现支持与Istio等开源网关集成,新架构支持开发者快速创建新的路由策略。
- 新增3种适用于PD分离架构的路由策略:分桶调度策略pd-bucket、随机调度策略pd-random-bucket以及多因素KVCache感知策略pd-kv-cache-aware。
新路由策略对比random策略在其他数据集场景性能不劣化的情况下,在特定数据集场景平均性能提升16%~30%:
表1 hermes-router新增路由策略性能表现
| 路由策略 | 数据集 | 性能表现 |
|---|---|---|
| aggregate kv cache aware | aggregate kv cache aware-30%随机数据集 | 性能无明显差异 |
| aggregate kv cache aware-多轮对话数据集场景 | Total token throughput、Output token throughput及Request throughput可提升21-33%,Average latency降低20-29%、time to first token降低29-50%。 | |
| aggregate kv cache aware-完全随机数据集 | 性能无明显差异 | |
| pd kv cache aware | pd KV Cache aware-30%随机数据集 | 性能无明显差异 |
| pd bucket | pd bucket-长短分布数据集 | TPS提升16%~28% |
eagle eye
eagle eye提供业务运行态、系统运行态、硬件健康等不同粒度关键指标的近实时监控,支持推理场景动态扩缩容、策略选择、容灾等能力。 它面向对时效性要求高的模块(如hermes-router),通过NATS实现毫秒级指标推送,确保推理过程中的关键性能指标(如等待执行的推理请求数、NPU/GPU KVCache利用率等)能够被及时感知并影响决策。
当前,eagle eye能够做到硬件健康检查指标低丢失率的同时,毫秒级上报功能发布方单条日志采集间隔<10ms;订阅方日志接收平均时延<1ms。
安装部署:大规模集群、大版本升级、易用性提升
大规模集群:16000节点的安装部署
sig large scale cluster发布的首个特性,通过对kubernetes、volcano-ext、pytorch等组件的优化,使用installer工具安装高达6000节点规模集群,且端到端调度时间<3分钟。
大版本升级
sig installationr在首个openFuyao LTS版本中正式推出大版本升级功能,支持社区候选版本、正式版本、LTS版本的依次升级,通过滚动升级的方式降低业务中断影响,从而解决升级难题,将运维人员从复杂的手动操作中解放,确保基础设施的稳定与安全合规。
表2 版本升级路径
| 待升级版本 | 版本类型 | 可升级版本列表 |
|---|---|---|
| v25.12-rc.2 | 候选版本 | [ v25.12-rc.3, v25.12, v25.12.2, v25.12.3, v26.03 ] |
| v25.12 | 正式版本 | [ v25.12.2, v25.12.3, v26.03 ] |
| v25.12.2 | 补丁版本 | [ v25.12.3, v26.03 ] |
| latest | 每日构建版本 | [ ] |
v25.12.2和v25.12.3为补丁版本格式的版本号,v26.03为正式版本格式的版本号,实际尚未发布,在此用于举例。
易用性提升
Cluster-API安装部署工具在v25.12发行版进行了多维度的易用性提升,大幅提高了安装部署的鲁棒性与自由度:
- 前置环境校验工具:支持对前置环境进行路径校验,扫描系统中是否存在可能影响安装部署的K8s组件残留。
- 支持在线镜像仓库、chart仓库及二进制仓库的后端自定义配置。
- 支持后端对kubelet和containerd组件的配置扩展和自定义。
- 允许部分worker节点安装部署失败场景下的集群创建。
- 支持后端证书自定义配置,并进行kubeconfig权限降级。
- 支持后端安装业务集群通过addon配置所部署组件时根据节点标签进行亲和性部署。
本文由openFuyao社区首发,欢迎遵照CC-BY-SA 4.0协议规定转载。
