openFuyao技术讲堂| AI推理鹰眼(Eagle Eye)

丁婷雨、朱雪仪2026-04-17

1 特性介绍

Eagle Eye是​面向AI推理场景的可观测体系​,旨在提供从业务运行态、系统运行态到硬件健康的​全链路指标采集、实时传输与智能诊断​。该体系融合了Prometheus的周期性指标采集NATS的低延迟推送机制,既能支撑扩缩容决策的趋势分析,也能满足智能路由对秒级数据更新的需求。通过独立的硬件健康诊断模块,实现对NPU、温度、功耗、错误码等底层指标的持续监测与异常识别,构建“采集—传输—诊断—评估”的闭环监控能力,为AI推理系统的稳定性、性能优化与资源调度提供坚实的数据支撑。

1.1 应用场景

应用场景详情
系统资源健康监控实时监控系统运行态(如CPU、内存、网络使用情况等)和硬件资源,及时发现并解决资源瓶颈,确保系统高效运行。
推理过程性能优化实时监控推理流程中的各个阶段(如prefill、decode等)的性能指标(如延迟、吞吐量)和资源使用情况,识别并分析性能瓶颈,优化模型执行效率,提升推理任务的响应速度和计算效率。
硬件故障诊断与修复查看硬件诊断模块提供的异常分析报告,帮助快速定位并解决硬件故障。实时监测NPU、温度、功耗等硬件状态,生成详细的故障分析报告确保硬件的稳定性和可靠性。
自动缩扩容决策获取SLA相关指标(如吞吐率、延迟等)并作为自动扩缩容决策的依据,确保推理服务根据负载和性能需求动态扩展或缩减,达到弹性伸缩的目标。
智能路由决策通过秒级实时数据更新,使智能路能基于最新的数据迅速做出决策,从而优化AI推理过程中的响应速度。

1.2 能力范围

  • 多层指标覆盖:覆盖业务运行态(如请求队列长度、响应延迟)、系统运行态(CPU、内存、容器状态)及硬件健康指标(温度、功耗、错误码等),实现从业务到硬件的全链路观测。
  • 近实时指标传输:面向对时效性要求高的模块(如智能路由),通过NATS实现秒级指标推送,确保推理过程中的关键性能指标(如等待执行的推理请求数、NPU KV Cache利用率等)能够被及时感知并影响决策。
  • 缩扩容决策支撑: 将采集到的系统与运行态指标同步上报至Prometheus,用于周期性计算与趋势评估。
  • 硬件健康检查与诊断: 硬件健康诊断模块周期性采集NPU温度、功耗、错误码等底层指标,并通过NATS实时上报。诊断模块订阅并分析采集数据,结合设备型号、驱动与固件信息,识别典型故障模式并输出诊断结论与处置建议,实现从数据采集到健康评估的闭环。

2 实现原理

Eagle Eye架构图

如上图,监控系统按照业务层次分为后端服务层和组件层,其中:

  • 后端服务层
    • Hardware Health Monitor:· 硬件健康检测模块作为独立运行的采集组件,​以周期性任务方式主动执行指标采集与上报​。模块在运行过程中会按照固定采集周期调用底层接口(DCMI、NVML)或解析系统日志(dmesg),获取设备运行状态与健康信息。采集结果通过NATS实时发布至诊断模块,实现采集与诊断的解耦。
    • Hardware Diagnosis:· 诊断模块订阅采集模块通过NATS发布的指标数据,​结合设备型号、驱动及固件信息​,对硬件健康状态进行实时分析。模块支持阈值判断与异常,识别典型故障模式并输出诊断结论与处置建议,实现从数据采集到健康评估的闭环。
  • 组件层: 组件层提供底层的指标采集,传输与展示能力,涵盖了以下关键模块:指标采集(Exporter)、高性能分布式消息系统(NATS)、指标存储(Prometheus)以及展示(Grafana)。

3 未来展望

当前的硬件诊断能力主要面向已发生的明确故障,但在实际生产环境中,设备在故障前往往会经历一段“亚健康”状态(如温度持续偏高导致隐性降频、ECC纠错频率升高等等)。若不能及时识别这些退化现象,可能导致推理性能不可预期地下降,甚至演变为故障。未来,我们将聚焦硬件亚健康状态探测能力建设,通过定义“健康—亚健康—故障”的分级评估模型、引入时序趋势分析和多指标关联诊断,并将亚健康评估结果与上层调度模块联动,实现对硬件性能退化的早期感知与主动规避,从而进一步提升推理服务的整体可用性与稳定性。

4 资源参考

如您对Eagle Eye感兴趣,可参考特性安装指导进行安装部署: https://docs.openfuyao.cn/zh/docs/v25.12/user_guide/eagle_eye_for_ai_inference.html#安装

更多openFuyao v25.12版本软件包可在如下地址下载: https://www.openFuyao.cn/zh/download/

本文由openFuyao社区首发,欢迎遵照CC-BY-SA 4.0协议规定转载。