openFuyao技术讲堂| AI推理鹰眼（Eagle Eye）

丁婷雨、朱雪仪

2026-04-17

1 特性介绍

Eagle Eye是面向AI推理场景的可观测体系，旨在提供从业务运行态、系统运行态到硬件健康的全链路指标采集、实时传输与智能诊断。该体系融合了Prometheus的周期性指标采集与NATS的低延迟推送机制，既能支撑扩缩容决策的趋势分析，也能满足智能路由对秒级数据更新的需求。通过独立的硬件健康诊断模块，实现对NPU、温度、功耗、错误码等底层指标的持续监测与异常识别，构建“采集—传输—诊断—评估”的闭环监控能力，为AI推理系统的稳定性、性能优化与资源调度提供坚实的数据支撑。

1.1 应用场景

应用场景	详情
系统资源健康监控	实时监控系统运行态（如CPU、内存、网络使用情况等）和硬件资源，及时发现并解决资源瓶颈，确保系统高效运行。
推理过程性能优化	实时监控推理流程中的各个阶段（如prefill、decode等）的性能指标（如延迟、吞吐量）和资源使用情况，识别并分析性能瓶颈，优化模型执行效率，提升推理任务的响应速度和计算效率。
硬件故障诊断与修复	查看硬件诊断模块提供的异常分析报告，帮助快速定位并解决硬件故障。实时监测NPU、温度、功耗等硬件状态，生成详细的故障分析报告确保硬件的稳定性和可靠性。
自动缩扩容决策	获取SLA相关指标（如吞吐率、延迟等）并作为自动扩缩容决策的依据，确保推理服务根据负载和性能需求动态扩展或缩减，达到弹性伸缩的目标。
智能路由决策	通过秒级实时数据更新，使智能路能基于最新的数据迅速做出决策，从而优化AI推理过程中的响应速度。

1.2 能力范围

多层指标覆盖：覆盖业务运行态（如请求队列长度、响应延迟）、系统运行态（CPU、内存、容器状态）及硬件健康指标（温度、功耗、错误码等），实现从业务到硬件的全链路观测。
近实时指标传输：面向对时效性要求高的模块（如智能路由），通过NATS实现秒级指标推送，确保推理过程中的关键性能指标（如等待执行的推理请求数、NPU KV Cache利用率等）能够被及时感知并影响决策。
缩扩容决策支撑：将采集到的系统与运行态指标同步上报至Prometheus，用于周期性计算与趋势评估。
硬件健康检查与诊断：硬件健康诊断模块周期性采集NPU温度、功耗、错误码等底层指标，并通过NATS实时上报。诊断模块订阅并分析采集数据，结合设备型号、驱动与固件信息，识别典型故障模式并输出诊断结论与处置建议，实现从数据采集到健康评估的闭环。

2 实现原理

如上图，监控系统按照业务层次分为后端服务层和组件层，其中：

后端服务层：
- Hardware Health Monitor：· 硬件健康检测模块作为独立运行的采集组件，以周期性任务方式主动执行指标采集与上报。模块在运行过程中会按照固定采集周期调用底层接口（DCMI、NVML）或解析系统日志（dmesg），获取设备运行状态与健康信息。采集结果通过NATS实时发布至诊断模块，实现采集与诊断的解耦。
- Hardware Diagnosis：· 诊断模块订阅采集模块通过NATS发布的指标数据，结合设备型号、驱动及固件信息，对硬件健康状态进行实时分析。模块支持阈值判断与异常，识别典型故障模式并输出诊断结论与处置建议，实现从数据采集到健康评估的闭环。
组件层：组件层提供底层的指标采集，传输与展示能力，涵盖了以下关键模块：指标采集（Exporter）、高性能分布式消息系统（NATS）、指标存储（Prometheus）以及展示（Grafana）。

3 未来展望

当前的硬件诊断能力主要面向已发生的明确故障，但在实际生产环境中，设备在故障前往往会经历一段“亚健康”状态（如温度持续偏高导致隐性降频、ECC纠错频率升高等等）。若不能及时识别这些退化现象，可能导致推理性能不可预期地下降，甚至演变为故障。未来，我们将聚焦硬件亚健康状态探测能力建设，通过定义“健康—亚健康—故障”的分级评估模型、引入时序趋势分析和多指标关联诊断，并将亚健康评估结果与上层调度模块联动，实现对硬件性能退化的早期感知与主动规避，从而进一步提升推理服务的整体可用性与稳定性。

4 资源参考

如您对Eagle Eye感兴趣，可参考特性安装指导进行安装部署： https://docs.openfuyao.cn/zh/docs/v25.12/user_guide/eagle_eye_for_ai_inference.html#安装

更多openFuyao v25.12版本软件包可在如下地址下载： https://www.openFuyao.cn/zh/download/

本文由openFuyao社区首发，欢迎遵照CC-BY-SA 4.0协议规定转载。

博客

openFuyao技术讲堂| AI推理鹰眼（Eagle Eye）

1 特性介绍 ​

1.1 应用场景 ​

1.2 能力范围 ​

2 实现原理 ​

3 未来展望 ​

4 资源参考 ​