普罗米修斯入门指南：轻松掌握常见指标

后端

2023-11-06 19:24:38

揭开普罗米修斯的监控面纱：指标与 PromQL

踏上普罗米修斯之旅

普罗米修斯，监控世界的冉冉新星，正以其强大的指标体系和查询语言 PromQL 掀起一场风暴。这篇文章将带你踏上普罗米修斯入门之旅，揭开其监控魔力的秘密。

普罗米修斯的魔法公式：指标 + PromQL

普罗米修斯的核心是指标和 PromQL。指标是系统或应用程序状态的测量值，而 PromQL 允许你查询这些指标，从中获取你所需的见解。

常见指标：系统的生命体征

在众多指标中，CPU、内存、磁盘和网络是最常见的。它们就像系统的生命体征，让你全面了解其运行状况，以便及时发现问题并采取行动。

实战演示：用普罗米修斯指标剖析应用服务器

让我们进行一场实战演示，看看如何使用普罗米修斯指标来展现应用服务器的健康状况。我们将使用 PromQL 查询这些指标并将其可视化。

CPU：系统的心跳

node_cpu_utilization : 每个 CPU 核心的利用率
node_cpu_seconds_total : 每个 CPU 的总运行时间
node_cpu_load_average_1m : 系统的 1 分钟平均负载

内存：系统的呼吸

node_memory_MemTotal_bytes : 系统的总内存容量
node_memory_MemFree_bytes : 系统的可用内存容量
node_memory_Cached_bytes : 系统中缓存的内存容量

磁盘：系统的存储空间

node_filesystem_size_bytes : 文件系统的总容量
node_filesystem_free_bytes : 文件系统的可用容量
node_disk_io_time_seconds_total : 磁盘的总 I/O 时间

网络：系统的脉搏

node_network_transmit_bytes_total : 系统的总发送流量
node_network_receive_bytes_total : 系统的总接收流量
node_network_errors_total : 系统的总网络错误数

案例代码：展示应用服务器的健康状况

# CPU 利用率
avg(irate(node_cpu_utilization{mode="idle"}[5m])) by (instance)
# 内存使用情况
(node_memory_MemTotal_bytes - node_memory_MemFree_bytes) / node_memory_MemTotal_bytes * 100
# 磁盘空间使用情况
(node_filesystem_size_bytes - node_filesystem_free_bytes) / node_filesystem_size_bytes * 100
# 网络流量
rate(node_network_transmit_bytes_total{direction="transmit"}[5m])
rate(node_network_receive_bytes_total{direction="receive"}[5m])