跳到主要内容

告警中心

概述

开源版 Rainbond 不具备告警能力,当集群节点异常、组件资源超限或关键服务故障时,运维人员只能依赖手动巡检来发现问题,响应滞后。

Rainbond 告警中心是平台级的实时异常检测与智能告警系统,对接 Prometheus 数据源,内置丰富的告警规则模板,覆盖系统负载、CPU、磁盘、etcd、Kubernetes 控制面等核心指标。支持自定义告警规则和阈值,通过邮件、钉钉、飞书、Webhook 等多渠道通知,保障服务连续性。

功能对比

维度开源版告警中心插件
异常感知无告警能力,依赖手动巡检实时监测,异常自动触发告警
告警规则内置系统/K8s/etcd 等规则模板,支持自定义
通知渠道邮件、钉钉、飞书、企业微信、Webhook
告警管理活跃告警、历史告警、屏蔽规则、告警分组

核心能力

告警规则管理

内置丰富的告警规则模板,对接 Prometheus 数据源,覆盖主要运维场景:

  • 系统级规则:系统负载过高、CPU 负载高、inode 使用率高等
  • Kubernetes 级规则:控制面故障、DaemonSet 清理失败、证书即将过期等
  • etcd 规则:健康检查失败、实例不可用、性能异常、Leader 丢失等
  • CoreDNS 规则:CoreDNS 未就绪

每条规则可配置告警级别(S1 / S2 / S3)、附加标签、告警接收组,并支持逐条启用或禁用。

告警规则管理

告警生命周期管理

告警中心提供完整的告警生命周期管理:

模块说明
活跃告警查看当前正在触发的告警,实时掌握系统异常状态
历史告警查看已恢复的告警记录,支持回溯和统计分析
屏蔽规则对已知问题或计划内维护设置告警屏蔽,避免告警噪声

多渠道通知

灵活配置通知策略,确保告警信息及时送达:

  • 通知设置:配置通知规则,按告警级别和分组路由到不同渠道
  • 通知模版:自定义通知内容模板,支持变量替换
  • 联系方式:管理邮件、钉钉、飞书、企业微信、Webhook 等通知渠道
  • 告警用户:管理告警接收人和接收组

数据源管理

支持对接 Prometheus 数据源,统一管理告警数据来源。支持配置多个数据源,适配多集群场景。

使用指南

启用插件

  1. 进入 平台管理 -> 插件中心,找到「告警中心」插件并启用。
  2. 启用后刷新页面,平台管理视图左侧「可观测性」分组下会出现「告警中心」入口。

配置数据源

  1. 进入 告警中心 -> 数据源
  2. 确认 Prometheus 数据源已就绪,或添加新的数据源。

管理告警规则

  1. 进入 告警中心 -> 告警规则
  2. 插件已内置常用规则,可直接启用。
  3. 如需自定义,点击 新增 创建规则,配置数据源、告警表达式、级别和接收组。
  4. 通过筛选栏按数据源类型、级别、名称快速定位规则。

配置通知渠道

  1. 进入 告警中心 -> 联系方式,添加通知渠道(邮件、钉钉、飞书、Webhook 等)。
  2. 进入 告警中心 -> 通知模版,根据需要自定义通知内容。
  3. 进入 告警中心 -> 告警用户,添加告警接收人并分组。
  4. 进入 告警中心 -> 通知设置,将告警规则与通知渠道、接收组关联。

查看告警

  • 活跃告警:查看当前触发中的告警,及时处理异常。
  • 历史告警:回溯已恢复的告警,分析问题趋势。
  • 屏蔽规则:对计划维护或已知问题设置临时屏蔽。

获取企业版

开启企业级能力,免费试用 30 天,无需重新安装集群。体验 GPU 管理、安全审计等高级功能。