网淘吧来吧,欢迎您!

Monitoring技能使用说明

2026-03-28 新闻来源:网淘吧 围观:17
电脑广告
手机广告

复杂度级别

级别工具设置时间最佳适用场景
最低配置UptimeRobot, Healthchecks.io15分钟个人项目,最小可行产品
标准配置Uptime Kuma, Sentry, 基础版Grafana1-2小时小型团队,初创公司
专业配置Prometheus, Grafana, Loki, Alertmanager1-2天生产系统
企业级配置Datadog, New Relic,或完整的开源技术栈持续进行大规模运营

三大支柱

支柱解答的问题工具
指标"系统运行状况如何?"Prometheus、Grafana、Datadog
日志"发生了什么?"Loki、ELK、CloudWatch
追踪"为什么这个请求很慢?"Jaeger、Tempo、Sentry

按使用场景快速入门

"我只想知道它是否宕机了"→ UptimeRobot(免费)或 Uptime Kuma(自托管)。参见simple.md

"我需要调试生产环境错误"→ 使用您框架的 SDK 集成 Sentry。5 分钟设置完成。参见apm.md

"我想要真正的可观测性"→ Prometheus + Grafana + Loki。参见prometheus.md

"我需要集中管理日志"简单查询用Loki,复杂查询用ELK。参见logs.md

监控内容

应用程序(RED方法)

  • Rate — 每秒请求数
  • Errors — 按端点的错误率
  • Duration — 延迟(p50、p95、p99)

基础设施(USE方法)

  • Utilization — CPU、内存、磁盘使用率
  • Saturation — 队列深度、平均负载
  • Errors — 硬件/系统错误

告警原则

应做不应做
基于症状告警(用户影响)基于原因告警(CPU高)
包含操作手册链接需要调查才能理解
设置适当的严重等级将所有事项设为P1级
需要采取行动对“有趣的”指标发出警报

警报疲劳会扼杀监控。如果警报被忽略,就等于没有监控。

关于警报配置、严重等级和值班设置,请参见alerting.md

成本对比

解决方案月成本(小型)月成本(中型)
UptimeRobot免费7美元
Uptime Kuma5美元 (VPS)5美元 (VPS)
Sentry免费 / 26美元80美元
Grafana Cloud免费套餐50美元以上
Datadog15美元/主机23美元/主机 + 功能
自托管技术栈10-20美元 (VPS)50-100美元 (VPS)

常见错误

  • 当Uptime Kuma就足够时,却从Prometheus/Grafana开始
  • 没有告警(仪表板无人查看)
  • 告警过多(告警疲劳 → 被忽略)
  • 缺少操作手册(告警触发,无人知道如何处理)
  • 未从外部监控(仅进行内部检查)
  • 永久存储日志(成本激增)
免责申明
部分文章来自各大搜索引擎,如有侵权,请与我联系删除。
打赏
文章底部电脑广告
手机广告位-内容正文底部

相关文章

您是本站第345671名访客 今日有104篇新文章/评论