【架构实战】监控告警体系：系统的健康体检-尧图网站建设

ä¸€ã€ä¸€æ¬¡ç‹¼æ¥äº†äº‹ä»¶ç»™æˆ‘çš„æ•™è®2018å¹´ï¼Œæˆ‘ç»åŽ†äº†ä¸€æ¬¡è®©æˆ‘åˆ»éª¨é“å¿ƒçš„äº‹æ•ã€‚é‚£å¤©å‡Œæ™¨2ç‚¹ï¼Œæ‰‹æœºç–¯ç‹‚éœ‡åŠ¨ï¼Œå‘Šè¦çŸä¿¡ä¸€æ¡æŽ¥ä¸€æ¡ï¼šRedisè¿žæŽ¥æ•°è¶é™ã€æ•°æ®åº“CPU 99%ã€æŽ¥å£å“åº”æ—¶é—´è¶è¿‡5ç§’ã€‚æˆ‘çˆ¬èµ·æ¥ä¸€çœ‹ï¼Œå‘Šè¦ç³»ç»Ÿæ˜¾ç¤ºç³»ç»Ÿå·²ç»æŒ‚äº†ã€‚æˆ‘èµ¶ç´§çˆ¬èµ·æ¥å¤„ç†ï¼Œç»“æžœå‘çŽ°â€”â€”ä»€ä¹ˆé—®é¢˜éƒ½æ²¡æœ‰ã€‚Redisæ£å¸¸ï¼Œæ•°æ®åº“æ£å¸¸ï¼ŒæŽ¥å£å“åº”æ—¶é—´åªæœ‰å‡ åæ¯«ç§’ã€‚ç¬¬äºŒå¤©ä¸€é—®ï¼ŒåŽŸæ¥æ˜¯è¿ç»´åŒå¦åœ¨å‡Œæ™¨1ç‚¹åšäº†ä¸€æ¬¡æ•°æ®åº“ç»´æŠ¤ï¼Œè§¦å‘äº†å¤§é‡çš„ä¸´æ—¶å‘Šè¦ï¼Œç„¶åŽè¿™äº›å‘Šè¦åœ¨2ç‚¹é›†ä¸å‘é€å‡ºæ¥ã€‚ä½†è¿™äº›å‘Šè¦éƒ½æ˜¯æ— æ•ˆå‘Šè¦â€”â€”ç³»ç»Ÿåœ¨ç»´æŠ¤æœŸé—´æœ¬æ¥å°±æ˜¯ä¸æ£å¸¸çš„ã€‚ä»Žé‚£ä»¥åŽï¼Œæˆ‘ä»¬å›¢é˜Ÿå¼€å§‹è®¤çœŸæ€è€ƒå‘Šè¦ä½“ç³»çš„è®¾è®¡ï¼šä»€ä¹ˆæ ·çš„å‘Šè¦æ‰æ˜¯çœŸæ£æœ‰ä»·å€¼çš„ï¼ŸäºŒã€æŒ‡æ ‡ä½“ç³»è®¾è®¡ï¼šè®©ç³»ç»Ÿå¯è§åšç›‘æŽ§ï¼Œé¦–åˆè¦æ¸æ¥šç›‘æŽ§ä»€ä¹ˆã€‚ä¸šç•Œæœ‰ä¸¤ä¸ªç»å¸çš„ç›‘æŽ§æ–¹æ³•è®ºï¼šREDæ–¹æ³•å’ŒUSEæ–¹æ³•ã€‚2.1 REDæ–¹æ³•ï¼ˆé¢å‘æœåŠ¡ï¼‰é€‚ç”¨äºŽæ— çŠ¶æ€æœåŠ¡ï¼ˆå¦‚HTTP APIï¼‰ï¼šRateï¼šè¯·æ±‚é€ŸçŽ‡ï¼ˆQPS/TPSï¼‰Errorï¼šé”™è¯¯çŽ‡Durationï¼šå“åº”æ—¶é—´åˆ†å¸ƒï¼ˆp50/p90/p99ï¼‰2.2 USEæ–¹æ³•ï¼ˆé¢å‘èµ„æºï¼‰é€‚ç”¨äºŽç³»ç»Ÿèµ„æºï¼ˆå¦‚CPUã€å†å˜ã€ç£ç›˜ï¼‰ï¼šUtilizationï¼šåˆ©ç”¨çŽ‡Saturationï¼šé¥±å’Œåº¦Errorsï¼šé”™è¯¯æ•°2.3 æˆ‘ä»¬çš„æŒ‡æ ‡ä½“ç³»æˆ‘ä»¬æœ€ç»ˆè®¾è®¡çš„æŒ‡æ ‡ä½“ç³»å¦‚ä¸‹ï¼š# å¾®æœåŠ¡æŒ‡æ ‡é‡‡é›†éç½®ï¼ˆPrometheusæ ¼å¼ï¼‰# ä¸šåŠ¡æŒ‡æ ‡app_business:order_count:type:counterdescription:è®¢å•åˆ›å»ºæ•°é‡labels:[service,status]payment_amount:type:counterdescription:æ”¯ä»˜é‡‘é¢labels:[service,payment_type]active_users:type:gaugedescription:æ´»è·ƒç”¨æˆ·æ•°labels:[service]# HTTPæŒ‡æ ‡http_requests:total:type:counterdescription:HTTPè¯·æ±‚æ€»æ•°labels:[method,path,status]duration_seconds:type:histogramdescription:HTTPå“åº”æ—¶é—´labels:[method,path]buckets:[0.005,0.01,0.025,0.05,0.1,0.25,0.5,1,2.5,5,10]# JVMæŒ‡æ ‡jvm:memory_used_bytes:type:gaugedescription:JVMå·²ä½¿ç”¨å† å˜labels:[area,service]gc_count:type:counterdescription:GCæ¬¡æ•°labels:[gc_type]thread_count:type:gaugedescription:æ´»è·ƒçº¿ç¨‹æ•°labels:[thread_type]# æ•°æ®åº“æŒ‡æ ‡database:connections:type:gaugedescription:æ•°æ®åº“è¿žæŽ¥æ•°labels:[pool_name]query_duration_seconds:type:histogramdescription:SQLæ‰§è¡Œæ—¶é—´labels:[operation,table]# ç¼“å˜æŒ‡æ ‡redis:commands_total:type:counterdescription:Rediså‘½ä»¤æ€»æ•°labels:[command,status]keyspace_keys:type:gaugedescription:Keyæ•°é‡labels:[db]memory_used_bytes:type:gaugedescription:Redisä½¿ç”¨å† å˜2.4 å³é”®å‘Šè¦é˜ˆå€¼è®¾è®¡# AlertManagerå‘Šè¦è§„åˆ™éç½®groups:-name:business_alertsrules:-alert:HighErrorRateexpr:|sum(rate(http_requests_total{status~5..}[5m])) / sum(rate(http_requests_total[5m])) 0.05for:5mlabels:severity:criticalannotations:summary:æœåŠ¡{{ $labels.service }}é”™è¯¯çŽ‡è¿‡é«˜description:5åˆ†é’Ÿå† é”™è¯¯çŽ‡è¶ è¿‡5%ï¼Œå½“å‰å€¼ï¼š{{$value|printf \%.2f\}}%-alert:OrderCountDropexpr:|sum(increase(app_business_order_count[10m])) 100for:5mlabels:severity:warningannotations:summary:è®¢å•æ•°é‡å¼‚å¸¸ä¸‹é™description:æœ€è¿‘10åˆ†é’Ÿè®¢å•æ•°å°‘äºŽ100å•ï¼Œå¯èƒ½å˜åœ¨ä¸šåŠ¡é—®é¢˜-name:infrastructure_alertsrules:-alert:HighCPUUsageexpr:|100 - (avg by(instance) (rate(node_cpu_seconds_total{modeidle}[5m])) * 100) 80for:10mlabels:severity:warningannotations:summary:CPUä½¿ç”¨çŽ‡è¿‡é«˜description:æœåŠ¡å™¨{{$labels.instance}}CPUä½¿ç”¨çŽ‡è¶ è¿‡80%-alert:JVMHeapMemoryHighexpr:|jvm_memory_used_bytes{areaheap} / jvm_memory_max_bytes{areaheap} 0.85for:5mlabels:severity:warningannotations:summary:JVMå †å† å˜ä½¿ç”¨çŽ‡è¿‡é«˜description:æœåŠ¡{{$labels.service}}å †å† å˜ä½¿ç”¨çŽ‡è¶ è¿‡85%-alert:DatabaseConnectionPoolExhaustedexpr:|datasource_connections_active / datasource_connections_max 0.9for:2mlabels:severity:criticalannotations:summary:æ•°æ®åº“è¿žæŽ¥æ± å³å°†è€—å°½description:{{$labels.pool_name}}è¿žæŽ¥æ± ä½¿ç”¨çŽ‡è¶ è¿‡90%ä¸‰ã€Grafanaå¤§ç›˜è®¾è®¡å‰æœ‰å‘Šè¦è¿˜ä¸å¤Ÿï¼Œè¿˜éœ€è¦å¯è§†åŒ–å¤§ç›˜è®©å›¢é˜Ÿå¯¹ç³»ç»ŸçŠ¶æ€ä¸€ç›®äº†ç„¶ã€‚3.1 å¤§ç›˜åˆ†å±‚è®¾è®¡â”Œâ”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â” â”‚ ç³»ç»Ÿæ¦‚è§ˆå¤§å± â”‚ â”œâ”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”¬â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”¬â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”¬â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”¤ â”‚ è¯·æ±‚QPS â”‚ é”™è¯¯çŽ‡ â”‚ å¹³å‡å“åº”æ—¶é—´ â”‚ åœ¨çº¿ç”¨æˆ·æ•° â”‚ â”‚ â–“â–“â–“â–“â–“â–‘â–‘â–‘ â”‚ 0.12% âœ â”‚ 45ms âœ â”‚ 12,345 â”‚ â”œâ”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”´â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”´â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”´â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”¤ â”‚ å„æœåŠ¡å¥åº·çŠ¶æ€ â”‚ â”œâ”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”¬â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”¬â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”¬â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”¤ â”‚ è®¢å•æœåŠ¡ â”‚ æ”¯ä»˜æœåŠ¡ â”‚ ç”¨æˆ·æœåŠ¡ â”‚ å•†å“æœåŠ¡ â”‚ â”‚ â— å¥åº· 42ms â”‚ â— å¥åº· 38msâ”‚ â— å¥åº· 25ms â”‚ â— å¥åº· 55ms â”‚ â”œâ”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”´â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”´â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”´â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”¤ â”‚ åŸºç¡€è®¾æ–½çŠ¶æ€ â”‚ â”œâ”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”¬â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”¬â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”¬â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”¤ â”‚ CPU: 45% â”‚ å† å˜: 62% â”‚ ç£ç›˜: 78% â”‚ ç½‘ç»œ: æ£å¸¸ â”‚ â”‚ â–“â–“â–“â–“â–‘â–‘â–‘â–‘â–‘ â”‚ â–“â–“â–“â–“â–“â–“â–‘â–‘â–‘ â”‚ â–“â–“â–“â–“â–“â–“â–“â–“â–‘â–‘ â”‚ â— æ£å¸¸ â”‚ â””â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”´â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”´â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”´â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”˜3.2 Grafana Dashboard JSONéç½®{dashboard:{title:å¾®æœåŠ¡ç›‘æŽ§å¤§ç›˜,tags:[microservice,production],timezone:Asia/Shanghai,panels:[{title:æœåŠ¡è¯·æ±‚QPS,type:graph,gridPos:{x:0,y:0,w:12,h:8},targets:[{expr:sum(rate(http_requests_total{service~\$service\}[1m])) by (service),legendFormat:{{service}}}],alert:{name:QPSå¼‚å¸¸å‘Šè¦,conditions:[{evaluator:{params:[10],type:lt},operator:{type:and},query:{params:[A,5m,now]},reducer:{type:avg}}],frequency:1m,noDataState:no_data}},{title:æœåŠ¡é”™è¯¯çŽ‡,type:stat,gridPos:{x:12,y:0,w:6,h:4},targets:[{expr:sum(rate(http_requests_total{status~\5..\}[5m])) / sum(rate(http_requests_total[5m])) * 100}],fieldConfig:{defaults:{thresholds:{mode:absolute,steps:[{color:green,value:null},{color:yellow,value:1},{color:red,value:5}]},unit:percent,decimals:2}}},{title:JVMå †å† å˜ä½¿ç”¨çŽ‡,type:gauge,gridPos:{x:18,y:0,w:6,h:4},targets:[{expr:jvm_memory_used_bytes{area\heap\} / jvm_memory_max_bytes{area\heap\} * 100}],fieldConfig:{defaults:{thresholds:{mode:percentage,steps:[{color:green,value:null},{color:yellow,value:70},{color:red,value:85}]},unit:percent,max:100}}},{title:æ•°æ®åº“è¿žæŽ¥æ± ,type:graph,gridPos:{x:0,y:8,w:12,h:8},targets:[{expr:datasource_connections_active{pool_name~\$pool\},legendFormat:æ´»è·ƒè¿žæŽ¥},{expr:datasource_connections_idle{pool_name~\$pool\},legendFormat:ç©ºé—²è¿žæŽ¥},{expr:datasource_connections_max{pool_name~\$pool\},legendFormat:æœ€å¤§è¿žæŽ¥}]}]}}å››ã€å‘Šè¦åˆ†çº§ä¸Žæ”¶æ•›4.1 å‘Šè¦åˆ†çº§ç–ç•¥æˆ‘ä»¬æŠŠå‘Šè¦åˆ†ä¸º5ä¸ªçº§åˆ«ï¼šçº§åˆ«åç§°å®šä¹‰å“åº”æ—¶é—´é€šçŸ¥æ–¹å¼P0æœ€é«˜æ ¸å¿ƒä¸šåŠ¡å®Œå¨ä¸å¯ç”¨5åˆ†é’Ÿå†ç”µè¯ çŸä¿¡ é’‰é’‰P1é«˜æ ¸å¿ƒåŠŸèƒ½å—æŸ15åˆ†é’Ÿå†çŸä¿¡ é’‰é’‰P2ä¸éžæ ¸å¿ƒåŠŸèƒ½å¼‚å¸¸1å°æ—¶å†é’‰é’‰P3ä½Žæ½œåœ¨é£Žé™©å·¥ä½œæ—¶é—´å¤„ç†é‚®ä»¶P4æç¤ºæ— å³ç´§è¦çš„æç¤ºä¸å¤„ç†æ—¥å¿—4.2 å‘Šè¦æ”¶æ•›ç–ç•¥å‘Šè¦é£Žæš´æ˜¯æœ€å¤§çš„æ•Œäººã€‚æˆ‘ä»¬ä½¿ç”¨AlertManagerçš„åˆ†ç»„å’ŒæŠ‘åˆ¶åŠŸèƒ½ï¼š# AlertManageréç½®global:resolve_timeout:5msmtp_smarthost:smtp.example.com:587smtp_from:alertexample.com# å‘Šè¦è·¯ç”±éç½®route:group_by:[alertname,cluster,service]group_wait:30s# ç‰å¾30ç§’åˆ†ç»„group_interval:5m# æ¯5åˆ†é’Ÿå‘é€ä¸€æ¬¡åˆ†ç»„å‘Šè¦repeat_interval:4h# é‡å¤å‘Šè¦é—´éš”4å°æ—¶receiver:defaultroutes:# P0/P1å‘Šè¦ç«‹å³å‘é€-match:severity:criticalreceiver:critical-alertsgroup_wait:0srepeat_interval:1h# P2å‘Šè¦æ”¶æ•›åŽå‘é€-match:severity:warningreceiver:warning-alertsgroup_wait:1mrepeat_interval:4h# æŒ‰æœåŠ¡åˆ†ç»„-match:service:order-servicereceiver:order-teamroutes:-match:severity:criticalreceiver:order-team-criticalgroup_wait:0sreceivers:-name:critical-alerts# ç”µè¯é€šçŸ¥ï¼ˆä½¿ç”¨è¾è®¯äº‘ç”µè¯æœåŠ¡ï¼‰webhook_configs:-url:http://alert-phone.example.com/callsend_resolved:true# é’‰é’‰é€šçŸ¥webhook_configs:-url:http://dingtalk.example.com/webhooksend_resolved:trueheaders:Content-Type:application/jsonmax_alerts:10# é‚®ä»¶é€šçŸ¥email_configs:-to:oncallexample.comsend_resolved:true-name:warning-alertswebhook_configs:-url:http://dingtalk.example.com/webhook-warning# åªå‘é’‰é’‰ï¼Œä¸å‘ç”µè¯å’Œé‚®ä»¶# å‘Šè¦æŠ‘åˆ¶è§„åˆ™inhibit_rules:# å½“æœåŠ¡å™¨å®•æœºæ—¶ï¼ŒæŠ‘åˆ¶è¯¥æœåŠ¡å™¨ä¸Šæ‰€æœ‰æœåŠ¡çš„æ‰€æœ‰å‘Šè¦-source_match:alertname:ServerDownsource_labels:[instance]target_match_re:alertname:.*target_labels:instance:{{ $value }}equal:[cluster]# å½“æ•´ä¸ªé›†ç¾¤ä¸å¯ç”¨æ—¶ï¼ŒæŠ‘åˆ¶è¯¥é›†ç¾¤ä¸Šæ‰€æœ‰æœåŠ¡çš„æ‰€æœ‰å‘Šè¦-source_match:alertname:ClusterDownsource_labels:[cluster]target_match_re:alertname:.*target_labels:cluster:{{ $value }}equal:[namespace]äº”ã€è¸©å‘å®žå½•ï¼šå‘Šè¦ä½“ç³»çš„è¡€æ³ªæ•™è®å‘1ï¼šå‘Šè¦é£Žæš´å¯¼è‡´ç‹¼æ¥äº†æ•ˆåº”è¿™æ˜¯æˆ‘ä»¬è¸©è¿‡æœ€å¤§çš„å‘ã€‚æœ‰ä¸€æ¬¡ï¼Œæ•°æ®åº“ä¸»ä»Žåˆ‡æ¢ï¼Œè§¦å‘äº†å‡ ç™¾æ¡å‘Šè¦ã€‚è¿ç»´äººå‘˜è¢«æ·¹æ²¡åœ¨å‘Šè¦çš„æµ·æ´‹é‡Œï¼Œé”™è¿‡äº†çœŸæ£é‡è¦çš„å‘Šè¦â€”â€”åº”ç”¨æœåŠ¡å™¨ç£ç›˜æ»¡äº†ã€‚è§£å†³ï¼šä½¿ç”¨AlertManagerçš„group_byå¯¹åŒç±»å‘Šè¦è¿›è¡Œèšåˆè®¾ç½®åˆç†çš„group_waitï¼ˆ30ç§’ï¼‰ï¼Œé¿åå‘Šè¦ç¢Žç‰‡åŒ–éç½®æŠ‘åˆ¶è§„åˆ™ï¼Œä¸Šæ¸¸æ•éšœæ—¶æŠ‘åˆ¶ä¸‹æ¸¸å‘Šè¦å‘2ï¼šè¯¯å‘Šè¦é€ æˆä¸å¿è¦çš„ç´§æ€¥å“åº”æœ‰äº›ç›‘æŽ§æŒ‡æ ‡æœ¬èº«æœ‰æ¯›åˆºï¼ˆæ¯”å¦‚çž¬æ—¶CPUé£™å‡ï¼‰ï¼Œä½†æˆ‘ä»¬çš„å‘Šè¦æ²¡æœ‰è®¾ç½®åˆç†çš„foræ—¶é•¿ï¼Œå¯¼è‡´çž¬æ—¶æ³¢åŠ¨å°±è§¦å‘å‘Šè¦ã€‚è§£å†³ï¼šæ‰€æœ‰å‘Šè¦å¿é¡»è®¾ç½®foræ—¶é•¿ï¼ˆé€šå¸¸5åˆ†é’Ÿï¼‰ï¼Œé¿åçž¬æ—¶æ³¢åŠ¨è§¦å‘å‘Šè¦å³é”®æŒ‡æ ‡å¢žåŠ æ¸è¿›å‘Šè¦ï¼šåˆwarningï¼Œè¿‡æ›´é•¿æ—¶é—´å†criticalå®šæœŸReviewå‘Šè¦è§„åˆ™ï¼Œæ¸ç†æ— æ•ˆå‘Šè¦å‘3ï¼šå¤œé—´å‘Šè¦æ²¡äººç®¡æœ‰ä¸€æ¬¡ï¼ŒP2çº§åˆ«çš„å‘Šè¦åœ¨å‡Œæ™¨3ç‚¹è§¦å‘ï¼Œä½†åªæœ‰ä¸€ä¸ªäººæ”¶åˆ°äº†é€šçŸ¥ï¼Œè€Œè¿™ä¸ªäººç¡ç€äº†ã€‚ç¬¬äºŒå¤©æ—©ä¸Šæ‰å‘çŽ°é—®é¢˜ã€‚è§£å†³ï¼šå»ºç«‹å€¼çåˆ¶åº¦ï¼Œæ˜Žç¡®æ¯ä¸ªæ—¶é—´æ®µçš„å€¼çäººP0/P1å‘Šè¦å¿é¡»ç”µè¯é€šçŸ¥ï¼Œä¸”éœ€è¦ç¡®è®¤æ”¶åˆ°P2å‘Šè¦åœ¨éžå·¥ä½œæ—¶é—´å‘é€ç»™å€¼çäººï¼Œä¸æ‰“æ‰°å¶ä»–äººå‘4ï¼šå‘Šè¦é€šçŸ¥æ¸ é“å•ä¸€æˆ‘ä»¬æœ€å¼€å§‹åªç”¨é‚®ä»¶é€šçŸ¥å‘Šè¦ï¼Œç»“æžœå‘çŽ°ï¼šç´§æ€¥å‘Šè¦æ²¡äººçœ‹é‚®ä»¶é‚®ä»¶å»¶è¿Ÿå¯¼è‡´å“åº”ä¸åŠæ—¶è§£å†³ï¼šå»ºç«‹å¤šæ¸ é“å‘Šè¦ï¼šç”µè¯ï¼šP0çº§åˆ«ï¼Œå¿é¡»æŽ¥å¬çŸä¿¡ï¼šP0/P1çº§åˆ«é’‰é’‰/é£žä¹¦ç¾¤ï¼šæ‰€æœ‰çº§åˆ«é‚®ä»¶ï¼šP3/P4çº§åˆ«ï¼Œä»ä¾›è®°å½•åã€ä¸šåŠ¡åœºæ™¯ï¼šæŸé‡‘èžå¬å¸æå»ºå®Œæ•´å¯è§‚æµ‹ä½“ç³»çš„å®Œæ•´è¿‡ç¨‹è¿™å®¶å¬å¸ï¼ˆæˆ‘ä»¬å«ä»–Aå¬å¸ï¼‰æ˜¯ä¸€å®¶åšæ¶ˆè´¹é‡‘èžçš„åˆ›ä¸šå¬å¸ã€‚2020å¹´ï¼Œä»–ä»¬ä»Žé›¶å¼€å§‹æå»ºå¯è§‚æµ‹ä½“ç³»ã€‚ç¬¬ä¸€é˜¶æ®µï¼šåªæœ‰åŸºç¡€ç›‘æŽ§ï¼ˆ2020å¹´Q1ï¼‰å½“æ—¶ä»–ä»¬çš„ç›‘æŽ§çŠ¶æ€æ˜¯ï¼šåªæœ‰æœåŠ¡å™¨åŸºç¡€ç›‘æŽ§ï¼ˆCPUã€å†å˜ã€ç£ç›˜ï¼‰æ²¡æœ‰ä»»ä½•åº”ç”¨å±‚ç›‘æŽ§å‘Šè¦åªæœ‰é‚®ä»¶æ¯å¤©æ—©ä¸Šçœ‹ä¸€æ¬¡ç›‘æŽ§å¤§ç›˜é—®é¢˜ï¼šç»å¸¸æ”¶åˆ°ç”¨æˆ·æŠ•è¯‰ç³»ç»Ÿæ¢äº†ï¼Œä½†å¼€å‘å›¢é˜Ÿå®Œå¨ä¸çŸ¥é“å‘ç”Ÿäº†ä»€ä¹ˆã€‚ç¬¬äºŒé˜¶æ®µï¼šå¼•å¥APMï¼ˆ2020å¹´Q2ï¼‰å¼•å¥äº†SkyWalking APMï¼Œæå»ºäº†é“¾è·¯è¿½è¸ªèƒ½åŠ›ï¼šçœ‹åˆ°äº†æœåŠ¡é—´çš„è°ƒç”¨å³ç³»å‘çŽ°äº†å¤§é‡çš„æ¢SQLçœ‹åˆ°äº†æ¯ä¸ªæŽ¥å£çš„å“åº”æ—¶é—´åˆ†å¸ƒæ”¹å–„ï¼šèƒ½å®šä½é—®é¢˜äº†ï¼Œä½†è¿˜æ˜¯è¢«åŠ¨â€”â€”æ€»æ˜¯åœ¨å‡ºé—®é¢˜åŽæ‰çŸ¥é“ã€‚ç¬¬ä¸‰é˜¶æ®µï¼šå»ºç«‹å®Œæ•´å¯è§‚æµ‹ä½“ç³»ï¼ˆ2020å¹´Q3-Q4ï¼‰å»ºç«‹äº†å®Œæ•´çš„ä¸‰æ¿æ–§å¯è§‚æµ‹ä½“ç³»ï¼šæ—¥å¿—ï¼šELK Stackç»“æž„åŒ–æ—¥å¿—ï¼ˆJSONæ ¼å¼ï¼‰TraceIDè´¯ç©¿æ‰€æœ‰æ—¥å¿—æ—¥å¿—èšåˆå’Œæœç´¢æŒ‡æ ‡ï¼šPrometheus GrafanaREDæ–¹æ³•è¦†ç›–æ‰€æœ‰HTTPæœåŠ¡USEæ–¹æ³•è¦†ç›–æ‰€æœ‰åŸºç¡€è®¾æ–½è‡ªå®šä¹‰ä¸šåŠ¡æŒ‡æ ‡é“¾è·¯ï¼šSkyWalkingå¨é“¾è·¯è¿½è¸ªæ‹“æ‰‘å›¾è‡ªåŠ¨ç”Ÿæˆæ¢æœåŠ¡åˆ†æžå‘Šè¦ï¼šAlertManager é’‰é’‰åˆ†çº§å‘Šè¦ï¼ˆP0-P4ï¼‰å‘Šè¦èšåˆå’Œæ”¶æ•›å€¼çæœºåˆ¶æˆæžœï¼šMTTDï¼ˆå¹³å‡å‘çŽ°æ—¶é—´ï¼‰ä»Ž4å°æ—¶ç¼©çŸåˆ°5åˆ†é’ŸMTTRï¼ˆå¹³å‡æ¢å¤æ—¶é—´ï¼‰ä»Ž2å°æ—¶ç¼©çŸåˆ°30åˆ†é’Ÿç”¨æˆ·æŠ•è¯‰ç³»ç»Ÿæ¢çš„æ•°é‡ä¸‹é™äº†80%ä¸ƒã€æ€»ç»“ä¸Žæ€è€ƒç›‘æŽ§å‘Šè¦ä½“ç³»å»ºè®¾çš„å³é”®è¦ç‚¹ï¼š**åˆ†å±‚ç›‘æŽ§**ï¼šåŸºç¡€è®¾æ–½å±‚ã€åº”ç”¨å±‚ã€ä¸šåŠ¡å±‚éƒ½è¦è¦†ç›–é»„é‡‘æŒ‡æ ‡ï¼šå»¶è¿Ÿã€æµé‡ã€é”™è¯¯çŽ‡ã€é¥±å’Œåº¦æ˜¯æ ¸å¿ƒ**å‘Šè¦åˆ†çº§**ï¼šä¸æ˜¯æ‰€æœ‰å‘Šè¦éƒ½ä¸€æ ·é‡è¦ï¼Œè¦åˆ†çº§å¤„ç†å‘Šè¦æ”¶æ•›ï¼šé¿åå‘Šè¦é£Žæš´æ·¹æ²¡çœŸæ£é‡è¦çš„å‘Šè¦**å€¼çæœºåˆ¶**ï¼šç¡®ä¿å‘Šè¦æœ‰äººå“åº”ï¼Œä¸èƒ½çŸ³æ²‰å¤§æµ·æŒç»ä¼˜åŒ–ï¼šå®šæœŸReviewå‘Šè¦è§„åˆ™ï¼Œæ¸ç†æ— æ•ˆå‘Šè¦è¡€çš„æ•™è®ï¼šå‘Šè¦ä½“ç³»çš„æ ¸å¿ƒä¸æ˜¯å‘çŽ°æ‰€æœ‰é—®é¢˜ï¼Œè€Œæ˜¯å‘çŽ°çœŸæ£éœ€è¦äººå·¥ä»‹å¥çš„é—®é¢˜ã€‚å‘Šè¦å¤ªå¤šå’Œå‘Šè¦å¤ªå°‘åŒæ ·æœ‰å®³ã€‚ç»™ä½ çš„æ€è€ƒé¢˜ï¼šä½ ä»¬å›¢é˜Ÿçš„å‘Šè¦ä½“ç³»æœ‰æ²¡æœ‰ç‹¼æ¥äº†çš„é—®é¢˜ï¼Ÿå¦‚æžœåŠå¤œæ”¶åˆ°ä¸€ä¸ªP2å‘Šè¦ï¼Œä½ ä¼šæ€Žä¹ˆå¤„ç†ï¼Ÿä¸ªäººè§‚ç‚¹ï¼Œä»ä¾›å‚è€ƒ

【架构实战】监控告警体系：系统的健康体检

相关新闻

泛微云桥e-Bridge漏洞实战检测与修复指南

MPC564x双核MCU性能优化实战：从Flash等待状态到交叉开关配置

Jellyfin桌面客户端：构建专业级开源媒体中心的完整指南

Power Architecture e200核心编译器优化实战：从AN4095到工程实践

Debian 9 + LEMP 部署 WordPress：稳定、安全、高性能的生产级实践

3个必用功能！Snap Hutao：让原神玩家效率翻倍的终极开源工具箱

DeepSeek-V4-Pro API接入指南：OpenClaw图形化配置实战

终极小说下载器：一键保存100+网站，打造个人数字图书馆的完整指南

探索Atmosphere：揭秘Nintendo Switch自定义固件的多层架构设计

PVZ Toolkit完整指南：植物大战僵尸终极修改器使用教程

暗黑破坏神2现代化改造指南：D2DX让经典游戏重获新生

企业机房UPS只接服务器不接网络行吗

PVZ Toolkit完整指南：植物大战僵尸终极修改器使用教程

暗黑破坏神2现代化改造指南：D2DX让经典游戏重获新生

企业机房UPS只接服务器不接网络行吗