이 문서는 고객 워크로드의 상태 KPI를 정의하고 모니터링하기 위한 표준 가이드입니다.
가이드 구성
| 섹션 |
내용 |
| 1. 메트릭 정의 및 수집 |
계층별 KPI 정의, 수집 방법 |
| 2. 로그 수집 및 분석 |
표준 로그 포맷, 분석 방법 |
| 3. 임계값 및 알람 설정 |
알람 전략, 자동 복구 |
1. 워크로드 상태 메트릭 정의 및 수집
1.1 계층별 핵심 성능 지표 (KPI) 정의
인프라 계층 메트릭
- 컴퓨팅 리소스 (EC2/ECS/Lambda)
- CPU 사용률:
- 정의: 인스턴스 CPU 활용도
- 수집 방법: CloudWatch Agent
- 정상 범위: 40-70%
- 경고 임계값: > 80%
- 위험 임계값: > 90%
- 메모리 사용률:
- 정의: 가용 메모리 대비 사용 비율
- 수집 방법: CloudWatch Agent (custom metric)
- 정상 범위: 40-70%
- 경고 임계값: > 80%
- 위험 임계값: > 95%
- 디스크 I/O:
- 정의: 읽기/쓰기 처리량 및 지연 시간
- 메트릭: VolumeReadOps, VolumeWriteOps
- 정상 범위: < 100ms 지연
- 경고 임계값: > 200ms
- 위험 임계값: > 500ms
- 네트워크 계층 (ALB/NLB/CloudFront)
- 요청 처리 메트릭
- ActivateConnectionCount: 활성 연결 수
- RequestCount: 초당 요청 수
- TargetResponseTime: 응답 시간
- HTTPCode_Target_4XX_Count: 4xx 오류율
- HTTPCode_Target_5XX_Count: 5xx 오류율
- 정상 운영 기준
- 응답 시간: < 1초
- 4xx 오류율: < 1%
- 5xx 오류율: < 0.1%
- 연결 거부율: 0%
애플리케이션 계층 메트릭
- 비즈니스 메트릭
- 트랜젝션 성능
- 정의: 핵심 비즈니스 트랜젝션 처리 시간
- 수집: X-Ray, APM 도구
- SLO: 95 percentile < 2초
- 사용자 경험 지표
- 페이지 로드 시간: < 3초
- API 응답 시간: < 500ms
- 에러율: < 0.5 %
- Apdex Score: > 0.9
- 애플리케이션 상태 지표
- 활성 사용자 수
- 트랜젝션 처리율
- 큐 깊이 (Queue Depth)
- 캐시 히트율
데이터베이스 계층 메트릭
- RDS/Aurora 핵심 지표
- 연결 및 성능
- DatabaseConnections: 활성 연결 수
- CPUUtilization: CPU 사용률
- FreeableMemory: 사용 가능 메모리
- ReadLatency/WriteLatency: I/O 지연시간
- DiskQueueDepth: 대기 중인 I/O 요청
- 쿼리 성능
- Deadlocks: 교착 상태 발생 수
- SelectThroughput: SELECT 쿼리 처리량
- DMLThroughput: INSERT/UPDATE/DELETE 처리량
- CommitLatency: 트랜젝션 커밋 지연
- 임계값 설정 기준
- CPU: 경고 70%, 위험 85%
- 연결 수: 최대 연결의 80% 경고
- 지연시간: 경고 50ms, 위험 100ms
- Deadlock: 분당 1건 이상 경고
1.2 메트릭 수집 아키텍처
통합 모니터링 파이프라인