반응형
☁️ AWS 모니터링 · 로깅 · 문제 해결 정리
1. 왜 중요한가?
- 운영 환경에서 발생하는 성능 저하, 장애, 보안 위협을 빠르게 감지하고 대응할 수 있음
- 비용 최적화, 자동화, 보안 강화와도 직결
- AWS 자격증 시험 비중이 약 20%로 매우 큼
- 실제 실무에서도 트러블슈팅 경험을 가장 많이 쌓을 수 있는 영역
2. 주요 영역
(1) 로그와 지표 데이터 수집·분석
- CloudWatch Metrics: 지표 수집 (CPU, 메모리, 네트워크 등)
- CloudWatch Logs: 애플리케이션·시스템 로그 저장
- CloudWatch Logs Insights: 로그 검색·쿼리
- CloudTrail: API 호출 기록 추적 (보안·컴플라이언스 핵심)
- CloudWatch 대시보드: 지표 시각화
- 경보(Alarm): 특정 임계값 초과 시 알림(SNS 연계)
(2) 문제 탐지 및 대응
- Amazon EventBridge: 이벤트 기반 자동화
- AWS Systems Manager: 자동화된 운영/패치/런북 실행
- AWS Config: 리소스 형상 추적 및 규정 준수 확인
- AWS Health Dashboard: AWS 서비스 장애/점검 알림
- Service Quotas: 리소스 제한 모니터링
3. 문제 해결 절차 (Troubleshooting Flow)
- 이상 감지 → CloudWatch 지표/알람
- 원인 분석 → CloudWatch Logs / Logs Insights
- 보안 이벤트 확인 → CloudTrail, GuardDuty
- 자동화 대응 → EventBridge + Systems Manager Automation
- 사후 점검 → AWS Config 규칙·리포트, Cost Explorer 비용 확인
4. 시험과 실무 적용
- 시험 포인트
- CloudWatch, CloudTrail, SNS, EventBridge, Systems Manager, AWS Config 간의 상호작용 이해
- “장애 발생 → 로그 분석 → 알림 → 자동화 대응” 시나리오 문제 자주 출제
- 실무 포인트
- 경보(Alert) → Slack/MS Teams 알림 연계
- 로그 분석 → 문제 재현/재발 방지
- 비용 관리 → 비정상 리소스 탐지 및 종료
💡 핵심 요약
AWS 모니터링·로깅·문제 해결은 단순한 문제 감지를 넘어서,
보안·비용 최적화·자동화 운영까지 연결되는 영역이며,
CloudWatch + CloudTrail + Config + Systems Manager를 중심으로 학습하는 것이 가장 효과적입니다.
☁️ 모니터링 · 로깅 · 수정 (Monitoring, Logging & Remediation)
1. 왜 중요한가?
- 문제를 빠르게 감지하고 고객 피해를 최소화
- 환경의 최적 상태와 성능 유지
- 보안·자동화·비용 최적화에도 직결
- 시험 비중도 높고, 실무 활용도가 매우 큼
2. 실제 사례: 소매 업체 웹사이트
- 상황: 상품 카탈로그와 실제 재고를 비교하는 앱이 다운됨
- 모니터링 없음 → 고객이 재고 없는 상품을 구매 가능, 주문 지연 → 고객 불만 ↑
- 모니터링 있음 → CloudWatch 지표·로그 → 알람 발생 → SNS로 담당자 알림 → 문제 조기 해결 가능
👉 장점: 고객 경험 개선, 피해 최소화
👉 단점: 담당자가 새벽에도 대응해야 할 수도 있음
3. AWS 모니터링·로깅 구성 요소
- Amazon CloudWatch
- 지표 수집 (Metrics)
- 로그 수집 (Logs, Logs Insights)
- 경보 (Alarms)
- 대시보드 (Dashboards)
- Amazon SNS
- 경보/이벤트 알림 발송
- AWS CloudTrail
- API 호출 추적 (보안/컴플라이언스)
- AWS Config
- 리소스 변경 추적, 규정 준수 확인
- AWS Systems Manager
- 런북 기반 자동화된 수정(Remediation)
- Amazon EventBridge
- 이벤트 기반 자동화
4. 운영 인사이트 활용
- 상태 점검: 장기 지표·로그 데이터 축적 → 추세 분석
- 벤치마크 테스트: 성능 및 안정성 기준 측정
- 자동화: 반복되는 수정 작업을 EventBridge + Systems Manager로 자동화
- 비용 최적화: 모니터링 데이터로 리소스 크기·종류 조정
5. 아키텍처 다이어그램 (예시)

✅ 핵심 요약
모니터링·로깅·수정은 단순히 “문제 발생 시 확인” 수준을 넘어,
신뢰성, 비용 효율성, 보안, 자동화를 모두 뒷받침하는 AWS 운영의 필수 기술입니다.
CloudWatch·CloudTrail·SNS·Config·Systems Manager·EventBridge를 중심으로 학습하고,
실제 아키텍처 시나리오에 적용해 보는 것이 가장 효과적인 학습 방법입니다.
반응형
'AWS > Skill Builder_AWS SOA-C02' 카테고리의 다른 글
AWS SOA-C02 Domain 3 Review (0) | 2025.09.18 |
---|