2025-09-18 22:38:41
반응형

☁️ AWS 모니터링 · 로깅 · 문제 해결 정리

1. 왜 중요한가?

  • 운영 환경에서 발생하는 성능 저하, 장애, 보안 위협을 빠르게 감지하고 대응할 수 있음
  • 비용 최적화, 자동화, 보안 강화와도 직결
  • AWS 자격증 시험 비중이 약 20%로 매우 큼
  • 실제 실무에서도 트러블슈팅 경험을 가장 많이 쌓을 수 있는 영역

2. 주요 영역

(1) 로그와 지표 데이터 수집·분석

  • CloudWatch Metrics: 지표 수집 (CPU, 메모리, 네트워크 등)
  • CloudWatch Logs: 애플리케이션·시스템 로그 저장
  • CloudWatch Logs Insights: 로그 검색·쿼리
  • CloudTrail: API 호출 기록 추적 (보안·컴플라이언스 핵심)
  • CloudWatch 대시보드: 지표 시각화
  • 경보(Alarm): 특정 임계값 초과 시 알림(SNS 연계)

(2) 문제 탐지 및 대응

  • Amazon EventBridge: 이벤트 기반 자동화
  • AWS Systems Manager: 자동화된 운영/패치/런북 실행
  • AWS Config: 리소스 형상 추적 및 규정 준수 확인
  • AWS Health Dashboard: AWS 서비스 장애/점검 알림
  • Service Quotas: 리소스 제한 모니터링

3. 문제 해결 절차 (Troubleshooting Flow)

  1. 이상 감지 → CloudWatch 지표/알람
  2. 원인 분석 → CloudWatch Logs / Logs Insights
  3. 보안 이벤트 확인 → CloudTrail, GuardDuty
  4. 자동화 대응 → EventBridge + Systems Manager Automation
  5. 사후 점검 → AWS Config 규칙·리포트, Cost Explorer 비용 확인

4. 시험과 실무 적용

  • 시험 포인트
    • CloudWatch, CloudTrail, SNS, EventBridge, Systems Manager, AWS Config 간의 상호작용 이해
    • “장애 발생 → 로그 분석 → 알림 → 자동화 대응” 시나리오 문제 자주 출제
  • 실무 포인트
    • 경보(Alert) → Slack/MS Teams 알림 연계
    • 로그 분석 → 문제 재현/재발 방지
    • 비용 관리 → 비정상 리소스 탐지 및 종료

💡 핵심 요약

AWS 모니터링·로깅·문제 해결은 단순한 문제 감지를 넘어서,
보안·비용 최적화·자동화 운영까지 연결되는 영역이며,
CloudWatch + CloudTrail + Config + Systems Manager를 중심으로 학습하는 것이 가장 효과적입니다.


☁️ 모니터링 · 로깅 · 수정 (Monitoring, Logging & Remediation)

1. 왜 중요한가?

  • 문제를 빠르게 감지하고 고객 피해를 최소화
  • 환경의 최적 상태와 성능 유지
  • 보안·자동화·비용 최적화에도 직결
  • 시험 비중도 높고, 실무 활용도가 매우 큼

2. 실제 사례: 소매 업체 웹사이트

  • 상황: 상품 카탈로그와 실제 재고를 비교하는 앱이 다운됨
    • 모니터링 없음 → 고객이 재고 없는 상품을 구매 가능, 주문 지연 → 고객 불만 ↑
    • 모니터링 있음 → CloudWatch 지표·로그 → 알람 발생 → SNS로 담당자 알림 → 문제 조기 해결 가능

👉 장점: 고객 경험 개선, 피해 최소화
👉 단점: 담당자가 새벽에도 대응해야 할 수도 있음


3. AWS 모니터링·로깅 구성 요소

  • Amazon CloudWatch
    • 지표 수집 (Metrics)
    • 로그 수집 (Logs, Logs Insights)
    • 경보 (Alarms)
    • 대시보드 (Dashboards)
  • Amazon SNS
    • 경보/이벤트 알림 발송
  • AWS CloudTrail
    • API 호출 추적 (보안/컴플라이언스)
  • AWS Config
    • 리소스 변경 추적, 규정 준수 확인
  • AWS Systems Manager
    • 런북 기반 자동화된 수정(Remediation)
  • Amazon EventBridge
    • 이벤트 기반 자동화

4. 운영 인사이트 활용

  • 상태 점검: 장기 지표·로그 데이터 축적 → 추세 분석
  • 벤치마크 테스트: 성능 및 안정성 기준 측정
  • 자동화: 반복되는 수정 작업을 EventBridge + Systems Manager로 자동화
  • 비용 최적화: 모니터링 데이터로 리소스 크기·종류 조정

5. 아키텍처 다이어그램 (예시)

 

핵심 요약

모니터링·로깅·수정은 단순히 “문제 발생 시 확인” 수준을 넘어,
신뢰성, 비용 효율성, 보안, 자동화를 모두 뒷받침하는 AWS 운영의 필수 기술입니다.
CloudWatch·CloudTrail·SNS·Config·Systems Manager·EventBridge를 중심으로 학습하고,
실제 아키텍처 시나리오에 적용해 보는 것이 가장 효과적인 학습 방법입니다.

반응형

'AWS > Skill Builder_AWS SOA-C02' 카테고리의 다른 글

AWS SOA-C02 Domain 3 Review  (0) 2025.09.18