[DevOps] SRE(Site Reliability Engineering)
SRE(Site Reliability Engineering)란?
- 시스템 및 서비스가 적절한 수준의 안정성을 유지하도록 하는 엔지니어링 방법
- 인프라에서 100%의 안정성을 보장할 수 없기 때문에, 장애 방지, 재발 방지 등의 작업들을 수행한다.
SRE가 하는 일?
- 장애를 사전에 감지할 수 있도록 다양한 지표를 수집하고, 수집한 지표를 모아 서로의 연관 관계를 분석하여 이상징후를 탐색
- 장애가 발생했을 경우, 빠르게 복구 할 수 있도록 장애 모의 훈련을 통해 장애에 대한 경험을 쌓고, 재발 방지 계획을 수립
- 인프라 아키텍처, 시스템 점검 및 리뷰를 통해 장애 요소를 사전에 식별하여 조치
- 인프라 구축 단계에서 장애 요소가 될만한 것들을 파악하고, 고 가용성이 보장되는 인프라 환경을 구축
- 시스템에 대한 리소스를 산정하고, 운영 간 리소스가 확보되고 유지될 수 있도록 대응
DevOps와의 차이점
- DevOps는 개발 - 테스트 - 배포 등이 원활하게 이루어질 수 있도록, 자동화하고 개발자와 협업
- SRE는 안정성 있게 운영될 수 있도록 장애 방지, 장애 분석, 모니터링, 성능 테스트, 자동화
댓글남기기