신뢰성 향상을 위한 SLI/SLO 도입 1편 - 소개와 필요성

SLI/SLO 도입을 위한 신뢰성 향상
소개와 필요성
- SRE의 역할: 안정성과 신뢰성 제공
- LINE 앱의 신뢰성 향상을 위해 SLI와 SLO 도입
- 사용자가 결정하는 신뢰성
- 실제 예시로서 동영상 서비스를 통한 설명
신뢰성 측정 방법
- 사용자 여정: 사용자가 서비스를 사용하는 과정
- SLI(Service Level Indicator): 서비스 안정성을 판단할 수 있는 값
- SLO(Service Level Objective): 서비스가 달성해야 하는 목표 범위
- SLA(Service Level Agreement): 서비스 공급자와 고객 간의 계약
예시
- SLI: 1분간 동영상 재생 요청 중 95%가 300ms 미만의 대기 시간
- SLO: 4시간 이내에 동영상 재생 불가와 같은 중요 문제 해결
오류 예산
- SLO를 기준으로 정의된 서비스 안정성 저하 허용 값
- 오류 예산을 통해 개발 팀이 리스크 관리 및 우선순위 결정
- 신규 기능 추가와 서비스 안정성 중 어디에 초점을 맞출지 결정 가능
SLI/SLO 활용
- 사용자 신뢰성 정량적 평가 가능
- 대시보드 및 지표 모니터링 및 관리 필요
마크다운 형식으로 각 분류를 구분하여 정리해주세요.