LINE ENGINEERING

신뢰성 향상을 위한 SLI/SLO 도입 1편 - 소개와 필요성

thumbnail

SLI/SLO 도입을 위한 신뢰성 향상

소개와 필요성

  • SRE의 역할: 안정성과 신뢰성 제공
  • LINE 앱의 신뢰성 향상을 위해 SLI와 SLO 도입
  • 사용자가 결정하는 신뢰성
  • 실제 예시로서 동영상 서비스를 통한 설명

신뢰성 측정 방법

  • 사용자 여정: 사용자가 서비스를 사용하는 과정
  • SLI(Service Level Indicator): 서비스 안정성을 판단할 수 있는 값
  • SLO(Service Level Objective): 서비스가 달성해야 하는 목표 범위
  • SLA(Service Level Agreement): 서비스 공급자와 고객 간의 계약

예시

  • SLI: 1분간 동영상 재생 요청 중 95%가 300ms 미만의 대기 시간
  • SLO: 4시간 이내에 동영상 재생 불가와 같은 중요 문제 해결

오류 예산

  • SLO를 기준으로 정의된 서비스 안정성 저하 허용 값
  • 오류 예산을 통해 개발 팀이 리스크 관리 및 우선순위 결정
  • 신규 기능 추가와 서비스 안정성 중 어디에 초점을 맞출지 결정 가능

SLI/SLO 활용

  • 사용자 신뢰성 정량적 평가 가능
  • 대시보드 및 지표 모니터링 및 관리 필요

마크다운 형식으로 각 분류를 구분하여 정리해주세요.