오늘은 누구의 손을 들어줘야 할까?
MAB 방식을 통한 가격 최적화 프로덕트의 가격 결정 알고리즘
- MAB 중 톰슨 샘플링을 활용한 기존 접근법은 상품별 판매 경험을 통해 확률 분포를 쌓아가며 각 상품에 대한 최적의 model 결과를 선택하는 방식이다.
- 이를 통해 각 모델의 성능 불확실성을 관리하고 다양한 가격 모델의 최적화가 가능하다.
가격 최적화 프로덕트에 MAB를 도입 시 발견한 한계점과 대응 방안
한계점
- 상품별로 모델의 분포를 쌓는 데(탐색) 시간이 부족하다.
- 예산, 수익성을 고려한 목적 함수 도입이 필요하다.
대응 방안
- Adaptive window를 통해 매인 분포별로 적절한 경험의 수를 계산하여 탐색 시간을 최적화한다.
- 판매량 뿐만 아니라 매출, 이익액, 할인 예산 등을 고려한 목적 함수를 도입하여 전략을 총괄적으로 고려한다.
롱테일 속성별 x 모델의 HR, LR 값
- 롱테일 속성별 모델의 HR 값에 대한 표를 제시한다.
- 평균 할인율이 같더라도 상품별 모델 할인율은 상이하며, regret은 상품별로 집계되기 때문에 이러한 결과가 나타난다.
- MAB 방식을 통해 롱테일 x 카테고리 별로 regret을 집계하였을 때, 평균 할인율이 비슷한 모델들은 비슷한 regret을 받았을 것으로 볼 수 있다.