Harness를 이용해 LLM 애플리케이션 평가 자동화하기

LLM 애플리케이션 평가 자동화
LM 애플리케이션을 평가할 때는 정확한 매칭과 GPT 정확도를 이용해 성능을 측정합니다. 정확한 매칭은 모델의 예측이 정답과 얼마나 일치하는지를 측정하고, GPT 정확도는 예측 문장이 정답과 얼마나 유사한지를 판단합니다. 이를 통해 문맥을 고려한 성능평가를 수행합니다.
Harness를 이용한 테스트 자동화
Harness를 사용하면 LM 클래스와 YAML 파일을 이용해 모델, 데이터 세트, 프롬프트 등을 설정하여 테스트를 자동화할 수 있습니다. 모델 클래스를 구현하고 추상 메서드를 정의함으로써 원하는 지표를 계산할 수 있습니다.
데이터 세트 설정
평가에 사용할 데이터 세트와 지표, 프롬프트 등을 자유롭게 설정하여 원하는 테스트를 빠르게 실행할 수 있습니다. YAML 파일을 통해 데이터 세트를 설정하고, 모델에 질의해 얻은 답변으로 지표를 계산합니다. 이를 통해 최적화된 프롬프트를 결정하는 데 드는 시간을 단축할 수 있습니다.