SSG Tech Blog

VLM, LLM을 사용하여 멀티모달 학습 데이터 제작하기

thumbnail

멀티모달 학습 데이터 제작 과정

멀티모달 학습 데이터 제작의 필요성

  • 이미지와 텍스트를 동시에 활용하여 높은 정확도의 결과를 얻을 수 있음
  • 상세한 라벨링 작업이 필요함

학습 데이터 구성 요소

  • <이미지-텍스트> 쌍으로 구성됨
  • 가구 이미지와 상세한 설명 텍스트가 필요함

문제점과 해결 방안

  • 기존 학습 셋의 부족한 표현이 모델 품질에 영향을 줄 수 있음
  • 풍부한 설명 데이터를 확보하여 모델의 성능 향상을 목표로 함

VLM, LLM을 활용한 Synthetic Data 제작

소파 상품에 대한 정보

  • 상품 이미지, 상품명, 상품 카테고리 정보가 존재
  • 상품 상세 정보 이미지에는 세부 정보가 포함되어 있음

문제점과 개선 방안

  • 이미지 내 정보가 혼동을 줄 수 있음
  • VLM 모델을 활용하여 OCR 결과 데이터를 보완하고자 함

프롬프트 엔지니어링

  • 이미 잘 학습된 VLM 모델을 활용하여 원하는 결과를 얻기 위한 노력을 기울임