[VFM 개념] 기본 용어 사전

thumbnail

VFM (비전 파운데이션 모델)

비전 파운데이션 모델은 대규모 데이터 셋으로 사전 학습된 다양한 시각 AI 작업을 수행할 수 있는 범용 인공지능 모델입니다. VFM은 여러 작업을 하나의 모델에서 통합적으로 처리할 수 있습니다.

제로 샷 (Zero-Shot)

제로 샷은 AI 모델이 한 번도 명시적으로 학습하지 않은 새로운 객체나 카테고리에 대해서도 추론을 수행하는 능력을 말합니다. 이는 모델이 사전 학습된 방대한 지식을 기반으로 새로운 상황에 즉시 대응할 수 있는 능력을 갖추게 합니다.

폐 쇄 집합 (Closed-set) 과 개방 집합 (Open-set) 시스템

폐 쇄 집합은 고정된 분류 체계에서만 작동하는 시스템을 의미하며, 개방 집합은 자연어로 표현 가능한 모든 개념을 이해하고 처리할 수 있는 시스템을 말합니다. 개방 집합 시스템은 새로운 객체나 상황에 더 유연하게 대응할 수 있습니다.

비주얼 그라운딩 (Visual Grounding)

비주얼 그라운딩은 이미지 내에서 특정한 텍스트에 해당하는 부분을 찾아내는 작업을 말합니다. 이는 언어와 이미지를 연결짓는 중요한 작업으로, 이미지 내의 객체를 정확히 식별하고 위치를 찾을 때 활용됩니다.

멀티 모달 프롬프트 (Multi-Modal Prompt)

멀티 모달 프롬프트는 여러 모달리티(예: 이미지, 텍스트)를 함께 활용하여 AI 모델에 입력되는 정보를 풍부하게 하는 방법을 의미합니다. 이를 통해 모델이 다양한 형태의 데이터를 효율적으로 처리할 수 있습니다.

LVIS (Large Vocabulary Instance Segmentation) 데이터 셋

LVIS 데이터 셋은 현실 세계에 적용하기 위해 희귀 객체까지 학습하도록 설계된 대규모 데이터 셋입니다. AI 모델의 현실 성능을 검증하는 데 활용되며, 롱 테일 분포를 반영하여 다양한 객체를 인식할 수 있는 능력을 테스트합니다. LVIS는 산업 현장 적용 가능성을 측정하는 중요한 역할을 합니다.

CVPR (Computer Vision and Pattern Recognition)

**CVPR (Computer Vision and Pattern Recognition)**는 컴퓨터 비전 및 패턴 인식 분야의 국제 학회로, 이미지 처리와 인식 기술을 발전시키는 데 중요한 역할을 합니다. CVPR 학회에서는 새로운 기술과 연구 결과가 발표되며, 컴퓨터 비전 기술의 발전을 이끄는 역할을 합니다.

개별 객체 탐지 챌린지 (Object Instance Detection Challenge)

개별 객체 탐지 챌린지는 적은 수의 이미지와 텍스트 설명만으로도 새로운 객체를 인식하는 AI 모델의 성능을 검증하는 챌린지입니다. 참가자들은 실제 산업 환경과 유사한 조건에서 모델의 학습 효율성과 적용 가능성을 증명해야 합니다.

파운데이션 퓨 샷 객체 탐지 챌린지 (Foundation Few-Shot Object Detection Challenge)

파운데이션 퓨 샷 객체 탐지 챌린지는 제로 샷 학습을 활용하여 적은 데이터로 새로운 객체를 탐지하는 능력을 측정하는 챌린지입니다. 적은 데이터로 높은 정확도를 달성하는 AI 모델이 요구되며, 실제 응용 가능성을 검증하는 데 활용됩니다.