AI 이것만은 알고가자 5편 : LLM을 똑똑하게 Text Splitters & Embedding
AI 이것만은 알고가자 5편 목차
- Text Splitters(텍스트를 나누는 작업)와 Embedding(임베딩)
- Chunk Size(청크 크기)와 Text Embeddings(텍스트 임베딩)
- 임베딩 모델 선택의 중요성
- 임베딩된 벡터의 저장소
- 임베딩 모델의 단점 및 응용 예정
1. Text Splitters(텍스트를 나누는 작업)와 Embedding(임베딩)
- Text Splitters는 문서 내용을 한국어로 번역하면 텍스트를 나누는 작업을 의미합니다. 이는 텍스트를 효율적으로 검색하기 위한 과정입니다.
- Embedding 작업은 Text Splitters를 통해 나눈 내용을 기반으로 벡터를 생성하는 작업을 말합니다.
2. Chunk Size(청크 크기)와 Text Embeddings(텍스트 임베딩)
- Chunk Size는 한 번에 나누는 단위를 의미하며, 작은 텍스트 청크로 나누는 것이 일반적입니다.
- Text Embeddings 작업은 이러한 청크를 의미를 인코딩하는 벡터로 변환하는 과정을 말합니다.
3. 임베딩 모델 선택의 중요성
- 임베딩 모델을 선택하는 것은 RAG를 구성할 때 중요한 부분입니다.
- 임베딩 모델을 통해 효과적인 벡터 저장이 이루어져야 좋은 성능을 얻을 수 있습니다.
4. 임베딩된 벡터의 저장소
- 임베딩된 벡터는 벡터 저장소(AWS OpenSearch, Milvus, FAISS 등)에 저장됩니다.
- 임베딩이 잘 되어야 효율적인 검색이 가능해집니다.
5. 임베딩 모델의 단점 및 응용 예정
- 임베딩 모델은 의미적 관계를 잘 파악하지만, 정확한 일치 항목을 놓칠 수도 있습니다.
- 임베딩 모델의 단점 및 응용 예정은 RAG 응용 편에서 다룰 예정입니다.
이상이 'AI 이것만은 알고가자 5편 : LLM을 똑똑하게 Text Splitters & Embedding'에 대한 요약입니다. 감사합니다.