AI 이것만은 알고가자 5편 : LLM을 똑똑하게 Text Splitters & Embedding

AI 이것만은 알고가자 5편 목차

  1. Text Splitters(텍스트를 나누는 작업)와 Embedding(임베딩)
  2. Chunk Size(청크 크기)와 Text Embeddings(텍스트 임베딩)
  3. 임베딩 모델 선택의 중요성
  4. 임베딩된 벡터의 저장소
  5. 임베딩 모델의 단점 및 응용 예정

1. Text Splitters(텍스트를 나누는 작업)와 Embedding(임베딩)

  • Text Splitters는 문서 내용을 한국어로 번역하면 텍스트를 나누는 작업을 의미합니다. 이는 텍스트를 효율적으로 검색하기 위한 과정입니다.
  • Embedding 작업은 Text Splitters를 통해 나눈 내용을 기반으로 벡터를 생성하는 작업을 말합니다.

2. Chunk Size(청크 크기)와 Text Embeddings(텍스트 임베딩)

  • Chunk Size는 한 번에 나누는 단위를 의미하며, 작은 텍스트 청크로 나누는 것이 일반적입니다.
  • Text Embeddings 작업은 이러한 청크를 의미를 인코딩하는 벡터로 변환하는 과정을 말합니다.

3. 임베딩 모델 선택의 중요성

  • 임베딩 모델을 선택하는 것은 RAG를 구성할 때 중요한 부분입니다.
  • 임베딩 모델을 통해 효과적인 벡터 저장이 이루어져야 좋은 성능을 얻을 수 있습니다.

4. 임베딩된 벡터의 저장소

  • 임베딩된 벡터는 벡터 저장소(AWS OpenSearch, Milvus, FAISS 등)에 저장됩니다.
  • 임베딩이 잘 되어야 효율적인 검색이 가능해집니다.

5. 임베딩 모델의 단점 및 응용 예정

  • 임베딩 모델은 의미적 관계를 잘 파악하지만, 정확한 일치 항목을 놓칠 수도 있습니다.
  • 임베딩 모델의 단점 및 응용 예정은 RAG 응용 편에서 다룰 예정입니다.

이상이 'AI 이것만은 알고가자 5편 : LLM을 똑똑하게 Text Splitters & Embedding'에 대한 요약입니다. 감사합니다.