- 임베딩은 텍스트를 단일 벡터로 변환하는 기술이며, 최신 모델은 트랜스포머 디코더의 어텐션 메커니즘을 활용하여 EOS 토큰 가중치를 기반으로 벡터를 생성합니다. 🧠
- 임베딩 모델의 성능은 기반 LM에 따라 달라지며, E5 계열은 접두어로 질의/본문 용도를 구분하고, 바이두 BG는 메소드를 분리하며, OpenAI/Google/Ch1은 용도를 자동 판별합니다. 🏷️
- 임베딩은 의미적 공간 좌표로, 여러 벡터의 평균이 유효하며, 이를 활용해 워드투벡이나 로지스틱 회귀 없이도 제품 추천 시스템을 간단히 구현할 수 있습니다. 🛍️
- '멀티 벡터 스토어'는 하나의 데이터에서 여러 임베딩을 생성하거나 여러 본문이 하나의 임베딩에 연결되는 패턴으로, 벡터 검색 결과를 극적으로 향상시킵니다. 🔗
- 멀티 벡터 스토어 전략에는 본문에서 예상 질문 생성, 긴 본문 요약 임베딩, 핵심 사실 추출 임베딩, 상위/하위 문단 포함 임베딩 등이 포함됩니다. 💡
- 벡터 DB 검색 시 청크의 길이가 짧을수록 검색 결과가 프롬프트에 효율적으로 들어가 유리하며, 하나의 문서를 여러 컬렉션에 저장하는 전략도 활용됩니다. ✂️