- RAG 임베딩 모델은 LM과 다르게 토큰 벡터를 문맥 예측이 아닌 시맨틱 의미 부합에 초점을 맞춰 학습합니다. 🧠
- LM 모델의 토큰 벡터 차원은 문맥, 위치, 의미를 모두 고려하기 때문에 RAG 임베딩 모델보다 훨씬 큽니다. 📏
- RAG 임베딩 모델은 오직 시맨틱 처리만을 목표로 하므로 토큰 벡터 차원을 크게 줄일 수 있습니다. 📉
- RAG 시스템의 최적 청크 크기는 사용하려는 임베딩 모델이 학습될 때 사용된 청크 크기에 맞춰야 합니다. 🧩
- 임베딩 모델은 학습된 도메인에 따라 성능이 크게 달라지므로, 사용하려는 분야에 특화된 모델을 선택해야 합니다. 🍎
- 임베딩 모델의 성능은 학습 데이터셋의 문체에도 영향을 받으므로, 사용자 질의도 비슷한 문체로 작성될 때 유사도가 높게 나옵니다. ✍️





