- 랩터는 데이터 구축 및 사용자 질의 방식이 일반 RAG와 다름 🧩.
- 임베딩 차원 축소는 정보 손실을 야기, 의미론적 클러스터링에 의문 🤔.
- 컨텍스트가 상이한 문서 청크 혼합 시 군집화 오류 발생 가능 ⚠️.
- 유사 시멘틱 구조 반복 데이터는 랩터 성능 저하의 원인 ♻️.
- 유맵(UMAP) 차원 축소는 코사인 유사도 정보 손실, 거리 관계만 보존 📉.
- 유클리드 거리 기반 군집화는 임베딩 모델의 코사인 유사도 학습 방식과 불일치 📐.
- GMM(Gaussian Mixture Model) 군집화는 청크 임베딩의 정규 분포 가정에 부합 X 🚫.