- 벡터 DB는 RDB의 '테이블' 대신 '컬렉션'이라는 고유한 용어를 사용합니다. 📚
- 벡터 DB에서 '스키마'는 컬렉션 내부의 필드 정의가 아닌, 컬렉션을 어떻게 구성하고 나눌지에 대한 전략을 의미합니다. 🗺️
- 단일 거대 컬렉션은 벡터 유사도 계산의 복잡성으로 인해 검색 속도 저하와 결과의 혼탁함을 초래하며, RDB처럼 수백만 건의 레코드를 효율적으로 처리하기 어렵습니다. 🐢
- 미니 컬렉션은 특정 문서에 대한 정확하고 명확한 유사도 검색에 유리하며, 질의 범위가 명확해집니다. 🎯
- 채팅 인터페이스에서 파일 업로드 시 임시 컬렉션을 생성하여 사용하고, 질의가 끝나면 삭제하는 패턴이 벡터 DB 세계에서 흔하게 사용됩니다. ♻️
- 컬렉션 스키마 설계는 날짜, 파일, 주제, 레코드 수, 보안 등급 등 다양한 기준에 따라 컬렉션을 분할하고, 질의 시 적절한 컬렉션을 찾아 라우팅하는 복잡한 중간 과정이 필요합니다. 🚦
- 이러한 컬렉션 분할 및 라우팅 전략은 RDB의 테이블 관리 방식과는 근본적으로 다른 접근 방식을 요구합니다. 🔄