스프링AI 9 - 벡터DB - 메타데이터, 미디어임베딩
- 코사인 유사도만으로는 검색 정확도가 낮아 메타데이터나 본문 검색 같은 보조 수단이 필수적입니다. 🔍
- 벡터 DB의 메타데이터는 임베딩 본문 외의 추가 정보를 저장하여 사전 필터링 목적으로 활용됩니다. 🏷️
- 등록일, 출처, 용도 등 다양한 메타데이터를 많이 추가할수록 검색 성능이 향상됩니다. 📈
- 벡터 유사도 계산 전에 메타데이터나 본문 검색으로 정적 필터링을 먼저 수행하는 것이 중요합니다. 🎯
- BM25(희소 벡터 검색) 및 풀텍스트 인덱싱은 보조 검색 수단으로 활용되며, DB별 지원 여부가 다릅니다. 📚
- 사용자는 순수 의미 유사도보다 원하는 키워드가 포함된 검색 결과를 선호하므로 본문 검색이 중요합니다. 💬
- 이미지 임베딩 모델(ResNet, CLIP 등)은 이미지를 벡터로 변환하며, CLIP은 이미지와 텍스트 간의 교환 학습이 특징입니다. 🖼️
- 사운드는 스펙트럼 이미지로 변환하여 이미지 임베딩 모델(CLAP)을 통해 처리할 수 있습니다. 🔊
- 영상은 프레임별 이미지 벡터를 추출하고 평균 내어 임베딩하며, 프레임 추출 전략이 성능에 영향을 줍니다. 🎬
- 영상 임베딩 시 이미지 벡터와 함께 텍스트 묘사 임베딩도 저장하여 활용도를 높입니다. 📝
- 이미지 및 미디어 분석에는 Azure API와 같은 클라우드 업체의 서비스를 활용하는 것이 효율적입니다. ☁️