[2부] 표준프레임워크 신규버전 v4.3 검색 기능에 활용된 AWS OpenSearch 알아보기! (김세웅 리더 OpenSearch User Group)
- 형태소 분석은 의미 있는 최소 단위인 형태소를 발굴하는 과정이며, 사전이 핵심 요소다. 📚
- 형태소 분석기는 사전을 기반으로 어절을 분리하고 형태소를 발굴한다. 🔍
- 키워드 검색의 핵심은 사전 작업과 형태소 분석기 튜닝이다. 🛠️
- 텍스트 필터링은 특수 문자 제거, 단어 매핑, 자소 분리 등을 수행한다. 🧽
- 토큰 필터링은 불필요한 토큰(stop words)을 제거하여 검색 효율을 높인다. 🗑️
- 사용자 사전은 분절되면 안 되는 고유 명사나 복합 명사를 등록하여 검색 정확도를 높인다. 📌
- 동의어 처리는 산업별 도메인 언어를 반영하여 검색 결과를 풍부하게 한다. 💡
- 벡터 검색은 유사한 의미를 가진 텍스트, 이미지, 비디오 등을 좌표값으로 표현하여 검색한다. 🗺️
- 오픈서치에서는 ML 커먼 플러그인, 뉴럴 플러그인을 통해 외부 인베딩 모델과 연동하여 벡터 검색을 수행한다. 🔗
- HNSW 알고리즘은 쿼리 지원과 재현율의 밸런스가 좋고 트레이닝이 필요 없어 AN 검색에 널리 사용된다. ⚖️