데브허브 | DEVHUB | Elasticsearch 입문·실전 - 4.1. 한글(korean)이 제대로 검색되지 않는 현상Elasticsearch 입문·실전 - 4.1. 한글(korean)이 제대로 검색되지 않는 현상
- Elasticsearch에서 영어 데이터는 잘 검색되지만, 한글 데이터는 기본 설정으로 검색이 제대로 되지 않는 문제가 발생합니다. 🔍
- 기존 인덱스 생성 시
standard tokenizer, lowercase, stop, stemmer 필터로 구성된 커스텀 애널라이저를 적용했습니다. 🛠️
- "백화점에서 쇼핑을 하다가 친구를 만났다"와 같은 한글 문장을 삽입한 후 "백화점", "쇼핑", "친구" 등의 키워드로 검색 시 결과가 나오지 않았습니다. 🚫
_analyze API를 통해 분석한 결과, standard tokenizer는 띄어쓰기 기준으로만 토큰을 분리하여 한글의 조사나 어미가 붙은 단어를 제대로 인식하지 못했습니다. 💔
- 예를 들어, "백화점에서"는 하나의 토큰으로 분리되어 "백화점"이라는 키워드로는 검색되지 않습니다. 🧩
- 이러한 한글 검색 문제를 해결하기 위해서는 한글 분석에 최적화된 전용 애널라이저가 필요합니다. 💡
nori 애널라이저는 한글 텍스트를 더 정확하게 토큰화하여 검색 효율을 높일 수 있는 Elasticsearch의 한글 전용 분석기입니다. 🇰🇷
- 다음 강의에서는
nori 애널라이저를 적용하여 한글 검색 문제를 해결하는 방법을 다룰 예정입니다. ➡️