데브허브 | DEVHUB | Elasticsearch 입문·실전 - 4.3. [실습] 한글(korean)과 영어(english)가 섞인 글을 검색 가능하게 만들기Elasticsearch 입문·실전 - 4.3. [실습] 한글(korean)과 영어(english)가 섞인 글을 검색 가능하게 만들기
- 한글과 영어가 섞인 게시글 검색 시 Elasticsearch의 Nori Analyzer 사용이 기본입니다. 🌐
- Nori Analyzer는 혼합 텍스트를 의미 있는 토큰으로 잘 분리하며, 영어는 소문자로 변환하는 기능을 포함합니다. ✂️
- 기본 Nori Analyzer는 불용어(stop words)를 제거하지 않고, 영어 단어를 원형(stem)으로 변환하지 않는 한계가 있습니다. ⚠️
- 불용어 제거를 위해서는
stop 토큰 필터를 Nori Analyzer 구성에 추가할 수 있습니다. 🚫
- 영어 단어를 기본 형태(원형)로 변환하려면
stemmer 토큰 필터를 추가하여 적용할 수 있습니다. 🌱
- 사용자의 필요에 따라
character filter나 token filter를 Nori Analyzer에 추가하여 커스텀 애널라이저를 유연하게 구성할 수 있습니다. 🛠️
- 결론적으로, 한영 혼합 텍스트 검색에는 Nori Analyzer를 기본으로 사용하고, 필드 특성에 맞춰
stop, stemmer 등의 필터를 추가하여 검색 성능을 최적화합니다. ✨