데브허브 | DEVHUB | Elasticsearch 입문·실전 - 3.6. Elasticsearch에 기본값으로 설정되어 있는 애널라이저(Analyzer)Elasticsearch 입문·실전 - 3.6. Elasticsearch에 기본값으로 설정되어 있는 애널라이저(Analyzer)
- Elasticsearch는 다양한 애널라이저를 제공하며, 그중 기본값은 'Standard Analyzer'입니다. ⚙️
- 애널라이저는 캐릭터 필터, 토크나이저, 토큰 필터의 세 가지 구성 요소로 이루어집니다. 🧩
- Standard Analyzer는 캐릭터 필터 없이 'Standard Tokenizer'와 'Lowercase Token Filter'로 구성됩니다. 🛠️
- Standard Tokenizer는 공백이나 문장 부호를 기준으로 텍스트를 토큰화하며, Lowercase Token Filter는 토큰을 소문자로 변환하는 역할을 합니다. ✂️
- Standard Analyzer는 'analyzer: standard'로 명시하거나, 구성 요소(tokenizer: standard, filter: [lowercase])를 직접 나열하는 두 가지 방식으로 표현할 수 있으며, 이 둘은 동일하게 작동합니다. 📝
- 이전 강의에서 설명했던 역인덱스 저장 방식(예: 'Apple'을 그대로 저장)은 Lowercase Token Filter를 고려하지 않아 잘못되었으며, 실제로는 소문자('apple')로 저장됩니다. ⚠️
- 애널라이저가 문자열을 어떻게 토큰화하는지 직접 확인(디버깅)하는 과정은 개발 및 문제 해결에 매우 중요합니다. 🔍