데브허브 | DEVHUB | Elasticsearch 입문·실전 - 3.5. 애널라이저(Analyzer)란?Elasticsearch 입문·실전 - 3.5. 애널라이저(Analyzer)란?
- 애널라이저는 엘라스틱서치에서 문자열 필드 값을 검색 가능한 '토큰'으로 변환하여 역인덱스에 저장하는 핵심 장치입니다. ⚙️
- 이전 강의에서 간단히 설명했던 '단어 단위로 자르기'는 사실 애널라이저를 통한 복잡한 가공 과정을 거칩니다. 🧩
- 애널라이저는 크게 세 가지 요소(캐릭터 필터, 토크나이저, 토큰 필터)로 구성되어 문자열을 단계적으로 처리합니다. 🏗️
- 캐릭터 필터는 문자열을 토큰으로 자르기 전에 불필요한 요소를 제거하거나 다듬는 역할을 합니다 (예: HTML 태그 제거). 🧹
- 토크나이저는 문자열을 실제 토큰으로 분리하는 역할을 하며, 스탠더드 토크나이저는 공백이나 문장 부호를 기준으로 단어를 나눕니다. ✂️
- 토큰 필터는 잘린 토큰들을 최종적으로 다듬는 역할을 합니다 (예: 소문자 변환, 불용어 제거, 단어 원형 변환). ✨
- 이러한 과정을 통해 원본 문자열은 역인덱스에 효율적으로 저장될 수 있는 정제된 토큰 형태로 변환됩니다. 🔄
- 사용자가 별도로 설정하지 않아도 엘라스틱서치는 기본값으로 설정된 애널라이저를 사용하여 텍스트를 처리하고 검색을 가능하게 합니다. 🛠️