[ES] Token filter 정리

Token Filter란?

tokenizer에서 term 분리 과정 이후에는 분리된 각각의 term들이 지정된 규칙에 따라서 처리되는데 이 역활을 token filter가 진행한다. token filter는 filter항목에 배열로 지정해야 하고, 지정한 배열 순서대로 필터가 동작하기 때문에 순서를 잘 고려해야 한다.

예를 들어

"I'm learning Elasticsearch"
Plain Text
복사

whitespace tokenizer로 나누면

["I'm", "learning", "Elasticsearch"]
JSON
복사

이걸 lowercase, stop 토큰 필터를 적용하면

["learning", "elasticsearch"]
JSON
복사

주요 Token Filter 종류

1. lowercase

모든 term들을 소문자로 바꾼다

POST _analyze
{
  "tokenizer": "whitespace",
  "filter": ["lowercase"],
  "text": "Elasticsearch IS Awesome"
}
JSON
복사

["elasticsearch", "is", "awesome"]
JSON
복사

2. stop

불용어(stopwords)를 제거한다 (ex. is, the, a, an …)

POST _analyze
{
  "tokenizer": "whitespace",
  "filter": ["stop"],
  "text": "this is a test"
}
JSON
복사

JSON
복사

3. stemmer

어근(stem)만 남긴다. (ex. running → run)

POST _analyze
{
  "tokenizer": "standard",
  "filter": ["stemmer"],
  "text": "running runs runner"
}
JSON
복사

["run", "run", "runner"]
JSON
복사

4. edge_ngram

term을 앞부분에서부터 자른다. 보통 자동 완성에서 많이 사용된다.

POST _analyze
{
  "tokenizer": "standard",
  "filter": [
    {
      "type": "edge_ngram",
      "min_gram": 2,
      "max_gram": 4
    }
  ],
  "text": "search"
}
JSON
복사

["se", "sea", "sear"]
JSON
복사