2015년 8월 25일 화요일

Elasticsearch에서 Mecab Ko 사전경로 변경하기

Elasticsearch Settings > Analysis > Analyzer, Tokenizer를 Mecab Ko로 설정한다.

Index analysis는 Analyzer, Tokenizer, TokenFilter로 구성된다.


1. Analysis 설정 구조
index
     analysis
            analyzer
                   standard : 
                          type : standard
                          stopwords : [stop, stop2]
                   myAnalyzer  :
                           type : standard
                           stopwords : [stop1, stop2, stop3]
                           max_token_length : 500
            tokenizer :
                   myTokenizer :
                          type : standard
                          max_token_length : 900
            filter :
                  myTokenFilter :
                         type : stop
                         stopwords : [stop1, stop2, stop3, stop4]

* max_token_length의 기본값은 255이다.

2. Mecab Ko Analysis 설정

setting에서 아래와 같이 사전경로 지정을 위해 tokenizer > mecab_args를 추가한다.

PUT /shop
{
"settings" : {
    "index":{
      "analysis":{
        "analyzer":{
          "korean":{
            "type":"custom",
            "tokenizer":"mecab_ko_standard_tokenizer"
          }
        },
        "tokenizer": {
          "mecab_ko_standard_tokenizer": {
            "type": "mecab_ko_standard_tokenizer",
            "mecab_args": "-d /home/elasticsearch/knowledge/mecab/dic/mecab-ko-dic"
          }
        }
      }
    }
 }
}

[분석 결과보기]
GET /shop/_analyze?analyzer=korean&pretty=true
{
  레노버노트북
}


[참고 URL]

댓글 없음:

댓글 쓰기