arabic: add unicode normalization to analyzer

2015-02-06 19:48:06 +03:00 · 2015-02-06 19:48:06 +03:00 · 9444af9366
commit 9444af9366
parent 91a8d5da9f
2 changed files with 15 additions and 0 deletions
--- a/analysis/language/ar/analyzer_ar.go
+++ b/analysis/language/ar/analyzer_ar.go
@ -14,6 +14,7 @@ import (
 	"github.com/blevesearch/bleve/registry"
 	"github.com/blevesearch/bleve/analysis/token_filters/lower_case_filter"
 	"github.com/blevesearch/bleve/analysis/token_filters/unicode_normalize"
 	"github.com/blevesearch/bleve/analysis/tokenizers/unicode"
 )
@ -28,6 +29,7 @@ func AnalyzerConstructor(config map[string]interface{}, cache *registry.Cache) (
 	if err != nil {
 		return nil, err
 	}
 	normalizeFilter := unicode_normalize.MustNewUnicodeNormalizeFilter(unicode_normalize.NFKC)
 	stopArFilter, err := cache.TokenFilterNamed(StopName)
 	if err != nil {
 		return nil, err
@ -44,6 +46,7 @@ func AnalyzerConstructor(config map[string]interface{}, cache *registry.Cache) (
 		Tokenizer: tokenizer,
 		TokenFilters: []analysis.TokenFilter{
 			toLowerFilter,
 			normalizeFilter,
 			stopArFilter,
 			normalizeArFilter,
 			stemmerArFilter,
--- a/analysis/language/ar/analyzer_ar_test.go
+++ b/analysis/language/ar/analyzer_ar_test.go
@ -150,6 +150,18 @@ func TestArabicAnalyzer(t *testing.T) {
 				},
 			},
 		},
 		// presentation form normalization
 		{
 			input: []byte("ﺍﻟﺴﻼﻢ"),
 			output: analysis.TokenStream{
 				&analysis.Token{
 					Term:     []byte("سلام"),
 					Position: 1,
 					Start:    0,
 					End:      15,
 				},
 			},
 		},
 	}
 	cache := registry.NewCache()