Skip to content
Jonas Gierer edited this page Jun 22, 2014 · 1 revision

Поиск по сайту

Для индексации данных и поиска по сайту используется поисковый движок Sphinx.

Для каждого символа учитывается (с разной степенью значимости) его заголовок (как на языке поиска, так и на английском), название раздела, десятичный и шестнадцатиричный коды, наборы символов в которые входит и другие данные.

Здесь описаны дополнительные файлы, которые можно использовать для настройки поиска.

entities.txt и specs.txt

Эти два файла описаны в файлах с данными. С их помощью можно искать по HTML-сущностям (β) и по управляющим символам (\t).

Синонимы символов

В файлах локализации символов (файлы локализаций, раздел «Названия символов») можно указывать синонимы к каждому символу:

00A9 : Знак авторского права : Копирайт, (с)
2122 : Знак торговой марки : тм

Теперь по запросу копирайт находится знак авторского права.

Словоформы и списки стоп-слов

В каталоге локализации находится вложенный каталог morph в котором могут быть созданы два файла wordforms.txt и stopwords.txt.

Их формат описан в документации по Sphinx: wordforms, stopforms.

Пример loc/ru/morph/wordforms.txt:

сердечко > сердц
сердечки > сердц
солнышко > солнц
стрелочка > стрелк
собачка > собак
звездочка > звезд
значок > символ
знак > символ
бакс > доллар
баксы > доллар
  • Data for Unicode-Table.com

Documentation in English

Clone this wiki locally