Skip to content
Jonas Gierer edited this page Jun 22, 2014 · 1 revision

Файлы с основными данными

Находятся в каталоге data:

  • sections.txt — разделы таблицы Юникода
  • sets.txt — наборы символов
  • entities.txt — спецпоследовательности (вроде ©)
  • types.txt — типы разделов (алфавит, абугида)
  • languages.txt — языки, в которых используются разделы
  • countries.txt — страны, в которых используются разделы
  • specs.txt — управляющие символы (вроде \n)

В этих файлах описываются только общие данные, не зависящие от языка интерфейса. Все названия и описания находятся в файлах локализаций.

Формат файлов

На примере sections.txt:

# Sections params

[greek-coptic]
	diap            : 0370:03FF
	type            : alphabet
	languages       : greek, coptic
	countries       : greece

[cyrillic]
	diap            : 0400:04FF
	type            : alphabet
	languages       : russian, ukrainian, bulgarian
	countries       : russia, ukraine, bulgaria, serbia, macedonia, moldova

Строки, начинающиеся с #, считаются комментариями и игнорируются. Пустые строки также игнорируются.

В примере описаны два объекта: греческий алфавит (greek-coptic) и кириллица (cyrillic).

Описание раздела начинается с «ключа» раздела (cyrillic), заключённого в квадратные скобки. За ним идёт список параметров в виде «параметр : значение».

Ключ объекта используется для двух целей:

  • Для ссылки на этот объект из других файлов (например, из файлов локализаций).
  • Для использовании его в качестве URL. Например, http://unicode-table.com/ru/sections/cyrillic/

Ключ должен быть уникальными и состоять только из латинских букв в нижнем регистре, цифр или знаков дефиса.

Список параметров зависит от того, что описывается. Параметры могут быть обязательными или необязательными. В качестве значения может быть строка или список значений, разделённых запятыми (russian, ukrainian, bulgarian).

Обратите внимание, что в качестве языков и стран используются не их названия (разные в различных языках), а такие же «ключи», задаваемые в файлах languages.txt и countries.txt.

Разделы: sections.txt

Параметры:

  • diap — диапазон значений в формате 0370:03FF. Диапазоны различных разделов не должны пересекаться.
  • type — тип (алфавит, абугида). Соответствует типу из types.txt. Не обязателен.
  • languages — список языков, где используется. Соответствует языкам из languages.txt. Не обязателен.
  • countries — список стран, где используется. Соответствует странам из countries.txt. Не обязателен.

Наборы символов: sets.txt

Используется для страниц http://unicode-table.com/sets/

Параметры:

  • set — список символов из набора

Например:

[set-abcdef]
    set : a, b, c, d, e, f

Типы разделов (types.txt)

На данный момент параметры не определены. Так что просто задаётся список ключей.

[abjad]

[abugida]

[alphabet]

Языки, используемые в разделах (languages.txt)

Аналогично типам не имеют параметров.

Страны, где используется разделы символов (countries.txt)

Параметры:

  • map — координаты точки на карте (на странице раздела). Формат вида 110:75 (x:y)

HTML-entities (entities.txt)

HTML-последовательности. Например, © — знак копирайта.

Файл имеет более простой формат:

copy     : 169
ordf     : 170
laquo    : 171
not      : 172

Слева название последовательности (без & и ;), справа — десятичный код символа.

На данный момент используется в поиске: http://unicode-table.com/ru/search/?q=%26copy%3B

Управляющие символы (specs.txt)

Описываются символы вроде \n, \t и т.п. Формат файла аналогичен entities.txt:

0: 0
a: 7
b: 8
t: 9
n: 10
v: 11
f: 12
r: 13

Слева последовательности без слеша, справа - десятичный код символа.

Используются в поиске.

Добавление новых объектов

Обратите внимание, что ссылаться можно только на имеющиеся объекты. То есть, например, вы хотите, чтобы cyrillic ссылался на lang-unknown:

[cyrillic]
	diap            : 0400:04FF
	type            : alphabet
	languages       : russian, ukrainian, bulgarian, lang-unknown

Для этого нужно создать lang-unknown в файле language.txt, а также сделать к нему все необходимые переводы в файлах локализаций (как минимум в английской версии).

  • Data for Unicode-Table.com

Documentation in English

Clone this wiki locally