GitHub - ARBML/mat-bpe

Morphology-aware tokenization for Arabic

pip install -e .

from bpe_surgery import bpe
tokenizer = bpe(vocab_size=23,)
tokenizer.train(file_path='test_ar_sm.txt')
tokenizer.tokenize("السلام عليكم شيء جميل")

Output

[['ال', 'س', 'ل', 'ا', 'م'],
 ['ع', 'ل', 'ي', 'ك', 'م'],
 ['<unk>', 'ي', '<unk>'],
 ['جم', 'ي', 'ل']]

Name		Name	Last commit message	Last commit date
Latest commit History 39 Commits
bpe_surgery		bpe_surgery
notebooks		notebooks
.gitignore		.gitignore
README.md		README.md
morfessor.bin		morfessor.bin
playground.ipynb		playground.ipynb
requirements.txt		requirements.txt
setup.py		setup.py
test_ar.txt		test_ar.txt
test_ar_sm.txt		test_ar_sm.txt
test_en.txt		test_en.txt