Releases: robinhad/voice-recognition-ua
Wav2Vec2 v0.1
This model is a fine-tuned version of facebook/wav2vec2-xls-r-300m on the Common Voice 8
dataset.
Note; during training test
set was used as validation set, so this model could have problems with generalisation.
Model license: MIT License
.
HuggingFace link: robinhad/wav2vec2-xls-r-300m-uk
Metrics
Loss
: 0.4165
Wer
: 27,99%
Cer
: 6,01%
v0.5 trained on coqui-stt 1.0.0
This model is trained on:
Total hours in dataset 700 hours
.
License: Creative Commons Attribution-NonCommercial 4.0 International License
Parameters
train_cudnn
train_batch_size
32dev_batch_size
32test_batch_size
32n_hidden
2048learning_rate
0.0001dropout_rate
0.60alphabet_config_path
epochs
150augment
pitch[pitch=1~0.1]augment
tempo[factor=1~0.1]augment
reverb[p=0.2,decay=0.70.15,delay=108]augment
volume[p=0.2,dbfs=-10~10]cache_for_epochs
10
Dataset details
dev.csv
and test.csv
are taken from Common Voice 7.0 dataset.
Test on /tmp/codalab/tmpE3l2Z8/run/input/ref/test.csv - WER: 0.649689, CER: 0.183548, loss: 28.395744
Best WER:
WER: 0.000000, CER: 0.000000, loss: 7.556924
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_23568993.opus
- src: "живемо як горох на дорозі хто не йде той скубне"
- res: "живемо як горох на дорозі хто не йде той скубне"
WER: 0.000000, CER: 0.000000, loss: 4.642539
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_23591022.opus
- src: "тут іншої думки бути не може"
- res: "тут іншої думки бути не може"
WER: 0.000000, CER: 0.000000, loss: 4.364529
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_22459005.opus
- src: "переходимо до розгляду першого звіту"
- res: "переходимо до розгляду першого звіту"
WER: 0.000000, CER: 0.000000, loss: 4.198352
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_23830207.opus
- src: "смерті моєї захтів єси"
- res: "смерті моєї захтів єси"
WER: 0.000000, CER: 0.000000, loss: 4.176784
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_21570836.opus
- src: "щось я не відчуваю лівий бік мого обличчя"
- res: "щось я не відчуваю лівий бік мого обличчя"
Median WER:
WER: 0.666667, CER: 0.214286, loss: 18.668133
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_25344388.opus
- src: "кого ж послемо до князя ілії"
- res: "кого ж послема допнязі іїї"
WER: 0.666667, CER: 0.166667, loss: 18.628965
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_24093045.opus
- src: "вікілла господарю проказав тихшим голосом тлумач"
- res: "відкіла господарю проказав тих щонголасом клумач"
WER: 0.666667, CER: 0.111111, loss: 18.223068
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_23579553.opus
- src: "ніхто серйозно його не турбував у землі ростовсько суздальській"
- res: "ніхто серйознойогоне трубував у землі ростовську суздельський"
WER: 0.666667, CER: 0.145833, loss: 18.129663
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_20948509.opus
- src: "синій сапфір дорогоцінний камінь першого порядку"
- res: "сині сяптієр до рогутінний камінь першого порядку"
WER: 0.666667, CER: 0.250000, loss: 18.099066
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_21582290.opus
- src: "чи вони зберігаються"
- res: "чого не зберігаються"
Worst WER:
WER: 2.000000, CER: 0.125000, loss: 3.093334
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_27046034.opus
- src: "нульових"
- res: "ну льових"
WER: 2.000000, CER: 0.066667, loss: 2.936281
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_24815125.opus
- src: "антиалкогольний"
- res: "анти алкогольний"
WER: 2.000000, CER: 0.500000, loss: 2.577957
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_24755026.opus
- src: "вмер"
- res: "ов мер"
WER: 2.000000, CER: 0.100000, loss: 2.057913
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_24754988.opus
- src: "антибаріон"
- res: "анти баріон"
WER: 3.000000, CER: 0.133333, loss: 4.383850
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_25102061.opus
- src: "антибанківський"
- res: "анти банків ський"
DeepSpeech v0.9.3 trained on 1230 hours of Ukrainian
This model is trained on Ukrainian Dataset at Academic torrents and Common Voice Ukrainian 6.1.
Total hours in dataset 1230 hours
.
Parameters
train_cudnn
train_batch_size
128dev_batch_size
128test_batch_size
128n_hidden
2048learning_rate
0.0001dropout_rate
0.40alphabet_config_path
epochs
20augment
pitch[pitch=1~0.1]augment
tempo[factor=1~0.1]augment
reverb[p=0.2,decay=0.70.15,delay=108]augment
volume[p=0.2,dbfs=-10~10]cache_for_epochs
4
Scorer parameters
lm_alpha
: 0.7200873732640549lm_beta
: 1.3010463457623596
Dataset details
dev.csv
and test.csv
are taken from Common Voice 6.1 dataset.
Test on /home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/test.csv - WER: 0.572430, CER: 0.162626, loss: 25.419409
Best WER:
WER: 0.000000, CER: 0.041667, loss: 8.075609
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21565025_prep.wav
- src: "що то значить химерувати"
- res: "що то значить химерувати "
WER: 0.000000, CER: 0.000000, loss: 6.279419
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_23559978_prep.wav
- src: "але ж відтоді минуло понад сто років"
- res: "але ж відтоді минуло понад сто років"
WER: 0.000000, CER: 0.000000, loss: 5.061992
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_23641397_prep.wav
- src: "звичайні васали орди"
- res: "звичайні васали орди"
WER: 0.000000, CER: 0.034483, loss: 4.464420
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21591082_prep.wav
- src: "він має право на свою позицію"
- res: "він має право на свою позицію "
WER: 0.000000, CER: 0.000000, loss: 4.318314
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21251132_prep.wav
- src: "у лікарні карлос зустрічає миколу"
- res: "у лікарні карлос зустрічає миколу"
Median WER:
WER: 0.583333, CER: 0.064516, loss: 12.683764
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_20894283_prep.wav
- src: "якщо інвестує велика корпорація на сторожі її інтересів стоїть посольство відповідної держави"
- res: "якщо інвестує велика корпорація насторожі вінтересів стоїть по сольство відповідно держави"
WER: 0.583333, CER: 0.054945, loss: 9.324151
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_23668638_prep.wav
- src: "в результаті кримського удару московія втратила близько мільйона людей убитими й полоненими"
- res: "вразультаті кримського удару москові я втратила близько мільйона людей у битими і полоненими"
WER: 0.600000, CER: 0.303571, loss: 65.429413
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21564046_prep.wav
- src: "це стосується колег з інших фракцій і це стосується всіх"
- res: "смиться колиг успінчих фракцій і це сисоються всіх"
WER: 0.600000, CER: 0.184211, loss: 63.418709
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21358836_prep.wav
- src: "немає теж масового обов’язкового закриття навчальних закладів по всій країні"
- res: "демаєтеж насовот обиди зково закриття навчальних закодів по всіх країні"
WER: 0.600000, CER: 0.269231, loss: 62.872345
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_22119244_prep.wav
- src: "тому якщо ви не проти я готовий принести цю програму"
- res: "тому якщо ви не погодит яготовит манескицю погаваму"
Worst WER:
WER: 1.500000, CER: 0.352941, loss: 16.784153
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_23552766_prep.wav
- src: "брехня безкінечна"
- res: "бресня без тінецька"
WER: 1.500000, CER: 0.411765, loss: 15.531440
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_23552768_prep.wav
- src: "валишевський пише"
- res: "волишав ської писа"
WER: 1.500000, CER: 0.210526, loss: 13.687809
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21760605_prep.wav
- src: "дозвольте розпочати"
- res: "дозвоть де розупочати"
WER: 1.500000, CER: 0.176471, loss: 6.415349
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21567113_prep.wav
- src: "обвал звинувачень"
- res: "обвало с винувачень"
WER: 1.500000, CER: 0.125000, loss: 5.079028
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_24035660_prep.wav
- src: "князь усміхнувся"
- res: "княць у сміхнувся"
With scorer:
Test on /home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/test.csv - WER: 0.306595, CER: 0.122171, loss: 25.419409
Best WER:
WER: 0.000000, CER: 0.000000, loss: 48.744312
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_23549776_prep.wav
- src: "права і свободи людини є невідчужуваними та непорушними"
- res: "права і свободи людини є невідчужуваними та непорушними"
WER: 0.000000, CER: 0.000000, loss: 48.257416
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21567658_prep.wav
- src: "особисті немайнові права автора не можуть бути передані іншим особам"
- res: "особисті немайнові права автора не можуть бути передані іншим особам"
WER: 0.000000, CER: 0.000000, loss: 48.053349
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_23573273_prep.wav
- src: "порядок роботи верховної ради україни встановлюється конституцією україни та регламентом верховної ради україни"
- res: "порядок роботи верховної ради україни встановлюється конституцією україни та регламентом верховної ради україни"
WER: 0.000000, CER: 0.000000, loss: 45.656788
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21350839_prep.wav
- src: "мінометну міну можна вирахувати з вельми високою вірогідністю"
- res: "мінометну міну можна вирахувати з вельми високою вірогідністю"
WER: 0.000000, CER: 0.000000, loss: 41.763634
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21808132_prep.wav
- src: "афіна богиня війни покровителька наук мистецтв ремесел"
- res: "афіна богиня війни покровителька наук мистецтв ремесел"
Median WER:
WER: 0.250000, CER: 0.025000, loss: 9.598674
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_23558664_prep.wav
- src: "жоден із татаро монгольських ханів не наближав до себе чужих неперевірених людей"
- res: "жоден із татар монгольських ханів не наближав до себе чужих не перевірених людей"
WER: 0.250000, CER: 0.083333, loss: 9.149654
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_22815552_prep.wav
- src: "в боротьбі виростає сила"
- res: "боротьбі виростає сила"
WER: 0.250000, CER: 0.034483, loss: 8.970282
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21585719_prep.wav
- src: "аполлон ідеал чоловічої краси"
- res: "аполон ідеал чоловічої краси"
WER: 0.250000, CER: 0.166667, loss: 8.075609
- wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21565025_prep.wav
- src: "що то значить химер...
DeepSpeech on 751 hours of Ukrainian
This model was trained on data available here
Parameters used for training:
train_cudnn
train_batch_size
128dev_batch_size
128test_batch_size
128n_hidden
2048learning_rate
0.0001dropout_rate
0.40- alphabet.txt attached below
epochs
10test dataset
Common Voice 6.1 Ukrainiantest.tsv
dev dataset
Common Voice 6.1 Ukrainiandev.tsv
Test on /mnt/data/CV/uk/clips/test.csv - WER: 0.603569, CER: 0.167068, loss: 32.373993
Best WER:
WER: 0.000000, CER: 0.000000, loss: 7.037546
- wav: file:///mnt/data/CV/uk/clips/common_voice_uk_23551664_prep.wav
- src: "настав час висповідатися"
- res: "настав час висповідатися"
WER: 0.000000, CER: 0.043478, loss: 6.745183
- wav: file:///mnt/data/CV/uk/clips/common_voice_uk_21568868_prep.wav
- src: "ніч віджене ніч прижене"
- res: "ніч віджене ніч прижене "
WER: 0.000000, CER: 0.000000, loss: 6.093888
- wav: file:///mnt/data/CV/uk/clips/common_voice_uk_20900160_prep.wav
- src: "тому я би просив єдине слово виключити"
- res: "тому я би просив єдине слово виключити"
WER: 0.000000, CER: 0.000000, loss: 6.064182
- wav: file:///mnt/data/CV/uk/clips/common_voice_uk_21572586_prep.wav
- src: "той горя не знає"
- res: "той горя не знає"
WER: 0.000000, CER: 0.000000, loss: 4.580412
- wav: file:///mnt/data/CV/uk/clips/common_voice_uk_21377791_prep.wav
- src: "тут це важливо підкреслити"
- res: "тут це важливо підкреслити"
Median WER:
WER: 0.625000, CER: 0.200000, loss: 47.603748
- wav: file:///mnt/data/CV/uk/clips/common_voice_uk_21552603_prep.wav
- src: "далі кладемо інгредієнти шарами — вівсянка сирок горіхи"
- res: "далі кладемо грідієнти шарами бівсянко сирог виріхи "
WER: 0.625000, CER: 0.191489, loss: 47.506721
- wav: file:///mnt/data/CV/uk/clips/common_voice_uk_23553793_prep.wav
- src: "втеча від суспільного життя — це зменшення себе"
- res: "хпечові суспільно о життя це зменшення всебе"
WER: 0.625000, CER: 0.288462, loss: 40.911366
- wav: file:///mnt/data/CV/uk/clips/common_voice_uk_23642647_prep.wav
- src: "малко вже давно навчився розуміти княжича й відповів"
- res: "малко вже навноночися розуміти кляжий черіних повів"
WER: 0.625000, CER: 0.139241, loss: 39.645527
- wav: file:///mnt/data/CV/uk/clips/common_voice_uk_21499704_prep.wav
- src: "волонтери навіть організовували декілька масштабних виставок військових товарів"
- res: "волонтери навіь рглізвали декілька мисштабних вистувик військових тиварів"
WER: 0.625000, CER: 0.098039, loss: 39.339531
- wav: file:///mnt/data/CV/uk/clips/common_voice_uk_23699440_prep.wav
- src: "якщо вона запущена – отже щось повинна обґрунтувати"
- res: "зякщо в на запущена отже щось повинна обкрунтувати"
Worst WER:
WER: 1.500000, CER: 0.142857, loss: 2.103775
- wav: file:///mnt/data/CV/uk/clips/common_voice_uk_20894352_prep.wav
- src: "це неправильно"
- res: "се не правильно"
WER: 2.000000, CER: 0.733333, loss: 37.599571
- wav: file:///mnt/data/CV/uk/clips/common_voice_uk_20982337_prep.wav
- src: "пане володимире"
- res: "ана було му нара"
WER: 2.000000, CER: 0.235294, loss: 13.988269
- wav: file:///mnt/data/CV/uk/clips/common_voice_uk_23552766_prep.wav
- src: "брехня безкінечна"
- res: "брехтя бе з цінечна"
WER: 2.000000, CER: 0.285714, loss: 7.106981
- wav: file:///mnt/data/CV/uk/clips/common_voice_uk_23549772_prep.wav
- src: "чергове"
- res: "черго уве"
WER: 2.000000, CER: 0.222222, loss: 5.891386
- wav: file:///mnt/data/CV/uk/clips/common_voice_uk_23551784_prep.wav
- src: "прирівняв"
- res: "порирів няв"
Update to DeepSpeech v0.9.1 with transfer learning
This release contains model with transfer learning from English model to Ukrainian.
Last two layers were dropped, 10 epochs was used.
Checkpoint folder is also provided in case you need to continue training.
Performance:
WER: 0.950863, CER: 0.357779, loss: 59.444176
WER - Word Error Rate
CER - Character Error Rate
Модель та Docker-container
В цьому релізі міститься натренована модель на 30 годинах записів української мови з проекту Common Voice.