Skip to content

Releases: robinhad/voice-recognition-ua

Wav2Vec2 v0.1

03 Sep 12:05
Compare
Choose a tag to compare

This model is a fine-tuned version of facebook/wav2vec2-xls-r-300m on the Common Voice 8 dataset.

Note; during training test set was used as validation set, so this model could have problems with generalisation.

Model license: MIT License.

HuggingFace link: robinhad/wav2vec2-xls-r-300m-uk

Metrics

Loss: 0.4165
Wer: 27,99%
Cer: 6,01%

v0.5 trained on coqui-stt 1.0.0

16 Nov 20:12
e2f1242
Compare
Choose a tag to compare

This model is trained on:

Total hours in dataset 700 hours.

License: Creative Commons Attribution-NonCommercial 4.0 International License

Parameters

  • train_cudnn
  • train_batch_size 32
  • dev_batch_size 32
  • test_batch_size 32
  • n_hidden 2048
  • learning_rate 0.0001
  • dropout_rate 0.60
  • alphabet_config_path
  • epochs 150
  • augment pitch[pitch=1~0.1]
  • augment tempo[factor=1~0.1]
  • augment reverb[p=0.2,decay=0.70.15,delay=108]
  • augment volume[p=0.2,dbfs=-10~10]
  • cache_for_epochs 10

Dataset details

dev.csv and test.csv are taken from Common Voice 7.0 dataset.

Test on /tmp/codalab/tmpE3l2Z8/run/input/ref/test.csv - WER: 0.649689, CER: 0.183548, loss: 28.395744

Best WER:

WER: 0.000000, CER: 0.000000, loss: 7.556924

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_23568993.opus
  • src: "живемо як горох на дорозі хто не йде той скубне"
  • res: "живемо як горох на дорозі хто не йде той скубне"

WER: 0.000000, CER: 0.000000, loss: 4.642539

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_23591022.opus
  • src: "тут іншої думки бути не може"
  • res: "тут іншої думки бути не може"

WER: 0.000000, CER: 0.000000, loss: 4.364529

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_22459005.opus
  • src: "переходимо до розгляду першого звіту"
  • res: "переходимо до розгляду першого звіту"

WER: 0.000000, CER: 0.000000, loss: 4.198352

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_23830207.opus
  • src: "смерті моєї захтів єси"
  • res: "смерті моєї захтів єси"

WER: 0.000000, CER: 0.000000, loss: 4.176784

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_21570836.opus
  • src: "щось я не відчуваю лівий бік мого обличчя"
  • res: "щось я не відчуваю лівий бік мого обличчя"

Median WER:

WER: 0.666667, CER: 0.214286, loss: 18.668133

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_25344388.opus
  • src: "кого ж послемо до князя ілії"
  • res: "кого ж послема допнязі іїї"

WER: 0.666667, CER: 0.166667, loss: 18.628965

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_24093045.opus
  • src: "вікілла господарю проказав тихшим голосом тлумач"
  • res: "відкіла господарю проказав тих щонголасом клумач"

WER: 0.666667, CER: 0.111111, loss: 18.223068

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_23579553.opus
  • src: "ніхто серйозно його не турбував у землі ростовсько суздальській"
  • res: "ніхто серйознойогоне трубував у землі ростовську суздельський"

WER: 0.666667, CER: 0.145833, loss: 18.129663

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_20948509.opus
  • src: "синій сапфір дорогоцінний камінь першого порядку"
  • res: "сині сяптієр до рогутінний камінь першого порядку"

WER: 0.666667, CER: 0.250000, loss: 18.099066

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_21582290.opus
  • src: "чи вони зберігаються"
  • res: "чого не зберігаються"

Worst WER:

WER: 2.000000, CER: 0.125000, loss: 3.093334

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_27046034.opus
  • src: "нульових"
  • res: "ну льових"

WER: 2.000000, CER: 0.066667, loss: 2.936281

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_24815125.opus
  • src: "антиалкогольний"
  • res: "анти алкогольний"

WER: 2.000000, CER: 0.500000, loss: 2.577957

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_24755026.opus
  • src: "вмер"
  • res: "ов мер"

WER: 2.000000, CER: 0.100000, loss: 2.057913

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_24754988.opus
  • src: "антибаріон"
  • res: "анти баріон"

WER: 3.000000, CER: 0.133333, loss: 4.383850

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_25102061.opus
  • src: "антибанківський"
  • res: "анти банків ський"

DeepSpeech v0.9.3 trained on 1230 hours of Ukrainian

15 Mar 16:50
Compare
Choose a tag to compare

This model is trained on Ukrainian Dataset at Academic torrents and Common Voice Ukrainian 6.1.
Total hours in dataset 1230 hours.

Parameters

  • train_cudnn
  • train_batch_size 128
  • dev_batch_size 128
  • test_batch_size 128
  • n_hidden 2048
  • learning_rate 0.0001
  • dropout_rate 0.40
  • alphabet_config_path
  • epochs 20
  • augment pitch[pitch=1~0.1]
  • augment tempo[factor=1~0.1]
  • augment reverb[p=0.2,decay=0.70.15,delay=108]
  • augment volume[p=0.2,dbfs=-10~10]
  • cache_for_epochs 4

Scorer parameters

  • lm_alpha: 0.7200873732640549
  • lm_beta: 1.3010463457623596

Dataset details

dev.csv and test.csv are taken from Common Voice 6.1 dataset.

Test on /home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/test.csv - WER: 0.572430, CER: 0.162626, loss: 25.419409


Best WER:

WER: 0.000000, CER: 0.041667, loss: 8.075609

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21565025_prep.wav
  • src: "що то значить химерувати"
  • res: "що то значить химерувати "

WER: 0.000000, CER: 0.000000, loss: 6.279419

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_23559978_prep.wav
  • src: "але ж відтоді минуло понад сто років"
  • res: "але ж відтоді минуло понад сто років"

WER: 0.000000, CER: 0.000000, loss: 5.061992

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_23641397_prep.wav
  • src: "звичайні васали орди"
  • res: "звичайні васали орди"

WER: 0.000000, CER: 0.034483, loss: 4.464420

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21591082_prep.wav
  • src: "він має право на свою позицію"
  • res: "він має право на свою позицію "

WER: 0.000000, CER: 0.000000, loss: 4.318314

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21251132_prep.wav
  • src: "у лікарні карлос зустрічає миколу"
  • res: "у лікарні карлос зустрічає миколу"

Median WER:

WER: 0.583333, CER: 0.064516, loss: 12.683764

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_20894283_prep.wav
  • src: "якщо інвестує велика корпорація на сторожі її інтересів стоїть посольство відповідної держави"
  • res: "якщо інвестує велика корпорація насторожі вінтересів стоїть по сольство відповідно держави"

WER: 0.583333, CER: 0.054945, loss: 9.324151

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_23668638_prep.wav
  • src: "в результаті кримського удару московія втратила близько мільйона людей убитими й полоненими"
  • res: "вразультаті кримського удару москові я втратила близько мільйона людей у битими і полоненими"

WER: 0.600000, CER: 0.303571, loss: 65.429413

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21564046_prep.wav
  • src: "це стосується колег з інших фракцій і це стосується всіх"
  • res: "смиться колиг успінчих фракцій і це сисоються всіх"

WER: 0.600000, CER: 0.184211, loss: 63.418709

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21358836_prep.wav
  • src: "немає теж масового обов’язкового закриття навчальних закладів по всій країні"
  • res: "демаєтеж насовот обиди зково закриття навчальних закодів по всіх країні"

WER: 0.600000, CER: 0.269231, loss: 62.872345

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_22119244_prep.wav
  • src: "тому якщо ви не проти я готовий принести цю програму"
  • res: "тому якщо ви не погодит яготовит манескицю погаваму"

Worst WER:

WER: 1.500000, CER: 0.352941, loss: 16.784153

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_23552766_prep.wav
  • src: "брехня безкінечна"
  • res: "бресня без тінецька"

WER: 1.500000, CER: 0.411765, loss: 15.531440

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_23552768_prep.wav
  • src: "валишевський пише"
  • res: "волишав ської писа"

WER: 1.500000, CER: 0.210526, loss: 13.687809

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21760605_prep.wav
  • src: "дозвольте розпочати"
  • res: "дозвоть де розупочати"

WER: 1.500000, CER: 0.176471, loss: 6.415349

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21567113_prep.wav
  • src: "обвал звинувачень"
  • res: "обвало с винувачень"

WER: 1.500000, CER: 0.125000, loss: 5.079028

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_24035660_prep.wav
  • src: "князь усміхнувся"
  • res: "княць у сміхнувся"

With scorer:

Test on /home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/test.csv - WER: 0.306595, CER: 0.122171, loss: 25.419409

Best WER:

WER: 0.000000, CER: 0.000000, loss: 48.744312

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_23549776_prep.wav
  • src: "права і свободи людини є невідчужуваними та непорушними"
  • res: "права і свободи людини є невідчужуваними та непорушними"

WER: 0.000000, CER: 0.000000, loss: 48.257416

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21567658_prep.wav
  • src: "особисті немайнові права автора не можуть бути передані іншим особам"
  • res: "особисті немайнові права автора не можуть бути передані іншим особам"

WER: 0.000000, CER: 0.000000, loss: 48.053349

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_23573273_prep.wav
  • src: "порядок роботи верховної ради україни встановлюється конституцією україни та регламентом верховної ради україни"
  • res: "порядок роботи верховної ради україни встановлюється конституцією україни та регламентом верховної ради україни"

WER: 0.000000, CER: 0.000000, loss: 45.656788

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21350839_prep.wav
  • src: "мінометну міну можна вирахувати з вельми високою вірогідністю"
  • res: "мінометну міну можна вирахувати з вельми високою вірогідністю"

WER: 0.000000, CER: 0.000000, loss: 41.763634

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21808132_prep.wav
  • src: "афіна богиня війни покровителька наук мистецтв ремесел"
  • res: "афіна богиня війни покровителька наук мистецтв ремесел"

Median WER:

WER: 0.250000, CER: 0.025000, loss: 9.598674

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_23558664_prep.wav
  • src: "жоден із татаро монгольських ханів не наближав до себе чужих неперевірених людей"
  • res: "жоден із татар монгольських ханів не наближав до себе чужих не перевірених людей"

WER: 0.250000, CER: 0.083333, loss: 9.149654

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_22815552_prep.wav
  • src: "в боротьбі виростає сила"
  • res: "боротьбі виростає сила"

WER: 0.250000, CER: 0.034483, loss: 8.970282

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21585719_prep.wav
  • src: "аполлон ідеал чоловічої краси"
  • res: "аполон ідеал чоловічої краси"

WER: 0.250000, CER: 0.166667, loss: 8.075609

  • wav: file:///home/ubuntu/Data/cv-corpus-6.1-2020-12-11/uk/clips/common_voice_uk_21565025_prep.wav
  • src: "що то значить химер...
Read more

DeepSpeech on 751 hours of Ukrainian

17 Feb 13:41
66e801b
Compare
Choose a tag to compare

This model was trained on data available here
Parameters used for training:

  • train_cudnn
  • train_batch_size 128
  • dev_batch_size 128
  • test_batch_size 128
  • n_hidden 2048
  • learning_rate 0.0001
  • dropout_rate 0.40
  • alphabet.txt attached below
  • epochs 10
  • test dataset Common Voice 6.1 Ukrainian test.tsv
  • dev dataset Common Voice 6.1 Ukrainian dev.tsv

Test on /mnt/data/CV/uk/clips/test.csv - WER: 0.603569, CER: 0.167068, loss: 32.373993
Best WER:

WER: 0.000000, CER: 0.000000, loss: 7.037546

  • wav: file:///mnt/data/CV/uk/clips/common_voice_uk_23551664_prep.wav
  • src: "настав час висповідатися"
  • res: "настав час висповідатися"

WER: 0.000000, CER: 0.043478, loss: 6.745183

  • wav: file:///mnt/data/CV/uk/clips/common_voice_uk_21568868_prep.wav
  • src: "ніч віджене ніч прижене"
  • res: "ніч віджене ніч прижене "

WER: 0.000000, CER: 0.000000, loss: 6.093888

  • wav: file:///mnt/data/CV/uk/clips/common_voice_uk_20900160_prep.wav
  • src: "тому я би просив єдине слово виключити"
  • res: "тому я би просив єдине слово виключити"

WER: 0.000000, CER: 0.000000, loss: 6.064182

  • wav: file:///mnt/data/CV/uk/clips/common_voice_uk_21572586_prep.wav
  • src: "той горя не знає"
  • res: "той горя не знає"

WER: 0.000000, CER: 0.000000, loss: 4.580412

  • wav: file:///mnt/data/CV/uk/clips/common_voice_uk_21377791_prep.wav
  • src: "тут це важливо підкреслити"
  • res: "тут це важливо підкреслити"

Median WER:

WER: 0.625000, CER: 0.200000, loss: 47.603748

  • wav: file:///mnt/data/CV/uk/clips/common_voice_uk_21552603_prep.wav
  • src: "далі кладемо інгредієнти шарами — вівсянка сирок горіхи"
  • res: "далі кладемо грідієнти шарами бівсянко сирог виріхи "

WER: 0.625000, CER: 0.191489, loss: 47.506721

  • wav: file:///mnt/data/CV/uk/clips/common_voice_uk_23553793_prep.wav
  • src: "втеча від суспільного життя — це зменшення себе"
  • res: "хпечові суспільно о життя це зменшення всебе"

WER: 0.625000, CER: 0.288462, loss: 40.911366

  • wav: file:///mnt/data/CV/uk/clips/common_voice_uk_23642647_prep.wav
  • src: "малко вже давно навчився розуміти княжича й відповів"
  • res: "малко вже навноночися розуміти кляжий черіних повів"

WER: 0.625000, CER: 0.139241, loss: 39.645527

  • wav: file:///mnt/data/CV/uk/clips/common_voice_uk_21499704_prep.wav
  • src: "волонтери навіть організовували декілька масштабних виставок військових товарів"
  • res: "волонтери навіь рглізвали декілька мисштабних вистувик військових тиварів"

WER: 0.625000, CER: 0.098039, loss: 39.339531

  • wav: file:///mnt/data/CV/uk/clips/common_voice_uk_23699440_prep.wav
  • src: "якщо вона запущена – отже щось повинна обґрунтувати"
  • res: "зякщо в на запущена отже щось повинна обкрунтувати"

Worst WER:

WER: 1.500000, CER: 0.142857, loss: 2.103775

  • wav: file:///mnt/data/CV/uk/clips/common_voice_uk_20894352_prep.wav
  • src: "це неправильно"
  • res: "се не правильно"

WER: 2.000000, CER: 0.733333, loss: 37.599571

  • wav: file:///mnt/data/CV/uk/clips/common_voice_uk_20982337_prep.wav
  • src: "пане володимире"
  • res: "ана було му нара"

WER: 2.000000, CER: 0.235294, loss: 13.988269

  • wav: file:///mnt/data/CV/uk/clips/common_voice_uk_23552766_prep.wav
  • src: "брехня безкінечна"
  • res: "брехтя бе з цінечна"

WER: 2.000000, CER: 0.285714, loss: 7.106981

  • wav: file:///mnt/data/CV/uk/clips/common_voice_uk_23549772_prep.wav
  • src: "чергове"
  • res: "черго уве"

WER: 2.000000, CER: 0.222222, loss: 5.891386

  • wav: file:///mnt/data/CV/uk/clips/common_voice_uk_23551784_prep.wav
  • src: "прирівняв"
  • res: "порирів няв"

Update to DeepSpeech v0.9.1 with transfer learning

28 Nov 01:30
Compare
Choose a tag to compare

This release contains model with transfer learning from English model to Ukrainian.
Last two layers were dropped, 10 epochs was used.
Checkpoint folder is also provided in case you need to continue training.
Performance:
WER: 0.950863, CER: 0.357779, loss: 59.444176

WER - Word Error Rate
CER - Character Error Rate

Модель та Docker-container

29 Aug 21:59
Compare
Choose a tag to compare

В цьому релізі міститься натренована модель на 30 годинах записів української мови з проекту Common Voice.