-
Notifications
You must be signed in to change notification settings - Fork 6
Instal·lació
Aquí trobareu instruccions bàsiques per instal·lar eines CMUSphinx. Encara que ens superposem en certa manera amb el tutorial oficial de l'equip de CMUSphinx, el nostre objectiu no és duplicar el contingut sinó expandir determinades tasques i conceptes bàsics. Per obtenir la informació fonamental, consideri la seva pàgina, les darreres publicacions (ref1, ref2) i el seu sourceforge forum si us plau,
Les instruccions d'aquesta pàgina estan provades actualment per a Ubuntu 16.04 i Mac OS 14.
El projecte CMUSphinx consisteix múltiples eines. Tenen diferents usos i aplicacions. La llista de les eines són, tal com es fa a la seva pàgina web:
-
pocketsphinx
- biblioteca de reconeixement lleuger escrit en C. -
sphinxbase
- biblioteca de suport requerida perpocketsphinx
isphinxtrain
-
sphinx4
- biblioteca de reconeixement personalitzable i modificable escrit en Java -
sphinxtrain
- eines d'entrenament dels models acústics
En aquest wiki, parlarem sobre els passos de la instal·lació de tots, excepte el sphinx4
.
L'eina necessària per a les tasques de reconeixement simples és el pocketsphinx
. Està empaquetada i fàcil de configurar per a múltiples sistemes operatius. Per al desenvolupament i l'ús avançat hauràs de descarregar i compilar el sphinxbase
. Si voleu fer el desenvolupament a Java, sphinx4
; i finalment per formar models acústics necessitaràs sphinxtrain
.
A la secció següent, us expliquem com configurar pocketsphinx
per a usuaris ocasionals. No obstant això, per als desenvolupadors, hi ha diverses maneres de descarregar aquestes eines:
- Des de la pàgina de baixades de CMUSphinx de sourceforge
- Des del repositori de subversió
- Des del repositori git
La millor manera depèn de l'eina i la necessitat. A partir de novembre de 2018, les eines més utilitzades estan actualitzades a github.
Per començar a descodificar la parla directament des del micròfon o des d'un fitxer, la primera eina per descarregar és pocketsphinx
.
Per als sistemes basats en Debian, podeu instal·lar-lo simplement utilitzant el gestor de paquets apt
.
sudo apt-get install pocketsphinx
Podeu instal·lar pocketsphinx
usant brew
brew install cmu-sphinx
pocketsphinx
no pot descodificar per si sol, necessita recursos dependents de l'idioma. És a dir:
- Model acústic
- Model de llengua
- Lèxic fonètic (diccionari)
Pràcticament el model d'idioma i el lèxic són fitxers solts, mentre que el model acústic consta de diversos fitxers; En general, tots els recursos es distribueixen conjuntament. CMUSphinx sourceforge pàgina de descàrregues ja té alguns idiomes disponibles.
Cada idioma ha de tenir almenys els tres recursos. El cas per a castellà és el següent
NOTA
Per als sistemes de base de Debian, es poden descarregar els models en anglès
sudo apt-get install pocket-files-en-us
Per començar a provar les capacitats de reconeixement de veu, és possible descarregar fitxers de veu per a un idioma determinat des del lloc web de Voxforge. Seguint l'exemple anterior, es poden trobar els fitxers de parla castellans aquí i específicament aquí.
NOTA
Cada model acústic està format per a un mostreig d'àudio determinat. Els valors més comuns són 16kHz i 8kHz. Quan descodifiqueu els enregistraments de veu, assegureu-vos que el mostreig de fitxers sigui coherent amb el model del model acústic.
Ara podem provar la instal·lació pocketsphinx
. Per provar amb un fitxer:
pocketsphinx_continuous-hmm <acoustic_model_path> -lm <language_model_file> -dict <dictionary_file> -infile <wave_file>
O simplement pel català:
pocketsphinx_continuous -hmm ca-es/acoustic-model / -lm ca-es/language-model.lm.bin -dict ca-es/pronunció-dictionary.dict -infile scripts/test_wavs/test_ca-es.wav