Skip to content

Instal·lació

Col·lectivaT edited this page Nov 19, 2018 · 11 revisions

Aquí trobareu instruccions bàsiques per instal·lar eines CMUSphinx. Encara que ens superposem en certa manera amb el tutorial oficial de l'equip de CMUSphinx, el nostre objectiu no és duplicar el contingut sinó expandir determinades tasques i conceptes bàsics. Per obtenir la informació fonamental, consideri la seva pàgina, les darreres publicacions (ref1, ref2) i el seu sourceforge forum si us plau,

Requisits

Les instruccions d'aquesta pàgina estan provades actualment per a Ubuntu 16.04 i Mac OS 14.

Les Eines

El projecte CMUSphinx consisteix múltiples eines. Tenen diferents usos i aplicacions. La llista de les eines són, tal com es fa a la seva pàgina web:

  • pocketsphinx - biblioteca de reconeixement lleuger escrit en C.
  • sphinxbase - biblioteca de suport requerida per pocketsphinx i sphinxtrain
  • sphinx4 - biblioteca de reconeixement personalitzable i modificable escrit en Java
  • sphinxtrain - eines d'entrenament dels models acústics

En aquest wiki, parlarem sobre els passos de la instal·lació de tots, excepte el sphinx4.

L'eina necessària per a les tasques de reconeixement simples és el pocketsphinx. Està empaquetada i fàcil de configurar per a múltiples sistemes operatius. Per al desenvolupament i l'ús avançat hauràs de descarregar i compilar el sphinxbase. Si voleu fer el desenvolupament a Java, sphinx4; i finalment per formar models acústics necessitaràs sphinxtrain.

A la secció següent, us expliquem com configurar pocketsphinx per a usuaris ocasionals. No obstant això, per als desenvolupadors, hi ha diverses maneres de descarregar aquestes eines:

La millor manera depèn de l'eina i la necessitat. A partir de novembre de 2018, les eines més utilitzades estan actualitzades a github.

Instal·lació bàsica

Per començar a descodificar la parla directament des del micròfon o des d'un fitxer, la primera eina per descarregar és pocketsphinx.

Sistemes de Debian

Per als sistemes basats en Debian, podeu instal·lar-lo simplement utilitzant el gestor de paquets apt.

sudo apt-get install pocketsphinx

Mac OS

Podeu instal·lar pocketsphinx usant brew

brew install cmu-sphinx

Recursos addicionals

Models i diccionari

pocketsphinx no pot descodificar per si sol, necessita recursos dependents de l'idioma. És a dir:

  • Model acústic
  • Model de llengua
  • Lèxic fonètic (diccionari)

Pràcticament el model d'idioma i el lèxic són fitxers solts, mentre que el model acústic consta de diversos fitxers; En general, tots els recursos es distribueixen conjuntament. CMUSphinx sourceforge pàgina de descàrregues ja té alguns idiomes disponibles.

Cada idioma ha de tenir almenys els tres recursos. El cas per a castellà és el següent

NOTA

Per als sistemes de base de Debian, es poden descarregar els models en anglès sudo apt-get install pocket-files-en-us

Arxius d'àudio transcrits

Per començar a provar les capacitats de reconeixement de veu, és possible descarregar fitxers de veu per a un idioma determinat des del lloc web de Voxforge. Seguint l'exemple anterior, es poden trobar els fitxers de parla castellans aquí i específicament aquí.

NOTA

Cada model acústic està format per a un mostreig d'àudio determinat. Els valors més comuns són 16kHz i 8kHz. Quan descodifiqueu els enregistraments de veu, assegureu-vos que el mostreig de fitxers sigui coherent amb el model del model acústic.

Exemples

Ara podem provar la instal·lació pocketsphinx. Per provar amb un fitxer:

pocketsphinx_continuous-hmm <acoustic_model_path> -lm <language_model_file> -dict <dictionary_file> -infile <wave_file>

O simplement pel català:

pocketsphinx_continuous -hmm ca-es/acoustic-model / -lm ca-es/language-model.lm.bin -dict ca-es/pronunció-dictionary.dict -infile scripts/test_wavs/test_ca-es.wav