🗣 Synthèse vocale sous Linux

déc.

2020

🗣 Synthèse vocale sous Linux

😤 Ce billet a été édité le : 2021-01-07

Attention, ce billet est insuffisant pour configurer de manière satisfaisante la synthèse vocale de votre Linux, mais c’est une base qui peut vous aider dans vos propres recherches.

Vos commentaires sont les bienvenus…

ඏ

Les solutions de synthèses vocale sous Linux sont plutôt en retard comparé à ce que l’on trouve sous d’autres plateformes.

Sur le fond, il n’y a pas de raison, la plupart des solutions utilisées sur les autres plateformes étant open-source. D’où mon hypothèse, c’est un problème d’intégration et de configuration.

Après un temps de recherche non négligeable, je suis arrivé à une qualité très respectable en utilisant les paquets existant dans les dépôts standard. Voici, les informations nécessaires pour utiliser la synthèse vocale sous Linux.

festival

Voici un synthétiseur vocal (ou TTS, pour Text To Speech) qui semble prometteur, mais qui ne supporte pas encore la langue française.

Pour l’installer :

sudo apt install festival festvox-kallpc16k

festival est un synthétiseur vocal,
festvox-kallpc16k une voix pour festival, attention le français ne fait pas partie des langues supportées pour le moment.

Festival s’utilise comme suit :

echo "Hello, I speak English" | festival --tts

eSpeak et Mbrola

Pour le couple eSpeak-Mbrola, vous aurez besoin des paquets suivant :

sudo apt install espeak mbrola mbrola-en1 mbrola-fr1 mbrola-fr4

espeak est un synthétiseur vocal multi-langue, que l’on utilisera uniquement pour la conversion phonétique,
mbrola est un synthétiseur vocal multi-langue qui offre un meilleur rendu que espeak mais qui ne prend pas en charge la conversion phonétique. Ce synthétiseur et les voix françaises présentent dans les dépôts standards sont depuis début 2019 sous licence GNU GPL3 Afero,
mbrola-en1 une voix masculine pour l’anglais (utile seulement ici pour la comparaison),
mbrola-fr1 une voix masculine pour le Français,
mbrola-fr4 une voix féminine pour le Français.

La commande eSpeak permet de faire « parler » votre ordinateur très simplement :

espeak "Hello, I speak English"

Pour de l’anglais n’est pas si mal, bien que le résultat soit une caricature de voix de robot. Par contre si on met du français, c’est catastrophique :

espeak "salut ceci est du français" # Exemple à ne pas suivre…

Il faudra donc préciser la langue à un moment donné.

Changeons de modèle de voix :

espeak -v mb-en1 "Hello, I speak English"

En anglais, c’est déjà beaucoup plus naturel comme voix.

Passons au Français :

espeak -v mb-fr1 "Bonjour, je parle français."

Il y a un gros progrès, c’est au moins compréhensible, mais on doit pouvoir faire mieux, non ?

Il faut savoir qu’il existe différentes solutions pour faire du TTS sur Linux. Ces solutions ne sont pas forcément concurrentes, et toute l’idée est quelque part de pouvoir standardiser la méthode d’appel. C’est ce que la suite de ce billet va montrer.

La commande eSpeak permet d’obtenir des phonèmes d’un texte donnée.

espeak -v fr "Bonjour, Ceci est un essai. Je parle français ?" -x -q

On peut même adapter les phonèmes au synthétiseur :

espeak -v mb-fr4 "Bonjour, Ceci est un essai. Je parle français ?" -x -q

Du coup, on peut utiliser une séquence du type :

espeak -v mb-fr1 -q --pho --phonout=/tmp/phoneme.pho "Bonjour, Ceci est un essai. Je parle français ?"
mbrola -t 1.7 -e -C "n n2" /usr/share/mbrola/fr1/fr1 /tmp/phoneme.pho /tmp/bonjour.wav # converti les phonèmes en fichier son
aplay /tmp/bonjour.wav # joue le son.

La première commande génère les phonèmes, la seconde construit un fichier son et la troisième joue le son.

Voici comment on peut faire la même chose en utilisant un pipeline de commandes consistant à prendre le résultat de la commande précédente comme valeur d’entrée de la suivante.

espeak -v mb-fr1 -q --pho "Bonjour, Ceci est un essai. Je parle français ?" # utilise la sortie standard

Du coup, on peut faire en 2 lignes :

espeak -v mb-fr1 -q --pho "Bonjour, Ceci est un essai. Je parle français ?" | mbrola -t 1.7 -e -C "n n2" /usr/share/mbrola/fr1/fr1 - /tmp/bonjour.wav
aplay --file-type wav /tmp/bonjour.wav # force le type

Pour passer en un seul pipeline, on va utiliser une astuce de la commande mbrola consistant à typer la sortie standard -.au.

espeak --pho -v mb-fr1 "Bonjour, Ceci est un essai. Je parle français ?" -q  | mbrola -t 1.5 -e -C "n n2" /usr/share/mbrola/fr1/fr1 - -.au | aplay

On peut changer la voix en utilisant :

espeak --pho -v mb-fr4 "Bonjour, Ceci est un essai. Je parle français ?" -q  | mbrola -t 1.5 -e -C "n n2" /usr/share/mbrola/fr4/fr4 - -.au | aplay

Ici on utilise eSpeak et Mbrola sans utiliser de fichier intermédiaire, on verra plus loin un usage concret de ce type d’écriture.

pico2wave

pico2wave est une autre solution de TTS basé sur l’algorithme « Hidden Markov Model » (HMM). Il s’agit de la solution généralement utilisée par les applications Android, l’installation se fait comme suit :

sudo apt install libttspico-utils

Et s’utilise :

pico2wave -l fr-FR -w /tmp/test.wav "Bonjour, je parle le français aussi bien que vous. Ou presque." && aplay /tmp/test.wav && rm /tmp/test.wav

Speech Dispatcher

Speech Dispatcher est un outil qui permet de choisir le module par défaut de votre système pour la synthèse vocale.

Speech Dispatcher offre un outil de configuration et d’aide au diagnostique. Bien qu’insuffisant en termes de possibilité de configuration spd-conf a le mérite de créer la structure de base.

spd-conf

La commande permettant de faire est spd-say :

spd-say "Bonjour, Ceci est un essai. Je parle français ?"

Le fichier de configuration de Speech Dispatcher pour l’utilisateur courant :

~/.config/speech-dispatcher/speechd.conf

Le fichier de configuration global que je vous décourage de modifier si vous n’avez pas de bonnes raisons :

/etc/speech-dispatcher/speechd.conf

On retrouve la même hiérarchie dans ~/.config/speech-dispatcher/ et dans /etc/speech-dispatcher/.

Dans chacun de ces répertoires on trouvera un dossier modules, par exemple :

~/.config/speech-dispatcher/modules/pico-generic.conf

spd-say "Bonjour, Ceci est un essai. Je parle français ?"

Rédémarrer le service speech-dispatcherd

sudo systemctl restart speech-dispatcher.service

Références

[Simon, le moteur de reconnaissance vocale Linux] https://fr.xvgmag.com/articles/linux/meet-simon-the-linux-speech-recognition-engine.html (lien cassé) - ici on parle de la solution inverse qui consiste à transformer la voix en texte,
Synthétiseur vocal eSpeak sur le site Ubuntu-fr,
Using Mbrola with eSpeak sur le forum Ubuntu,
Projet github eSpeak NG Text-to-Speech,
Projet github MBROLA,
MBROLA Voices sur github,
How can I change the voice used by Firefox Reader View (Narrator) in Ubuntu? sur Ask Ubuntu,
La Synthèse vocale sur Ubuntu,
A partir de Mozilla Firefox 49 la parole est donnée au mode lecture (depuis fin 2016),
MBROLA VOICES sur Source Forge,
Fichier espeak-ng-mbrola-generic.conf,
Fichier [espeak-generic.conf]https://github.com/brailcom/speechd/blob/master/config/modules/espeak-generic.conf — EDIT: Le lien n’est plus disponible, rendez-vous sur le dépôt de speechd pour une alternative,
Fichier [pico-generic.conf]https://github.com/brailcom/speechd/blob/master/config/modules/pico-generic.conf — EDIT: Le lien n’est plus disponible, rendez-vous sur le dépôt de speechd pour une alternative,

ᦿ

Vos commentaires

Pas encore de commentaire - ajouter le votre.
Ajouter votre commentaire

cClaude.rocks ☕ Le blog

festival

eSpeak et Mbrola

pico2wave

Speech Dispatcher

Références