piper
Un sistema neural rápido y local de conversión de texto a voz. Descarga y prueba modelos de habla desde https://rhasspy.github.io/piper-samples. Más información: https://github.com/rhasspy/piper.
- Genera un archivo WAV utilizando un modelo de texto a voz (suponiendo un archivo de configuración en model_path + .json):
echo
Cosa a decir | piper -m
ruta/a/modelo.onnx -f
archivo_de_salida.wav
- Genera un archivo WAV utilizando un modelo y especificando su archivo de [c]onfiguración JSON:
echo
'Lo que hay que decir' | piper -m
ruta/a/modelo.onnx -c
ruta/a/modelo.onnx.json -f
archivo_de_salida.wav
- Selecciona un locutor concreto en una voz con varios locutores especificando el número de identificación del locutor:
echo
'Warum?' | piper -m
de_DE-thorsten_emotional-medium.onnx --speaker
1 -f
enojado.wav
- Transmite la salida al reproductor multimedia mpv:
echo
'Hello world' | piper -m
en_GB-northern_english_male-medium.onnx --output-raw -f - | mpv -
- Habla el doble de rápido, con grandes espacios entre frases:
echo
'Hablando el doble de rápido. Con más drama!' | piper -m
foo.onnx --length_scale
0.5 --sentence_silence
2 -f
drama.wav