piper

빠르고 로컬에서 동작하는 신경망 기반의 텍스트 음성 변환 시스템. https://rhasspy.github.io/piper-samples에서 음성 모델을 시도해보고 다운로드하세요. 더 많은 정보: https://github.com/rhasspy/piper.

  • 텍스트 음성 변환 [m]모델을 사용하여 WAV [f]파일 출력(모델 경로에 대한 config 파일이 있을 경우):

echo 말할 내용 | piper -m 경로/대상/모델.onnx -f 출력파일.wav

  • [m]모델과 JSON [c]설정 파일을 지정하여 WAV [f]파일 출력:

echo '말할 내용' | piper -m 경로/대상/모델.onnx -c 경로/대상/모델.onnx.json -f 출력파일.wav

  • 여러 명의 화자가 있는 음성에서 특정 화자를 ID 번호로 선택:

echo 'Warum?' | piper -m de_DE-thorsten_emotional-medium.onnx --speaker 1 -f 화남.wav

  • mpv 미디어 플레이어로 출력을 스트리밍:

echo 'Hello world' | piper -m en_GB-northern_english_male-medium.onnx --output-raw -f - | mpv -

  • 두 배 빠르게 말하고 문장 사이에 큰 간격을 두기:

echo '두 배 속도로 말합니다. 드라마틱하게!' | piper -m foo.onnx --length_scale 0.5 --sentence_silence 2 -f 드라마.wav