Muyan-TTS是一个用于播客应用的可训练文本到语音模型,预算5万美元。它在超过10万小时的播客音频数据上预训练,支持零样本TTS合成和高质量语音生成。此外,Muyan-TTS还支持通过几分钟目标语音进行说话人适应,实现高度定制化的声音。