TTS效果提升:一种优于VITS的端到端Matcha-TTS实施与训练

2024-08-21 143 0

TTS是当前智能机器人中的关键技术,当前大部分TTS基于Vits构建。对比Vits,Matcha-TTS具有更小的模型大小、更低的RTF和词错率。

1. Matcha TTS

Matcha TTS在论文《Matcha-TTS: A fast TTS architecture with conditional flow matching》被提出,在MOS, RTF, WER等指标上均优于VITS。而这三个指标直接关系到一个TTS模型是否能够在企业应用中落地。

Matcha TTS效果

工程地址:https://github.com/shivammehta25/Matcha-TTS

然而原始的Matcha TTS相对于Vits来说在实施上有一定的难度,表现在:

  1. 模型输入的是mel谱,输出也是mel谱
  2. 需要使用Matcha TTS的模型输出微调HiFi-GAN

即要使用Matcha-TTS需要训练两个模型:Matcha-TTS + HiFi-GAN

2. 端到端的Matcha-TTS

基于以上两个问题,我们修改了Matcha TTS的训练方法,将HiFi-GAN与Matcha-TTS模型进行整合,构建了端到端的Matcha-TTS,以便我们可以像使用Vits模型那样使用Matcha TTS。落地部署时,只需提供训练音频即可像Vits那样进行语音合成。

例如训练阶段:

端到端的Matcha TTS训练

合成时,可像Vits那样进行合成。

端到端的Matcha TTS语音合成

相关文章

LLM时序对话处理:使用小结更新方法实现对话信息的有效处理
LLM准确率提升:LLM Self-Consistency多推理路径结果实现方式
LLM结果可靠性验证:直接输出结果自信分数是否可行?
LLM标签信息提取(Key-Value)效果衡量:评价指标构建
AI智能外呼TTS:带变量合成语音如何达到真人录音效果?
智能外呼电话语音助手识别:文本识别 vs 语音识别

发布评论