企业Prompt TTS应用落地:积极效果及存在的问题

2024-07-08 81 0

与传统的TTS合成应用相比,Prompt TTS具有更加细粒度地控制合成语音的效果。

1. Prompt TTS

Prompt TTS:即可通过输入的Prompt来控制TTS合成音频的效果。按照Prompt的类型不同,可大致具有两种类型的Prompt TTS.

基于文本的Prompt TTS

大致结构如下:

基于文本的Prompt TTS

使用时,可通过输入的Prompt文本来控制合成的目标音频。

例如:Prompt问题为:请使用欢快的语气合成。则合成的目标音频具有欢快的情感。

基于音频的Prompt TTS

大致结构如下:

基于音频的Prompt TTS

相比于基于文本的Prompt,基于音频的Prompt TTS是基于输入的Reference音频的风格来控制目标音频的输出。

例如:输入一个温柔的Reference音频,则合成的目标音频具有温柔情感。反之,输入一个严肃的音频则合成的目标音频为严肃。

当前在我们的自研的Prompt TTS中,一种应用就是使用Prompt TTS合成训练语料,实现降低情感TTS的构建成本的目的。

企业使用情感TTS:最大障碍及解决思路

2. Prompt TTS的积极效果

从Prompt TTS的效果可知,相比与非Prompt TTS,它可以基于输入的Prompt的不同从而合成出更丰富的目标音频,增强TTS的表现力和拟人化程度。

例如在情感音频的合成中,可基于一个人不同的情感音频实现具有不同情感的音频合成。

在有声书等应用中,可使用当前文本所在的语境或者语义来控制合成的音频效果。如“我讨厌你”,模型在合成该句文本时,由于该句文本本身具有愤怒的情感色彩,故可控制合成出的音频具有愤怒的色彩。而这是非Prompt TTS所不具备的,对于不同的文本,非Prompt TTS永远只能具有相同的情感,做不到情感精细化的控制。

3. Prompt TTS应用落地存在的问题

虽然Prompt TTS具有更好的表现力,但是在真实的企业应用中往往较难落地。

主要原因表现在:Prompt的粒度越小,则越容易导致TTS模型的不稳定

例如:在情感Prompt TTS中,假设模型支持的Prompt为10个稀疏的情感向量,则该模型相对较稳定。但是如果是支持100个稀疏的Prompt,要达到情感Prompt TTS的效果稳定需要更多的数据训练。

通常在企业中,训练TTS的高质量录音是缺乏的,因此,为了达到Prompt TTS的稳定必须舍弃一部分Prompt的粒度。

通常Prompt的粒度越细,则越能够表现目标音频的不同。比如支持一个连续Prompt向量的Prompt TTS,输入的Reference音频只要有一点不一样,则合成的目标音频就会不同。但这样的模型往往在合成效果上难以保证稳定性,在企业TTS应用落地过程中,稳定性却非常重要。

为了保证Prompt TTS合成效果的问题性,必须在Prompt的粒度和训练集的大小之间做权衡。训练集大,则Prompt的粒度可细一点,否则只能增大粒度,实现合成效果的稳定。

相关文章

LLM时序对话处理:使用小结更新方法实现对话信息的有效处理
TTS效果提升:一种优于VITS的端到端Matcha-TTS实施与训练
LLM准确率提升:LLM Self-Consistency多推理路径结果实现方式
LLM结果可靠性验证:直接输出结果自信分数是否可行?
LLM标签信息提取(Key-Value)效果衡量:评价指标构建
AI智能外呼TTS:带变量合成语音如何达到真人录音效果?

发布评论