企业Prompt TTS应用落地：积极效果及存在的问题

与传统的TTS合成应用相比，Prompt TTS具有更加细粒度地控制合成语音的效果。

1. Prompt TTS

Prompt TTS:即可通过输入的Prompt来控制TTS合成音频的效果。按照Prompt的类型不同，可大致具有两种类型的Prompt TTS.

基于文本的Prompt TTS

大致结构如下：

基于文本的Prompt TTS

使用时，可通过输入的Prompt文本来控制合成的目标音频。

例如：Prompt问题为：请使用欢快的语气合成。则合成的目标音频具有欢快的情感。

基于音频的Prompt TTS

大致结构如下：

基于音频的Prompt TTS

相比于基于文本的Prompt，基于音频的Prompt TTS是基于输入的Reference音频的风格来控制目标音频的输出。

例如：输入一个温柔的Reference音频，则合成的目标音频具有温柔情感。反之，输入一个严肃的音频则合成的目标音频为严肃。

当前在我们的自研的Prompt TTS中，一种应用就是使用Prompt TTS合成训练语料，实现降低情感TTS的构建成本的目的。

企业使用情感TTS：最大障碍及解决思路

2. Prompt TTS的积极效果

从Prompt TTS的效果可知，相比与非Prompt TTS，它可以基于输入的Prompt的不同从而合成出更丰富的目标音频，增强TTS的表现力和拟人化程度。

例如在情感音频的合成中，可基于一个人不同的情感音频实现具有不同情感的音频合成。

在有声书等应用中，可使用当前文本所在的语境或者语义来控制合成的音频效果。如“我讨厌你”，模型在合成该句文本时，由于该句文本本身具有愤怒的情感色彩，故可控制合成出的音频具有愤怒的色彩。而这是非Prompt TTS所不具备的，对于不同的文本，非Prompt TTS永远只能具有相同的情感，做不到情感精细化的控制。

3. Prompt TTS应用落地存在的问题

虽然Prompt TTS具有更好的表现力，但是在真实的企业应用中往往较难落地。

主要原因表现在：Prompt的粒度越小，则越容易导致TTS模型的不稳定。

例如：在情感Prompt TTS中，假设模型支持的Prompt为10个稀疏的情感向量，则该模型相对较稳定。但是如果是支持100个稀疏的Prompt，要达到情感Prompt TTS的效果稳定需要更多的数据训练。

通常在企业中，训练TTS的高质量录音是缺乏的，因此，为了达到Prompt TTS的稳定必须舍弃一部分Prompt的粒度。

通常Prompt的粒度越细，则越能够表现目标音频的不同。比如支持一个连续Prompt向量的Prompt TTS，输入的Reference音频只要有一点不一样，则合成的目标音频就会不同。但这样的模型往往在合成效果上难以保证稳定性，在企业TTS应用落地过程中，稳定性却非常重要。

为了保证Prompt TTS合成效果的问题性，必须在Prompt的粒度和训练集的大小之间做权衡。训练集大，则Prompt的粒度可细一点，否则只能增大粒度，实现合成效果的稳定。

治伦AI

企业Prompt TTS应用落地：积极效果及存在的问题

相关文章

发布评论取消回复

治伦AI

LLM时序对话处理：使用小结更新方法实现对话信息的有效处理

TTS效果提升：一种优于VITS的端到端Matcha-TTS实施与训练

BSDetector: 一种衡量LLM输出结果好坏的评价方法

LLM准确率提升：LLM Self-Consistency多推理路径结果实现方式

企业Prompt TTS应用落地：积极效果及存在的问题

相关文章

发布评论 取消回复

治伦AI

发布评论取消回复