目前我们已经在真实的催收场景验证了情感TTS对业务的积极效果,可见:情感TTS:赋能消费金融催收提升回款率
然而,在真正实施落地时仍存在一些障碍,导致当前情感TTS的推广进度进展较慢。但基于现有自研的一些技术可加快这个推广进度,并降低实施的难度。
1.情感TTS落地最大障碍:情感录音难度大
业务人员录制情感录音难度大是当前在推进情感TTS能力在企业业务中落地的最大障碍,以情感TTS模型只支持:平静、温柔和严肃为例。
- 存在业务人员录制时不能很好地把控平静、温柔和严肃录音的差异,导致录制的录音与要求的情感不符。
- 存在业务人员只能说严肃和平静语气,但是温柔表现不出来的情形。
- 存在业务人员录制时,平静和严肃差异度太小等问题。
- 存在业务人员在录制情感录音时,常常为了表现特定情感,录制时变得十分刻意,导致录音音色等不一致。
- 存在业务人员在录制时,因为录制时间长导致的发音不稳定、音色不一致等问题。
当然还有一些其他的问题,这些问题总结起来就是:业务人员录制情感录音难度大,从而影响了情感录音的构建与推广。
2.如何降低情感TTS的构建难度?
针对以上发现的问题,在情感TTS推广应用中,我们采取了如下的一些措施来降低业务人员进行情感录音的录制难度。
2.1 降低业务人员录制情感录音的数量
为达到这个目的,我们修改了情感TTS架构,使其可以支持非情感,并使模型可使用某个音色的历史非情感录音+当前的情感录音,且能做到音色一致。另外,为了增强模型本身的情感泛化能力,构建了一个具有很强泛化性的情感TTS基模。
基于以上两个步骤,每个业务人员在录制情感语音时,每种情感录音的数量从原来的500降低到了100.
然而该措施仍然存在一个缺点:业务人员在录制情感录音时,仍需按照指定的情感类型进行录制。
2.2 降低业务人员录制情感录音的难度
为实现这个目的,基于自研的语音克隆技术(VC),我们将一些录制情感录音较好的业务人员的情感迁移到其他业务人员音色上,降低了一些业务人员不易录制情感录音的问题。但是不可避免地会存在一些音质方面的损失,但在8K的采样率下效果差异不大。
另外为了进一步降低业务人员在录制情感录音时的难度,我们取消了录制前需指定情感类型的要求。录音人员可按照自己的理解,对于录制的文本,他们认为应该适合按照什么情感录音进行录制就使用什么情感。
这种方法避免了有的业务人员认为这个文本应该更适合用严肃语气说,但是录制时却要求用温柔的语气录制的情形。同时,这种不限制业务人员录制情感的方法,也改善了情感录音的录制质量。
2.3 构建Prompt TTS
由于未限制业务人员录制情感录音时的情感,因此在最终录制的情感语音中可能存在多种情感:平静、温柔、严肃、伤心、愤怒等等。因此,我们自研了Prompt TTS。
Prompt TTS可实现基于特定情感的语音进行情感驱动合成,比如选择一条温柔录音进行Prompt,则合成出的语音也为温柔的。
基于该项技术,我们实现了将业务人员录制情感录音时,只需要训练数据集中包含大约15条特定的情感录音即可。
且为了保证不同情感语音之间的音色、音量等一致,可选择不同的情感样本进行驱动合成。
综上,在企业中推进情感TTS落地,可基于以上介绍的这些方法进行推广难度的降低,从而实现情感TTS能力的挖掘。