LLM+TTS落地:使用LLM生成文本音素文件构建TTS应用

2024-06-18 128 0

在构建TTS模型应用时,第一步是要生成文本对应的音素文件(phoneme),如下图所示:

对中文来说,需将汉字进行分词,然后进行韵律划分并将拼音转化为具体的音素。有了音素文件后,才可以进行TTS模型的训练与确定。

从汉语文本到音素具有一个复杂的流程,是否可以使用LLM该精简该处理流程?文章《Towards Joint Modeling of Dialogue Response and Speech Synthesisbased on Large Language Model》介绍了一种尝试。

1.LLM生成音素的方法

文章通过CoT,并提供少量示例的方式进行生成,生成过程如下:

LLM声纹汉语文本音素

其中提供的样本数量为16,这些样本为从一个训练集中随机抽取。

2.生成结果

从结果来看,引入额外的韵律等信息可以提升效果,且ChatGLM2-6B的效果优于ChatGPT-175B.

LLM生成汉语文本音素效果这可能是与ChatGLM为国产LLM,使用了更多的汉语语料进行训练导致的。

且结果达到了平均82.38的F1 Score, 比基于Bert的SpanPSP要好。

说明使用LLM进行汉语文本音素的生成具有可行性,但是在稳定性上需改进。

当然,如果有大量的训练语料完全可以进行微调,从而改善结果。从而实现将LLM+TTS进行串联使用。

相关文章

LARS:一种评估LLM输出结果准确性概率的方法
LLM时序对话处理:使用小结更新方法实现对话信息的有效处理
BSDetector: 一种衡量LLM输出结果好坏的评价方法
LLM Self-Improve: 一种使用大LLM生成训练集并微调LLM的方法
LLM文本小结生成:一种基于内容标签生成文本小结的方法
LLM Lost-in-the-Middle问题解决:构造信息位置无关的增强训练数据集

发布评论