LLM+TTS落地：使用LLM生成文本音素文件构建TTS应用

在构建TTS模型应用时，第一步是要生成文本对应的音素文件（phoneme）,如下图所示：

对中文来说，需将汉字进行分词，然后进行韵律划分并将拼音转化为具体的音素。有了音素文件后，才可以进行TTS模型的训练与确定。

从汉语文本到音素具有一个复杂的流程，是否可以使用LLM该精简该处理流程？文章《Towards Joint Modeling of Dialogue Response and Speech Synthesisbased on Large Language Model》介绍了一种尝试。

1.LLM生成音素的方法

文章通过CoT，并提供少量示例的方式进行生成，生成过程如下：

LLM声纹汉语文本音素

其中提供的样本数量为16，这些样本为从一个训练集中随机抽取。

2.生成结果

从结果来看，引入额外的韵律等信息可以提升效果，且ChatGLM2-6B的效果优于ChatGPT-175B.

LLM生成汉语文本音素效果这可能是与ChatGLM为国产LLM，使用了更多的汉语语料进行训练导致的。

且结果达到了平均82.38的F1 Score, 比基于Bert的SpanPSP要好。

说明使用LLM进行汉语文本音素的生成具有可行性，但是在稳定性上需改进。

当然，如果有大量的训练语料完全可以进行微调，从而改善结果。从而实现将LLM+TTS进行串联使用。

治伦AI