智能外呼电话语音助手识别：文本识别 vs 语音识别

在智能外呼系统应用过程中，通常会遇到这样的情形：使用AI给客户打电话，但是客户的手机开启了智能助手，结果外呼机器人与电话语音助手聊了起来。

为了提升外呼系统的有效性，需对接通的电话进行识别。对于电话语音助手接通的电话需要及时关闭，从而节省电话的带宽和费用。在真实的企业应用中，我们的外呼系统曾发生过AI机器人与客户电话语音助手聊了30多分钟的情形。

另一方面，随着当前智能手机越来越智能，各种电话助手功能性、隐蔽性也越来越强，电话语音助手自动接通并回复AI电话的频率也越来越高。

1. 识别接通电话是否为语音助手的方式

为了实现识别接通的电话是否为电话语音助手，通常有两种方案进行实现：（1）纯文本方式（2）纯语音方式。当然也可能存在文本+语音的多模态方式，但经过我们测试后发现，该种方式并不会比（2）在效果上有更大的提升。

两种识别方式结构大致如下：

语音助手识别

2. 基于文本的语音助手识别

该方式是构建一个文本识别模型，将客户的语音通过ASR流式转换为文本后输入到模型中进行识别。

其原理主要为：客户电话语音助手通常具有如“我是**的智能助手”这样的关键词。

这种方式构建、落地简单，且可以将识别过程与意图识别模型相合并。（即将是否为小助手看出一个意图）

3.基于语音的语音助手识别

该方式是将客户语音输入到识别模型，模型判断是否为智能助手。

该识别方法的原理相对较复杂，我们自研的识别过程基于语音伪造原理。原因是通常客户手机中的语音助手的语音同时是使用如TTS, VC，录音录制等技术进行实现，而这些语音的识别本身是语音活体或者伪造识别的课题。

相比于基于文本的语音助手识别实现，这种方式稍显复杂，且在时间相应方面相对欠缺。

4.基于文本与语音的语音助手识别效果对比

基于文本的语音助手识别最大的一个问题是召回比较低，通常我们是基于小助手关键字构建文本特征和训练集合。但是，目前越来越多的智能助手已经开始没有明显的关键特征了。

从实验结果来看，基于语音的智能助手识别效果在召回和精确度上均优于基于文本的识别方法。

治伦AI