LLM结果可靠性验证:直接输出结果自信分数是否可行?

2024-08-08 150 0

由于LLM本身能力的限制,其输出结果往往存在较多的不可控,导致在真实的业务场景中往往难以直接使用LLM的输出结果。

1. LLM结果的不确定性

LLM结果的不确定性主要表现在以下方面:

  • 幻觉:例如输出各种重复性的文本。对于LLM的幻觉问题,当前的技术手段避免不了,只能采取一定的方式降低其发生的概率或进行过滤。
  • 输出格式不确定:不同的提示词,LLM往往会按照不同的格式输出结果。即使在提示词中限定了输出格式,但往往也存在不能完全提示词限定的格式输出。
  • 结果不正确:即LLM输出错误的答案。

2. LLM结果不确定改善

为了解决LLM输出结果的不确定性,最简单且有效的方式是进行领域任务的微调。从而保证LLM在具体任务上具有较低的幻觉、确定的输出格式和较高的准确率。

3. LLM自信分数

除了微调方式外,一些算法工程师在实际的业务中会使用一种LLM自信分数的方法来对LLM输出结果进行衡量。尤其在使用未经过微调的大LLM时(例如70B以上),这种方法会被经常使用。一方面是这样的超大LLM难以微调,但是效果比一般的LLM要好。另一方面,要对LLM进行微调,人工标注数据又难以构建。

LLM置信度分数表现如下:

在提示词中直接让LLM输出结果和对该结果的一个自信分数。分数往往(0-100),值越大,说明LLM对输出的结果越肯定,准确率越高。

例如:

LLM结果自信分数

结果中标签A的自信分为80,如果设定的阈值为70,则采纳该LLM的结果,否则舍弃。

4. LLM输出自信分数是否可靠

虽然让LLM对其输出结果给出一个自信分数可用来对其输出结果的好坏进行衡量,然而这种直接输出自信分数的方式其实并不可靠。

基于现有研究发现,这种使用LLM直接对结果输出自信分数的方式,LLM往往会给出较高的自信分数,即使结果是错误的也是如此。

例如:

LLM结果自信分数研究

虽然直接让LLM输出自信分数存在这样的问题,但并不能说计算LLM结果的自信分数的方法不可用。可采用其他间接计算自信分数的方式,从而来衡量LLM结果的有效性。

相关文章

LLM时序对话处理:使用小结更新方法实现对话信息的有效处理
TTS效果提升:一种优于VITS的端到端Matcha-TTS实施与训练
LLM准确率提升:LLM Self-Consistency多推理路径结果实现方式
LLM标签信息提取(Key-Value)效果衡量:评价指标构建
AI智能外呼TTS:带变量合成语音如何达到真人录音效果?
智能外呼电话语音助手识别:文本识别 vs 语音识别

发布评论