LARS:一种评估LLM输出结果准确性概率的方法

2024-09-04 60 0

对LLM输出结果的可靠性评估有较多的方法,例如

BSDetector: 一种衡量LLM输出结果好坏的评价方法

LLM准确率提升:LLM Self-Consistency多推理路径结果实现方式

当然也存在一些如Self-Detection, Self-Check等等。

这些问题都属于LLM的Uncertainty Estimation。

1. LLM  Uncertainty Estimation

LLM  Uncertainty Estimation也叫LLM不确定性评估,主要目的是评估LLM的输出结果好坏。表现为一个设计一个计算自信度分数模型,分数越高,则LLM的结果越准确,反之则越不可靠。

当前有多种方法来设计这样的一个自信度分数模型,例如:Self-checking方法、Output consistency方法、Internal state examination方法、 Token probability-based方法等等。

2.LLM直接对答案输出自信度分数

我们可以设计提示词来让LLM在生成结果的时候输出答案及其自信度分数,甚至我们也可以通过提示词对LLM输出的一个答案进行打分。然而这样的方式可靠么?答案是不可靠的。

LLM结果可靠性验证:直接输出结果自信分数是否可行?

一些研究也证明了这点,例如:

confidence calibration methods are observed with severe over-trust issue on LLM, assigning high confidence score in some incorrectly generated answers. In fact, LLM has a bias to blindly trust its generated answers, leading to difficulties in distinguishing the correctness of its generated answers

资料来源:Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection

3. LARS方法

LARS方法来源《Do Not Design, Learn: A Trainable Scoring Function for Uncertainty Estimation in Generative LLMs》,它是一种简单训练方法,且效果相比于当前常使用的不确定性评估方法来说要好。

LARS结构如下:

LARS方法结构图

使用时,首先我需要具有一个训练集合,该集合有一个正确的标签。

例如分析一个用户的对话文本的情绪时,需准备一个标注了的具有正确情感标签的数据集。

LARS的使用过程如下:

  1. 使用LLM对Question进行输出Answer Tokens后,需获取每个Tokens的输出概率。
  2. 将每个Token的概率进行分组,例如k=8时,将每个Token的概率分到具体的组中。
  3. 将每个Answer Token和其概率的组ID进行拼接后,输入到一个类Bert模型进行训练。

4.LARS的效果

LARS的整体效果较好。

LARS整体效果

从论文可知,当K=8时,LARS效果最好。且增加了每个Token的概率信息比只使用纯文本的效果更好。

LARS使用文本和概率效果

总结:相比与其他LLM不确定性评估方法来说,LARS方法由于具有了监督训练过程,因此在企业落地过程中更加地适合对结果敏感的业务。

相关文章

LLM时序对话处理:使用小结更新方法实现对话信息的有效处理
BSDetector: 一种衡量LLM输出结果好坏的评价方法
LLM Self-Improve: 一种使用大LLM生成训练集并微调LLM的方法
LLM文本小结生成:一种基于内容标签生成文本小结的方法
LLM Lost-in-the-Middle问题解决:构造信息位置无关的增强训练数据集
LLM长文本处理:Lost in the Middle问题及解决方案

发布评论