LLM标签信息提取(Key-Value)效果衡量:评价指标构建

2024-07-17 157 0

为了衡量LLM在提取标签信息时的性能,通常需要设计一个指标评价体系来进行衡量。在实际应用过程中可使用精确率,召回率,F1, RMSE进行衡量。

1. LLM提取标签信息(key-value对)

标签信息即key-value对,它由一个标签名称和标签值构成。

对标签名称来说,它可能为多级标签,例如一级标签,二级标签等等。

对标签名称来说,它可能为枚举型,如月份,也可能为文本型,如人名,地名等,也可能为数值型,如价格、利率等等。

往往标签值的不同会影响评价的方法。

对于标签信息可参考:《LLM结构化标签信息抽取提示词撰写模板:提升信息提取准确率

2. 标签名称的效果衡量

在使用LLM进行标签名称和标签值的提取过程中,对标签名称的提取需保证:

  • LLM不能提取出范围以外的标签,例如一个文本中只包含了10个标签名称的信息,但是LLM却提取出来了15个标签名称信息。
  • LLM不能漏提取,同理一个文本中包含了10个标签名称的信息,但LLM只提取出来了5个。

由于LLM标签名称相对固定,故可采用精确率(P),召回率(R)和F1进行衡量。

如下图所示:

LLM标签名称衡量指标

注意:此表中O操作符表示是否相同或相等。

3. 标签值的效果衡量

假设LLM提取的标签值如标签名称一样可直接进行对等计算,则可使用标签名称的精确率,召回率和F1进行衡量。

例如标签值为枚举类型的月份,标注值为7月,但是LLM提取的值为1月,则结果错误。

同理,提取人名、产品名称时,标注为美团,但LLM提取为饿了么,则结果错误。

这样的标签值可使用精确率,召回率和F1进行衡量。

但对于可接受不太精确的数值型标签值来说,精确率,召回率和F1则不太适用。

例如:使用LLM提取人的年龄,标注为30岁,LLM提取为29岁,这样的结果对业务使用来说差距不大,则可接受。

再比如LLM进行客户情感程度的预测或者提取时,假设情感分数为0-10分。0表示非常愤怒,10表示非常开心。

假设一条文本业务标注分数为5分,LLM提取分值为5.2分,即使5.2≠5,但对业务使用来说几乎没什么影响。

因此对标签值的评价可分为:

  • 标签值为枚举型或者划分范围可将数值型转换为枚举型,则可使用精确率、召回率和F1进行合理
  • 否则可使用RMSE进行衡量。

3.1 使用RMSE衡量标签值

对于一些数值型标签值,可使用RMSE进行效果衡量。

RMSE计算

RMSE可衡量预测值与真实值之间的差异度大小,值越小越好。

4.总结

在衡量LLM提取标签信息的性能过程中,既可以对所有标签及其值进行衡量,算整体值,也可以按照每个标签和值分别计算指标,从而获取LLM对不同标签的提取效果。

相关文章

LLM时序对话处理:使用小结更新方法实现对话信息的有效处理
TTS效果提升:一种优于VITS的端到端Matcha-TTS实施与训练
LLM准确率提升:LLM Self-Consistency多推理路径结果实现方式
LLM结果可靠性验证:直接输出结果自信分数是否可行?
AI智能外呼TTS:带变量合成语音如何达到真人录音效果?
智能外呼电话语音助手识别:文本识别 vs 语音识别

发布评论