LLM标签信息提取（Key-Value）效果衡量：评价指标构建

为了衡量LLM在提取标签信息时的性能，通常需要设计一个指标评价体系来进行衡量。在实际应用过程中可使用精确率，召回率，F1, RMSE进行衡量。

1. LLM提取标签信息（key-value对）

标签信息即key-value对，它由一个标签名称和标签值构成。

对标签名称来说，它可能为多级标签，例如一级标签，二级标签等等。

对标签名称来说，它可能为枚举型，如月份，也可能为文本型，如人名，地名等，也可能为数值型，如价格、利率等等。

往往标签值的不同会影响评价的方法。

2. 标签名称的效果衡量

在使用LLM进行标签名称和标签值的提取过程中，对标签名称的提取需保证：

由于LLM标签名称相对固定，故可采用精确率（P）,召回率（R）和F1进行衡量。

如下图所示：

LLM标签名称衡量指标

注意：此表中O操作符表示是否相同或相等。

3. 标签值的效果衡量

假设LLM提取的标签值如标签名称一样可直接进行对等计算，则可使用标签名称的精确率，召回率和F1进行衡量。

例如标签值为枚举类型的月份，标注值为7月，但是LLM提取的值为1月，则结果错误。

同理，提取人名、产品名称时，标注为美团，但LLM提取为饿了么，则结果错误。

这样的标签值可使用精确率，召回率和F1进行衡量。

但对于可接受不太精确的数值型标签值来说，精确率，召回率和F1则不太适用。

例如：使用LLM提取人的年龄，标注为30岁，LLM提取为29岁，这样的结果对业务使用来说差距不大，则可接受。

再比如LLM进行客户情感程度的预测或者提取时，假设情感分数为0-10分。0表示非常愤怒，10表示非常开心。

假设一条文本业务标注分数为5分，LLM提取分值为5.2分，即使5.2≠5，但对业务使用来说几乎没什么影响。

因此对标签值的评价可分为：

3.1 使用RMSE衡量标签值

对于一些数值型标签值，可使用RMSE进行效果衡量。

RMSE计算

RMSE可衡量预测值与真实值之间的差异度大小，值越小越好。

4.总结

在衡量LLM提取标签信息的性能过程中，既可以对所有标签及其值进行衡量，算整体值，也可以按照每个标签和值分别计算指标，从而获取LLM对不同标签的提取效果。

治伦AI