为了衡量LLM在提取标签信息时的性能,通常需要设计一个指标评价体系来进行衡量。在实际应用过程中可使用精确率,召回率,F1, RMSE进行衡量。
1. LLM提取标签信息(key-value对)
标签信息即key-value对,它由一个标签名称和标签值构成。
对标签名称来说,它可能为多级标签,例如一级标签,二级标签等等。
对标签名称来说,它可能为枚举型,如月份,也可能为文本型,如人名,地名等,也可能为数值型,如价格、利率等等。
往往标签值的不同会影响评价的方法。
对于标签信息可参考:《LLM结构化标签信息抽取提示词撰写模板:提升信息提取准确率》
2. 标签名称的效果衡量
在使用LLM进行标签名称和标签值的提取过程中,对标签名称的提取需保证:
- LLM不能提取出范围以外的标签,例如一个文本中只包含了10个标签名称的信息,但是LLM却提取出来了15个标签名称信息。
- LLM不能漏提取,同理一个文本中包含了10个标签名称的信息,但LLM只提取出来了5个。
由于LLM标签名称相对固定,故可采用精确率(P),召回率(R)和F1进行衡量。
如下图所示:
注意:此表中O操作符表示是否相同或相等。
3. 标签值的效果衡量
假设LLM提取的标签值如标签名称一样可直接进行对等计算,则可使用标签名称的精确率,召回率和F1进行衡量。
例如标签值为枚举类型的月份,标注值为7月,但是LLM提取的值为1月,则结果错误。
同理,提取人名、产品名称时,标注为美团,但LLM提取为饿了么,则结果错误。
这样的标签值可使用精确率,召回率和F1进行衡量。
但对于可接受不太精确的数值型标签值来说,精确率,召回率和F1则不太适用。
例如:使用LLM提取人的年龄,标注为30岁,LLM提取为29岁,这样的结果对业务使用来说差距不大,则可接受。
再比如LLM进行客户情感程度的预测或者提取时,假设情感分数为0-10分。0表示非常愤怒,10表示非常开心。
假设一条文本业务标注分数为5分,LLM提取分值为5.2分,即使5.2≠5,但对业务使用来说几乎没什么影响。
因此对标签值的评价可分为:
- 标签值为枚举型或者划分范围可将数值型转换为枚举型,则可使用精确率、召回率和F1进行合理
- 否则可使用RMSE进行衡量。
3.1 使用RMSE衡量标签值
对于一些数值型标签值,可使用RMSE进行效果衡量。
RMSE可衡量预测值与真实值之间的差异度大小,值越小越好。
4.总结
在衡量LLM提取标签信息的性能过程中,既可以对所有标签及其值进行衡量,算整体值,也可以按照每个标签和值分别计算指标,从而获取LLM对不同标签的提取效果。