对LLM输出结果的可靠性评估有较多的方法,例如 BSDetector: 一种衡量LLM输出结果好坏的评价方法 LLM准确率提升:LLM Self-Consistency多推理路径结…
在企业各种AI外呼系统中常常存在大量的用户时序对话,这些对话常常包含了用户的营销线索、潜在需求和诉求等价值信息。 1. 时序对话 时序对话指的同一个用户在不同时间段在AI外呼系统中…
与传统的判别模型不同,生成式LLM往往不会对输出结果输出准确度的概率。虽然可通过提示词方式驱动LLM输出结果的置信分数,但可靠性并不准确。 1. LLM输出结果准确性分数 由于LL…
现有研究表明使用LLM Self-Consistency可以提升LLM输出结果的准确率,并在Self-improve中得到了验证。 要使用LLM Self-Consistency需…
由于LLM本身能力的限制,其输出结果往往存在较多的不可控,导致在真实的业务场景中往往难以直接使用LLM的输出结果。 1. LLM结果的不确定性 LLM结果的不确定性主要表现在以下方…
在企业中进行LLM应用落地,通常的流程包含三步:1.构建微调数据集。2.微调LLM。3.上线。 但是在构建LLM微调数据集时往往耗时,且成本高等问题。例如在基于业务目标使用LLM生…
LLM是当前进行各种文本小结生成的有效工具,例如可以生成新闻小结、电话小结、诊断小结等等。 1. 如何提升LLM生成文本小结的效果 一种最容易想到的就是基于标注的文本小结微调LLM…
为了衡量LLM在提取标签信息时的性能,通常需要设计一个指标评价体系来进行衡量。在实际应用过程中可使用精确率,召回率,F1, RMSE进行衡量。 1. LLM提取标签信息(key-v…
在LLM处理长文本的过程中往往会出现Lost in the middle问题。 详见:LLM长文本处理:Lost in the Middle问题及解决方案 1. 如何降低位置对信息…
虽然当前各个厂商的LLM均可处理长文本,例如qwen2可处理 128K的文本,但由于目前大部分的LLM均是基于Transformer的Encoder-Decoder或者Only-D…