LLM

LARS:一种评估LLM输出结果准确性概率的方法

对LLM输出结果的可靠性评估有较多的方法,例如 BSDetector: 一种衡量LLM输出结果好坏的评价方法 LLM准确率提升:LLM Self-Consistency多推理路径结…

LLM时序对话处理:使用小结更新方法实现对话信息的有效处理

在企业各种AI外呼系统中常常存在大量的用户时序对话,这些对话常常包含了用户的营销线索、潜在需求和诉求等价值信息。 1. 时序对话 时序对话指的同一个用户在不同时间段在AI外呼系统中…

BSDetector: 一种衡量LLM输出结果好坏的评价方法

与传统的判别模型不同,生成式LLM往往不会对输出结果输出准确度的概率。虽然可通过提示词方式驱动LLM输出结果的置信分数,但可靠性并不准确。 1. LLM输出结果准确性分数 由于LL…

LLM准确率提升:LLM Self-Consistency多推理路径结果实现方式

现有研究表明使用LLM Self-Consistency可以提升LLM输出结果的准确率,并在Self-improve中得到了验证。 要使用LLM Self-Consistency需…

LLM结果可靠性验证:直接输出结果自信分数是否可行?

由于LLM本身能力的限制,其输出结果往往存在较多的不可控,导致在真实的业务场景中往往难以直接使用LLM的输出结果。 1. LLM结果的不确定性 LLM结果的不确定性主要表现在以下方…

LLM Self-Improve: 一种使用大LLM生成训练集并微调LLM的方法

在企业中进行LLM应用落地,通常的流程包含三步:1.构建微调数据集。2.微调LLM。3.上线。 但是在构建LLM微调数据集时往往耗时,且成本高等问题。例如在基于业务目标使用LLM生…

LLM文本小结生成:一种基于内容标签生成文本小结的方法

LLM是当前进行各种文本小结生成的有效工具,例如可以生成新闻小结、电话小结、诊断小结等等。 1. 如何提升LLM生成文本小结的效果 一种最容易想到的就是基于标注的文本小结微调LLM…

LLM标签信息提取(Key-Value)效果衡量:评价指标构建

为了衡量LLM在提取标签信息时的性能,通常需要设计一个指标评价体系来进行衡量。在实际应用过程中可使用精确率,召回率,F1, RMSE进行衡量。 1. LLM提取标签信息(key-v…

LLM Lost-in-the-Middle问题解决:构造信息位置无关的增强训练数据集

在LLM处理长文本的过程中往往会出现Lost in the middle问题。 详见:LLM长文本处理:Lost in the Middle问题及解决方案 1. 如何降低位置对信息…

LLM长文本处理:Lost in the Middle问题及解决方案

虽然当前各个厂商的LLM均可处理长文本,例如qwen2可处理 128K的文本,但由于目前大部分的LLM均是基于Transformer的Encoder-Decoder或者Only-D…

加载更多