LLM Lost-in-the-Middle问题解决：构造信息位置无关的增强训练数据集

在LLM处理长文本的过程中往往会出现Lost in the middle问题。

1. 如何降低位置对信息的影响

从Lost in the Middle问题来看，在LLM处理长文本时，如果答案（用户需要的信息）在长文本中间位置附近，则LLM的效果较差。

即，答案在长文本的位置影响LLM的效果。

论文《Make Your LLM Fully Utilize the Context》使用了一种训练集增强构建技术，降低了答案所在长文本的位置对LLM的影响。

2.如何构建位置无关的增强训练集

论文中构建位置无关的增强训练集核心核心思想如下：

当然以上仅仅是构建一个片段产生一个（q, a）对构建训练集，也可以按照同样地方式使用一个文本中的对比片段构建一个（q, a）对获取训练集。

具体方法如下：

LLM答案与位置无关的训练数据集构建

需注意的是，在构建过程中训练集的长度为4K-32K tokens。为了保证训练的有效性，数据集分布为：

3.效果如何

从训练结果来看，使用该增强数据集微调LLM后，随着文本长度的增加，LLM的性能降低较小。

LLM Lost-in-the-Middle问题解决：构造信息位置无关的增强训练数据集

4.对LLM信息提取的影响

在使用LLM抽取长文本关键信息时，如果待抽取的关键信息在长文本的中间附近，仍然会存在Lost in the Middle问题。通过该增强方法，我们同样可以设计一种数据集增强的训练集，从而在不修改LLM本身结构的基础上实现对长文本信息抽取的性能提升。

治伦AI