利用上下文提升答案选择精度的新技术-开发者社区

建立答案选择精度的新标准

一个同时利用局部和全局上下文的模型，在两个基准数据集上将精度分别比当前最优水平提高了6%和11%。

会议：ECIR 2021， EACL 2021

相关出版物：

在Transformer模型中使用局部和全局上下文进行答案句子选择
在延迟预算内为答案句子选择系统建模上下文

实用的问答系统通常使用一种称为答案选择的技术。给定一个问题——例如“塞雷娜·威廉姆斯何时出生？”——系统首先执行普通的基于关键词的文档搜索，然后从检索到的文档中选择一个句子作为答案。

如今，大多数答案选择系统都是基于在问题和候选答案集上训练的神经网络：给定一个问题，它们必须学会从候选句子中选择正确的答案。在运行过程中，它们独立地考虑每个候选句子，并估计其成为正确答案的概率。

但这种方法存在局限性。想象一篇文章开头写道：“塞雷娜·威廉姆斯是一位美国网球运动员。她出生于1981年9月26日。”如果系统学会独立考虑候选答案，它将别无选择，只能为“1981年9月26日”分配一个较低的概率，因为它无法知道“她”指的是谁。同样，一个文档可能只在标题中提到塞雷娜·威廉姆斯的名字。在这种情况下，准确的答案选择需要更全局的上下文感知。

为了确定检索文档中的给定句子是否为问题提供了良好答案，一个新的系统会查看该句子的上下文，包括其前后的句子。图片来源：Glynis Condon

在今年春季提交的两篇论文中，我与同事研究了如何在不带来过高计算成本的情况下为答案选择系统添加上下文。

我们将在本月底的欧洲信息检索会议上展示第一篇论文。我与Alexa AI组织的一位应用科学家Ivano Lauriola将描述一种同时使用局部和全局上下文来显著提高答案选择精度的技术。

三周后，在欧洲计算语言学会会议上，南加州大学研究生（于2020年夏季加入我们团队实习）Rujun Han、Alexa AI组织的应用科学家Luca Soldaini和我将展示一种更有效的添加全局上下文的技术，该技术涉及对少数选定句子的向量表示。

通过将这种全局上下文方法与早期论文的局部上下文方法相结合，我们在两个基准数据集上展示了比当前最优答案选择系统分别高6%和11%的精度提升。

局部上下文

在两篇论文中，我们所有的模型都建立在我们于AAAI 2020上展示的一个模型基础上，该模型目前仍是答案选择任务的最优模型。该模型将一个预训练的、基于Transformer的语言模型（如BERT）适应于答案选择任务。其输入是拼接的问题-答案对。

在我们的ECIR论文中，为了向基础模型添加局部上下文，我们扩展了输入，以包含源文本中候选答案前后的句子。输入的每个单词都经过三种嵌入，即编码为固定长度的向量。一种是标准词嵌入，它将语义内容编码为嵌入空间中的位置。第二种是位置嵌入，它编码单词在其源句子中的位置。

第三种是句子嵌入，它指示单词来自哪个输入句子。这使得模型能够学习候选答案单词与其前后句子单词之间的关系。

我们还研究了一种捕获全局上下文的技术，该技术使用一个50,000维的向量来记录源文本中出现的、一个包含50,000个单词的词表中每个单词的计数。我们使用一种称为随机投影的技术将该向量降维到768维，与局部上下文向量的大小相同。

在测试中，我们将我们的系统与不考虑上下文的当前最优基于Transformer的系统，以及一个为每个候选答案及其相邻句子使用独立编码器的集成系统进行了比较。集成系统基线使我们能够衡量模型的成功在多大程度上依赖于相邻句子之间关系的推断，而非简单地利用它们包含的额外信息。

在三个不同的数据集和两个不同的精度度量上，我们的模型全面优于基线。事实上，集成系统的表现比其他两者差得多，可能是因为它被上下文句子中的额外信息所迷惑。

全局上下文

在我们的EACL论文中，我们考虑了另外两种为模型添加全局上下文的方法。两种方法都在源文本中搜索少数（两到五个效果最佳）与问题和候选答案都密切相关的句子。然后将这些句子作为模型的附加输入。

这两种方法以不同的方式衡量句子之间的关系。一种使用n-gram重叠。也就是说，它将每个句子分解为单词、双词和三词序列，并衡量这些序列在不同句子间的重叠度。

另一种方法使用上下文词嵌入，根据句子在嵌入空间中的邻近度来确定句子之间的语义关系。在实验中，这是效果最好的方法。

在我们的实验中，我们使用了三种不同的架构来探索我们提出的上下文感知答案选择方法。在所有三种架构中，输入都既包含局部上下文信息（如我们的ECIR论文所述），也包含全局上下文信息。

在第一种架构中，我们只是将全局上下文句子与问题、候选答案及局部上下文句子拼接在一起。
第二种架构使用集成方法。它接收两个输入向量：一个将问题和候选答案与局部上下文句子拼接，另一个将它们与全局上下文句子拼接。这两个输入向量分别传递给独立的编码器，编码器为后续处理生成独立的向量表示。我们怀疑这会提高精度，但计算成本更高。

集成方法与多路注意力方法的对比示意图。该图展示了集成架构（具有独立的局部和全局上下文编码器）与多路注意力方法在结构上的区别。

第三种架构使用多路注意力机制，试图以较低的成本捕获集成架构的部分增益。多路注意力模型使用单一编码器生成所有输入的表示。然后，这些表示被送入三个独立的注意力块。

第一个注意力块强制模型联合检查问题、答案和局部上下文；第二个注意力块专注于局部上下文和全局上下文之间的关系；最后一个注意力块捕获整个序列中的关系。因此，该架构保留了集成方法的部分信息隔离特性。

确实，在我们的测试中，集成方法表现最佳，但多路注意力模型紧随其后，在我们用于评估的三个指标上性能下降了0.1%到1%之间。

然而，我们所有三个上下文感知模型的表现都优于当前最优基线，为答案选择精度建立了新标准。

研究领域：