改进基于表格数据的问答模型
问答模型有时需要从表格中检索信息,这与从自由形式文本中提取信息所依赖的语义线索完全不同。历史上,大多数关于基于表格的问答工作都集中在提取单个单元格内容作为问题的答案。但有时,提问者需要更多的上下文来理解答案,因此,近期关于基于表格的问答研究开始探索将表格数据嵌入到句子或句子序列中的可能性。迄今为止,最成功的模型是端到端的神经网络模型,它们将问题和表格作为输入,并输出问题的自由形式答案。
在今年的人工智能促进协会会议上,我们提出了一种训练基于表格的自由形式问答模型的新方法。在该方法中,模型先使用合成数据进行预训练,然后在真实的问答数据集上进行微调。我们将该模型称为GenTaP,意为以生成为重点的、基于表格的中级预训练。
数据增强
该方法的关键在于无需人工参与即可生成合成训练数据,以提高预训练流程的效率。为了生成长形式的训练示例,我们识别包含表格的在线文档。从这些文档中,我们提取出至少包含两个共享表格中同一行的单元格值的句子。然后,使用一个单独的机器学习模型,将这些句子转换为问题。
问题生成模型将一个句子和表格中的对应条目作为输入。为了训练该模型,我们使用了一个现有的、用于训练阅读理解模型的数据集,该数据集包含问题以及提供回答所需信息的文档摘录。不同之处在于,我们反转了输入和输出之间的关系。
问题生成器的输出为我们提供了数据三元组(表格、问题、答案),可用于预训练问答系统。表格被转换成字符串(用特殊字符分隔行),并作为输入附加到问题之后。问答模型随后学习预测答案。
除了长形式的答案,我们还使用自动生成的问题-答案对来训练模型,其中每个答案仅包含表格中的一个单元格值。我们使用简单的语法规则生成这些对——即一组短语和句子模板,这些模板从表格中随机采样数据以生成新句子。
在预训练期间,我们使用等量的长形式和短形式示例。其理念是,长形式目标提升了问答模型输出的连贯性,而短形式目标则提高了其事实准确性。实验表明,在预训练中省略短形式目标确实会略微降低模型在测试集上的性能。
模型本身是一个编码器-解码器模型,带有两个解码器,分别对应两个输出目标。
结果
在合成数据上预训练完模型后,我们使用一个手工标注的问答数据集对其进行了两项实验。在第一项实验中,我们在未进行进一步微调的情况下,直接用数据集的测试示例测试预训练模型——这是一个零样本实验。在第二项实验中,我们首先用数据集的训练集微调了模型,然后重新测试。
作为基准,我们使用了四个基于T5语言模型的模型和第五个基于BART语言模型的模型。我们使用了五种不同的评估指标:BLEU指标(衡量模型输出与手工标注数据集中目标输出的重叠程度);三种ROUGE指标(ROUGE 1、ROUGE 2 和 ROUGE L,均衡量输出与目标之间的短语重叠程度);以及METEOR指标(在评估句子匹配时考虑了同义词和共同的词根)。
我们的模型在所有指标上均表现最佳,其BLEU分数比排名第二的模型(基于BART的模型)高出14%,在其他四个指标上提升了5%到10%。
我们的零样本模型表现优于基于T5小型语言模型的基准模型——尽管该T5基准模型是在数据集的完整训练集上训练的。并且,零样本模型的表现仅略逊于基于T5基础模型的基准模型(该模型同样在完整训练集上训练过)。
我们还测试了预训练模型在一项不同任务上的表现:基于表格数据生成特定领域的句子(非问题答案),且训练示例数量有限(50到500个)。在该任务上,我们的模型优于两个基于GPT语言模型的基准,表明我们的方法可能很好地适应其他应用。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)