总结
本文的重点是 “答案验证”,它对于评估 LLM 的性能和设计强化学习中的奖励至关重要。
传统的验证方法主要使用正则表达式进行简单的字符串匹配,或使用通用 LLM 作为决策者。
然而,前者需要定制规则,缺乏灵活性,而后者则需要针对具体任务进行及时调整,极易产生错觉和误判。
另一个制约因素是缺乏能够全面评估复杂问题和各种解决方案格式的综合基准。
为了解决这些问题,作者建立了一个名为 VerifierBench 的新评估平台,并开发了一个名为 CompassVerifier 的轻量级高精度验证模型。
这实现了包括数学、知识和推理在内的多学科答案验证,并提出了一个强大的框架,不仅能准确识别错误答案,还能识别无效答案。
建议的方法
作者提出的方法包括两大支柱。
第一个支柱是 VerifierBench。
这是从 50 多个模型和 15 个数据集中收集的 130 多万条回答的基准,通过多阶段自动验证和专家注释进行维护。除了正确和不正确的回答外,无效回答(如不完整、重复或被拒绝的回答)也会被清晰标注,从而实现比以往更精确的性能评估。
第二个是 CompassVerifier。
该模型使用 VerifierBench 作为其学习基础,并通过三个扩展进行了增强。
这些扩展包括:(1) 错误模式驱动的对抗扩展,以提高对错误分类的复原能力;(2) 复杂公式扩展,以提高对各种符号的等价判断能力;(3) 通用性扩展,以提高对不同任务和提示格式的适应能力。
这些创新使 CompassVerifier 比传统的基于正则表达式和基于 LLM 的验证器更加准确和稳健。
实验
在实验中,CompassVerifier 在 3B 到 32B 的参数范围内进行训练,并使用 VerifierBench 进行评估。
与通用 LLM(如 GPT-4o 和 DeepSeek-V3)以及现有专用验证器 xVerify 和 Tencent-RLVR 进行了比较。
结果,CompassVerifier 在所有领域都获得了新的 SOTAs。其中,32B 模型的准确率超过 90%,F1 分数超过 87%,明显高于同等规模的 LLM 和现有验证器。
此外,在按答案形式进行的评估中,虽然多选题获得了高分,但顺序答案和包含多个小问题的答案难度更大,传统模型的 F1 分数只有 40 分或更低,而 CompassVerifier 始终保持着较高的准确率。
此外,CompassVerifier 在强化学习中作为奖励模型的有效性也得到了验证,与基于规则的验证器相比,使用 CompassVerifier 进行的训练显示出更高的收敛效率和性能改进。
这证明,该模型不仅可以作为评估平台,还可以作为指导学习的奖励信号。