CompassVerifier：彻底改变 LLM 解决方案验证的新基准和稳健模型-开发者社区

总结

本文的重点是 “答案验证”，它对于评估 LLM 的性能和设计强化学习中的奖励至关重要。

传统的验证方法主要使用正则表达式进行简单的字符串匹配，或使用通用 LLM 作为决策者。

然而，前者需要定制规则，缺乏灵活性，而后者则需要针对具体任务进行及时调整，极易产生错觉和误判。

另一个制约因素是缺乏能够全面评估复杂问题和各种解决方案格式的综合基准。

为了解决这些问题，作者建立了一个名为 VerifierBench 的新评估平台，并开发了一个名为 CompassVerifier 的轻量级高精度验证模型。
这实现了包括数学、知识和推理在内的多学科答案验证，并提出了一个强大的框架，不仅能准确识别错误答案，还能识别无效答案。

建议的方法

作者提出的方法包括两大支柱。

第一个支柱是 VerifierBench。
这是从 50 多个模型和 15 个数据集中收集的 130 多万条回答的基准，通过多阶段自动验证和专家注释进行维护。除了正确和不正确的回答外，无效回答（如不完整、重复或被拒绝的回答）也会被清晰标注，从而实现比以往更精确的性能评估。

第二个是 CompassVerifier。

该模型使用 VerifierBench 作为其学习基础，并通过三个扩展进行了增强。

这些扩展包括：(1) 错误模式驱动的对抗扩展，以提高对错误分类的复原能力；(2) 复杂公式扩展，以提高对各种符号的等价判断能力；(3) 通用性扩展，以提高对不同任务和提示格式的适应能力。

这些创新使 CompassVerifier 比传统的基于正则表达式和基于 LLM 的验证器更加准确和稳健。

实验

在实验中，CompassVerifier 在 3B 到 32B 的参数范围内进行训练，并使用 VerifierBench 进行评估。

与通用 LLM（如 GPT-4o 和 DeepSeek-V3）以及现有专用验证器 xVerify 和 Tencent-RLVR 进行了比较。

结果，CompassVerifier 在所有领域都获得了新的 SOTAs。其中，32B 模型的准确率超过 90%，F1 分数超过 87%，明显高于同等规模的 LLM 和现有验证器。

此外，在按答案形式进行的评估中，虽然多选题获得了高分，但顺序答案和包含多个小问题的答案难度更大，传统模型的 F1 分数只有 40 分或更低，而 CompassVerifier 始终保持着较高的准确率。
此外，CompassVerifier 在强化学习中作为奖励模型的有效性也得到了验证，与基于规则的验证器相比，使用 CompassVerifier 进行的训练显示出更高的收敛效率和性能改进。

这证明，该模型不仅可以作为评估平台，还可以作为指导学习的奖励信号。

零基础：100个小案例玩转Python软件开发！第五节：用户登录

欢迎回到我们的《零基础：100个小案例玩转Python软件开发！》系列！在本节课，我将教大家如何开发一个可以登录的界面。我们先在PyMe中创建一个对话框窗口程序。虽然这只是一个PyMe中的模版程序，但它具备一个简单的登录…

李华

毕设救星：Spring Boot + Vue 打造“新农人”风口——乡村振兴特色农产品直播带货平台

🎓 一、选题背景：为什么选这个题？ 同学们，如果想拿优秀毕设，必须学会**“蹭热度”**。国家战略（Buff 叠满）：“乡村振兴”、“数字助农”是绝对的政治正确。你做的不是商城&#xf…

李华

电商包装测试

消费品行业包括消费者在商城购买的所有产品，在上架之前，他们必须要通过对产品及其包装施加压力的分销渠道。在某些情况下，这些应力会对包装或产品造成损害，使其不适合消费者使用，这些类型的损害是昂贵的但可以避免。封…

李华

高性能GPU推荐列表：运行EmotiVoice最适配的显卡型号

高性能GPU推荐列表：运行EmotiVoice最适配的显卡型号在虚拟主播实时互动、智能客服拟人化应答、有声书自动朗读等场景中，用户对语音合成系统的要求早已超越“能说话”的基础功能。如今，真正打动人的，是那句带着笑意的问候、一声略…

李华

小型房屋租赁|基于springboot 小型房屋租赁系统(源码+数据库+文档)

小型房屋租赁目录基于springboot vue小型房屋租赁系统一、前言二、系统功能演示三、技术选型四、其他项目参考五、代码参考六、测试参考七、最新计算机毕设选题推荐八、源码获取： 基于springboot vue小型房屋租赁系统一、前言博主介绍&…

李华

总结