news 2026/5/13 8:34:54

Goedel-Prover-V2:通过自我修正和逐步数据合成实现高效自动定理证明的新发展

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Goedel-Prover-V2:通过自我修正和逐步数据合成实现高效自动定理证明的新发展

概述

本文提出了自动定理证明(ATP)的新底层模型 Goedel-Prover-V2。

以往的研究需要超大模型(数百个 B 级参数)和庞大的推理计算,这限制了开源模型的性能。

因此,作者引入了一种新颖的学习方法和数据生成策略,以实现高效和高性能的定理证明。

具体来说,他们采用了 “脚手架式数据合成”(生成难度逐步调整的合成问题)、“验证者指导下的自我修正”(利用精益编译器的反馈)和 “模型平均”(保持输出多样性)。平均化 "来保持输出的多样性。

结果,即使只有 32B 大小的模型,也超越了传统的 671B 模型,成功解决了
MiniF2F 基准中的 88.1%(自校正后为 90.4%)和 PutnamBench 中的 86 个问题,为开源模型设定了新的高标准。开源建模达到了新的最高水平。

这表明,无需依赖庞大的计算资源,就能高效地进行高级数学推理。

建议的方法

拟议方法的核心是将 "自我修正 "和 "逐步数据合成 "与使用长思维链的定理证明融合在一起。

首先,"验证器指导下的自我修正 "是一种机制,模型生成的证明通过精益编译器运行,精益编译器分析错误信息并生成修改版本。
这样,用户就能从错误中吸取教训,完成证明,就像人类改进证明一样。

接下来,脚手架数据合成会合成未解决的子问题和从难题的失败尝试中获得的更简单的变体,为模型提供高效的学习信号。
这样,就能利用难度等级进行有效的训练。

此外,还引入了模型平均法,对不同训练阶段获得的模型进行加权平均,以提高性能,同时防止遗漏变体。
最后,我们设计了一个连贯的学习管道,将 SFT(监督微调)、RL(强化学习)和模型平均化结合在一起,从而产生了高效、稳健的定理证明模型。

实验

主要在 MiniF2F 和 PutnamBench 上进行了评估,结果证实,所提出模型的性能明显优于传统方法。

在MiniF2F(高中数学-国际数学奥林匹克水平)Goedel-Prover-V2-32Bはpass@32で88.1%,自校正模式达到90.4%,超过了DeepSeek-Prover-V2-671B。
此外,在 PutnamBench(大学数学竞赛题)中,它成功解决了 86 道题,比之前的 47 道题有了显著提高。

甚至在 MiniF2F 中,8B 模型的表现也优于 671B 模型,这有力地证明了它的效率。

此外,自我修正的效果也得到了量化证明,在 pass@32 的基础上平均提高了 2 分。

缩放分析也证实了 “高样本效率”,即只需生成少量样本即可实现高精度。

这些实验结果表明,即使对于小规模的模型,所提出的方法也能实现最先进的定理证明能力,支持其作为未来数学人工智能研究的基础。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/7 13:17:06

springboot师生健康信息管理系统(11520)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告)远程调试控屏包运行 三、技术介绍 Java…

作者头像 李华
网站建设 2026/5/9 0:47:37

边缘AI Agent实时推理难题全解析(低延迟高能效方案大公开)

第一章:边缘AI Agent推理速度的核心挑战在边缘计算环境中部署AI Agent时,推理速度面临多重技术瓶颈。受限的硬件资源、实时性要求以及模型复杂度之间的矛盾,使得优化推理性能成为关键课题。硬件资源限制 边缘设备通常配备低功耗处理器&#x…

作者头像 李华
网站建设 2026/5/12 7:56:29

cmake_第二章 CMake基础语法_set(),缓存变量set(CACHE)

文章目录第二章 CMake基础语法2.4 cmake定义普通变量set()2.4.1 set() 语法格式2.4.2 变量类型和作用域详解2.4.3 CMake运行脚本 .cmake 文件2.4.4 编译 .cmake脚本-- cmake -P选项2.4.5 使用-D选项定义变量2.4.6 普通变量总结2.5 CMake定义缓存变量set(CACHE)2.5.1 缓存变量语…

作者头像 李华
网站建设 2026/5/7 12:06:00

python-flask-django基于BS架构的小区物业管理系统设计与实现_rsr3ei73

文章目录系统截图项目技术简介可行性分析主要运用技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!系统截图 python-flask-djangoBS_rsrei73 架构的小区物业管理系统设计与实现基于 项目技术简介 Python…

作者头像 李华
网站建设 2026/5/10 21:23:14

视觉SLAM十四讲解读-(v2.p85)李代数求导(扰动模型-左乘)

视觉SLAM十四讲解读-(v2.p85)李代数求导(扰动模型-左乘)1. 问题背景和目标 这里采用扰动模型(左乘)来求导。对旋转矩阵 RRR 进行一次左扰动 ΔR\Delta RΔR,设左扰动 ΔR\Delta RΔR 对应的李代数为 φ\varphiφ,目标是计算 ∂(Rp…

作者头像 李华
网站建设 2026/5/1 21:22:11

免费彻底解决找不到d3dx10_39.dll文件 无法运行软件游戏问题

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

作者头像 李华