DeepSeek-Prover-V1.5,这是一个开源语言模型,专为精益 4 中的定理证明而设计,它通过优化训练和推理过程来增强 DeepSeek-Prover-V1。

该模型在 DeepSeekMath-Base 上进行预训练,专门研究形式数学语言,并使用源自 DeepSeek-Prover-V1 的增强形式定理证明数据集进行监督微调。

通过来自证明辅助反馈的强化学习 (RLPAF) 实现了进一步的细化。除了 DeepSeek-Prover-V1 的单通道全证明生成方法外,我们还提出了 RMaxTS,这是蒙特卡洛树搜索的一种变体,它采用内在奖励驱动的探索策略来生成多样化的证明路径。

DeepSeek-Prover-V1.5 比 DeepSeek-Prover-V1 有显著改进,在高中水平 miniF2F 基准测试集 (63.5%) 和本科水平 ProofNet 基准测试集 (25.3%) 上取得了新的最新结果。

DeepSeek-Prover-V1.5,开源的数学定理证明模型插图

Github地址:https://github.com/deepseek-ai/DeepSeek-Prover-V1.5

模型地址地址:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V1.5-Base

论文地址:https://arxiv.org/abs/2408.08152



微信扫描下方的二维码阅读本文

DeepSeek-Prover-V1.5,开源的数学定理证明模型插图1

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。