Search-R1,开源版的DeepSeek-R1(-Zero)的复现,用于训练推理和搜索(工具调用)交错LLMs.

Search-R1先用基础模型(llama3.2-3b-base)学习调用搜索引擎,获得性能的提升,再用基础模型(Qwen2.5-7b-base)可以学习使用 RL 进行多轮搜索引擎调用和推理。

Search-R1,开源版的DeepSeek-R1(-Zero)的复现,用于训练推理和搜索(工具调用)交错LLMs插图

Github地址:https://github.com/PeterGriffinJin/Search-R1



微信扫描下方的二维码阅读本文

Search-R1,开源版的DeepSeek-R1(-Zero)的复现,用于训练推理和搜索(工具调用)交错LLMs插图1

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。