DeepSeek R1+Kimi1.5及类强推理模型开发解读-北京大学-202502.pdf

DeepSeek R1+Kimi1.5及类强推理模型开发解读-北京大学-202502.pdf
DeepSeek-R1:强推理模型开发的深度解读 DeepSeek-R1 是一项突破性的研究,它开创了在强化学习(RL)加持下,通过慢思考范式来实现强推理的新途径。 该模型在数学、代码和知识类问答等多种任务上展现出卓越性能,特别是 DeepSeek-R1 Zero,它无需监督微调 SFT 即可实现强推理能力。 核心技术与方法: * **RL 的核心作用:** 通过 RL 训练,模型能够自主学习和探索,并逐渐展现出长文本推理和自我修复的能力。GRPO(Group Relative Policy Optimization)算法被用于优化 RL 过程,降低计算成本,并提升训练的稳定性。 * **DeepSeek-R1 Zero:** DeepSeek-R1 Zero 通过基于规则的奖励(准确率奖励 + 格式奖励),使得模型能够利用自我迭代来提升自我理解,并且逐渐增长思考的长度。 * **Cold Start 冷启动:** 结合了 few-shot 样本、双重验证和反思数据,为模型提供了更强的语义理解和推理能力。 * **多阶段 Pipeline:** DeepSeek-R1 的开发流程包括冷启动、推理为中心的 RL 训练、拒绝采样和全领域 SFT,以及全领域 RL 训练,通过不同阶段的协同作用,逐步提升模型的推理能力、通用性和安全性。 * **自我迭代与长链推理:** 模型能够通过自我迭代,例如“Aha moment”的出现,提升解决问题的能力,并且逐渐展现出长文本推理的能力。 * **MCTS 与 PRM 的对比:** 模型在推理过程中,利用 MCTS 解决了搜索空间过大的问题,PRM 在基于 reward shaping 上有潜力和更强的算力优势。 * **蒸馏与强化学习的对比:** 蒸馏方法通过学习预训练模型,可以获得更好的泛化能力。强化学习则通过自主学习来获取更强的推理能力和适应能力。 * **模态穿透:** DeepSeek-R1 强调了在文本模态下进行强推理,并探讨了向多模态扩展的可能路径。LLF (Learning from Language Feedback) 有助于实现任意到任意模态的对齐。 未来技术方向: * 可解释性:强调长思维链的可解释性,便于理解模型的推理过程。 * 模态扩展:探索模态穿透和模态联动,以进一步拓展强推理边界。 * Agentic 发展:利用强推理能力赋能 Agentic。 * 安全与监管:探讨形式化验证和审计对齐,确保模型的安全性。 * 模型弹性:大模型也具有弹性,可以通过控制参数的方式抗拒对齐。 关键启示: * **跳过 SFT:** DeepSeek-R1 系列跳过 SFT,依赖大规模 RL,证明了 RL 的潜力。 * **无需标注:** 通过自主学习的方式,节省了大量的标注成本。 * **模型弹性:** 研究大模型在对齐过程中的弹性,这可能影响到对齐的实现。 * **自我修正:** 通过 RL 训练,模型能够实现自主修正,进而提升能力。 * **从文本到多模态:** 强调了文本模态在强推理方面的重要作用,以及向多模态场景拓展的可能。 总结而言,DeepSeek-R1 展示了强推理模型的发展潜力和方向,通过强化学习,实现更强的推理能力和更广泛的应用。
在线阅读 下载完整报告 | 8.36 MB | 76页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告