DeepSeek R1+Kimi1.5及类强推理模型开发解读-北京大学-202502.pdf

摘要 : 陈博远领导的北大对齐小组在大语言模型对齐与可扩展监督领域取得显著成果。他们开发的DeepSeek-R1和Kimi1.5模型在强化学习(RL)加持下,展现了强大的推理和慢思考能力,特别是在长文本和长链推理任务上。DeepSeek-R1Zero完全依赖RL,不使用人类专家标注的监督微调,随着训练步骤增加,模型展现出自我修复和启发式搜索的能力。DeepSeek-R1在数学代码任务上表现突出,如在AIME2024上获得79.8%的成绩,略高于OpenAI-o1-1217,在MATH-500上获得97.3%的成绩,与OpenAI-o1-1217相当。这些成果不仅证明了强化学习的潜力,也标志着开源社区在与闭源大模型竞争中迈出了关键性一步。
在线阅读 下载报告 | 8.36 MB | 76页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告
与最强人工智能Ai对话