DeepSeek R1+Kimi1.5及类强推理模型开发解读-北京大学-202502.pdf
摘要 : 陈博远领导的北大对齐小组在大语言模型对齐与可扩展监督领域取得显著成果。他们开发的DeepSeek-R1和Kimi1.5模型在强化学习(RL)加持下,展现了强大的推理和慢思考能力,特别是在长文本和长链推理任务上。DeepSeek-R1Zero完全依赖RL,不使用人类专家标注的监督微调,随着训练步骤增加,模型展现出自我修复和启发式搜索的能力。DeepSeek-R1在数学代码任务上表现突出,如在AIME2024上获得79.8%的成绩,略高于OpenAI-o1-1217,在MATH-500上获得97.3%的成绩,与OpenAI-o1-1217相当。这些成果不仅证明了强化学习的潜力,也标志着开源社区在与闭源大模型竞争中迈出了关键性一步。

相关报告
-
18.56 MB 24页 DeepSeek模型优势:算力、成本角度解读-浙江大学-202502.pdf
-
11.08 MB 57页 DeepSeek 原理和落地应用-北京大学-202503.pdf
-
16.73 MB 117页 2025年DeepSeek完全实用手册V1.0——从技术原理到使用技巧-至顶AI实验室-202502.pdf
-
18.43 MB 86页 DeepSeek内部研讨系列:DeepSeek提示词工程和落地场景-北京大学-202502.pdf
-
11.47 MB 98页 DeepSeek内部研讨系列:DeepSeek与AIGC应用-北京大学-202502.pdf
-
23.57 MB 73页 2025 DeepSeek自学手册:从理论到实践-ai呀蔡蔡-202502.pdf
-
3.46 MB 35页 DeepSeek使用教程蓝皮书-全球数据资产理事会-202502.pdf
-
7.72 MB 44页 DeepSeek原理与效应-天津大学-202502.pdf
-
6.71 MB 55页 DeepSeek模型本地部署与应用构建-清华大学-202502.pdf