智猩猩DeepSeek大解读系列公开课第一期课件-DeepSeek+V3+R1架构的深度分析与深度思考-中存算董事长陈巍.pdf

智猩猩DeepSeek大解读系列公开课第一期课件-DeepSeek+V3+R1架构的深度分析与深度思考-中存算董事长陈巍.pdf
这份文档深入探讨了 DeepSeek V3/R1 架构的深度分析与思考,主要内容可以概括如下: **1. 大语言模型的本质与Scaling Laws:** 大语言模型的核心在于知识的压缩(存储)和对输入的反馈(计算)。Scaling Laws 描述了模型性能随模型规模、训练数据量和计算资源增加而提升的规律。 **2. DeepSeek的架构优势:** DeepSeek 致力于实现“既要又要”的目标,即在更高性能、更好训练、更低成本之间寻求平衡。 **3. DeepSeek V3/R1 的核心技术:** * **MLA(Multi-Head Latent Attention):** 通过将KV矩阵转换为低秩形式,减少KV缓存大小,从而提高推理效率,降低成本。MLA是DeepSeek V2中首次引入的创新技术。 * **MoE(Mixture of Experts)架构:** DeepSeek 采用了 MoE 架构,组合多个专家模型,通过选择和激活部分专家模型来处理输入数据,从而减少计算量,提高训练和推理速度。 * **FP8 混合精度训练框架:** 引入 FP8 混合精度训练框架,实现训练加速和 GPU 内存使用的减少。 * **DualPipe 算法:** 通过双向流水线调度,优化计算和通信过程,提高使用率。 * **跨节点 All-to-All 通信内核:** 优化 All-to-All 通信,减少 IB 流量限制。 * **显存节省技术:** 如RMSNorm 和 MLA Up-Projection 重计算,在CPU内存中保存EMA等,降低内存消耗。 **4. V3/R1的训练流程:** 训练流程包括: * **预训练 (PreTrain):** 基于大规模数据集进行语言和知识学习。DeepSeek V3 采用了 14.8T 预训练数据集,并进行了优化,例如,提高数学和编程样本的比例来优化预训练语料库,以提升推理能力。 * **有监督微调 (SFT):** 利用指令精调 (instruction-tuning) 数据集,使模型理解人类指令。 * **强化学习 (RL):** 采用 GRPO(Group Relative Policy Optimization) 策略,进一步提升模型的推理能力。 * **无 SFT 的 R1-Zero 训练:** 利用 DeepSeek-V3-Base 作为基础模型,直接使用GRPO进行强化学习,以提升模型的推理性能。 * **冷启动(Cold Start):** R1通过基于V3-Base的有监督精调(SFT)以克服强化学习的早期不稳定。 * **拒绝采样与SFT:** 结合来自不同领域的数据增强模型在写作,角色扮演,和其他通用任务中的能力 * **面向全场景的强化学习与对齐:** 采用奖励信号和多种提示分布的组合来训练模型。 **5. 针对算力的优化:** 深度讨论了 DeepSeek 在架构、算法、硬件上的多项优化,特别是针对 All-to-All 通信、混合精度训练、以及针对 NVLink 的硬件协同优化等,这些优化提高了训练效率和推理速度,并降低了成本。 **6. DeepSeek的安全性和应用:** 强调了 DeepSeek 在安全性评估方面的努力,展示了其在多个领域的应用潜力。 **7. 未来趋势与展望:** 算法模型未来的发展趋势,对GPGPU的路径依赖以及对国产芯片的需求,并探讨了算力芯片与算法模型未来的结合与发展。同时,也强调了对开源生态、新架构 AI 芯片、以及算力、模型结合的重视,并且总结了DeepSeek的主要贡献。最后对企业级大模型服务器和AI智能营销平台等产品做了简单的介绍。
在线阅读 下载完整报告 | 8.12 MB | 53页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告