智猩猩DeepSeek大解读系列公开课第一期课件-DeepSeek+V3+R1架构的深度分析与深度思考-中存算董事长陈巍.pdf

这份文档深入探讨了 DeepSeek V3/R1 架构的深度分析与思考,主要内容可以概括如下:
**1. 大语言模型的本质与Scaling Laws:** 大语言模型的核心在于知识的压缩(存储)和对输入的反馈(计算)。Scaling Laws 描述了模型性能随模型规模、训练数据量和计算资源增加而提升的规律。
**2. DeepSeek的架构优势:** DeepSeek 致力于实现“既要又要”的目标,即在更高性能、更好训练、更低成本之间寻求平衡。
**3. DeepSeek V3/R1 的核心技术:**
* **MLA(Multi-Head Latent Attention):** 通过将KV矩阵转换为低秩形式,减少KV缓存大小,从而提高推理效率,降低成本。MLA是DeepSeek V2中首次引入的创新技术。
* **MoE(Mixture of Experts)架构:** DeepSeek 采用了 MoE 架构,组合多个专家模型,通过选择和激活部分专家模型来处理输入数据,从而减少计算量,提高训练和推理速度。
* **FP8 混合精度训练框架:** 引入 FP8 混合精度训练框架,实现训练加速和 GPU 内存使用的减少。
* **DualPipe 算法:** 通过双向流水线调度,优化计算和通信过程,提高使用率。
* **跨节点 All-to-All 通信内核:** 优化 All-to-All 通信,减少 IB 流量限制。
* **显存节省技术:** 如RMSNorm 和 MLA Up-Projection 重计算,在CPU内存中保存EMA等,降低内存消耗。
**4. V3/R1的训练流程:** 训练流程包括:
* **预训练 (PreTrain):** 基于大规模数据集进行语言和知识学习。DeepSeek V3 采用了 14.8T 预训练数据集,并进行了优化,例如,提高数学和编程样本的比例来优化预训练语料库,以提升推理能力。
* **有监督微调 (SFT):** 利用指令精调 (instruction-tuning) 数据集,使模型理解人类指令。
* **强化学习 (RL):** 采用 GRPO(Group Relative Policy Optimization) 策略,进一步提升模型的推理能力。
* **无 SFT 的 R1-Zero 训练:** 利用 DeepSeek-V3-Base 作为基础模型,直接使用GRPO进行强化学习,以提升模型的推理性能。
* **冷启动(Cold Start):** R1通过基于V3-Base的有监督精调(SFT)以克服强化学习的早期不稳定。
* **拒绝采样与SFT:** 结合来自不同领域的数据增强模型在写作,角色扮演,和其他通用任务中的能力
* **面向全场景的强化学习与对齐:** 采用奖励信号和多种提示分布的组合来训练模型。
**5. 针对算力的优化:** 深度讨论了 DeepSeek 在架构、算法、硬件上的多项优化,特别是针对 All-to-All 通信、混合精度训练、以及针对 NVLink 的硬件协同优化等,这些优化提高了训练效率和推理速度,并降低了成本。
**6. DeepSeek的安全性和应用:** 强调了 DeepSeek 在安全性评估方面的努力,展示了其在多个领域的应用潜力。
**7. 未来趋势与展望:** 算法模型未来的发展趋势,对GPGPU的路径依赖以及对国产芯片的需求,并探讨了算力芯片与算法模型未来的结合与发展。同时,也强调了对开源生态、新架构 AI 芯片、以及算力、模型结合的重视,并且总结了DeepSeek的主要贡献。最后对企业级大模型服务器和AI智能营销平台等产品做了简单的介绍。
相关报告
-
1.52 MB 24页 让DeepSeek更有趣更有深度的思考研究分析报告-AGI智能时代-202503.pdf
-
20.76 MB 52页 计算机行业人工智能系列深度报告:DeepSeek研究框架-国海证券-20250214.pdf
-
7.52 MB 22页 人工智能系列深度:DeepSeek十大关键问题解读-国海证券-20250213.pdf
-
16.62 MB 36页 DeepSeek R1深度解析及算力影响几何-中信建投-20250203.pdf
-
6.62 MB 40页 中国AI治理的独立思考 生成式人工智能发展与监管白皮书.pdf
-
13.85 MB 51页 2025DeepSeek技术全景解析——重塑全球AI生态的中国力量-智研咨询-202503.pdf
-
14.83 MB 77页 数字金融行业系列深度之一:DeepSeek如何加速金融业数字化转型?-中信建投-20250223.pdf
-
5.39 MB 98页 亚太区智算中心液冷应用现状与技术演进白皮书-中国电信&深知社-2024-98页.pdf
-
7.46 MB 128页 全球烟草产业链深度剖析:关于底层逻辑与发展启示的详细思考-华安证券-2024.9.17-128页.pdf
-
3.42 MB 16页 三中全会跟踪解读系列:三中跟踪,发布会的五大看点-银河证券-20240719.pdf
-
771.79 KB 16页 宏观深度报告:中国外商直接投资的新特征与新趋向-平安证券-20240626.pdf
-
908.53 KB 11页 宏观策略专题报告:对当前地产5个问题的看法,当前经济与政策思考-中泰证券-20240610.pdf