智猩猩DeepSeek大解读系列公开课第一期课件-DeepSeek+V3+R1架构的深度分析与深度思考-中存算董事长陈巍.pdf下载

这份文档深入探讨了 DeepSeek V3/R1 架构的深度分析与思考，主要内容可以概括如下： **1. 大语言模型的本质与Scaling Laws：** 大语言模型的核心在于知识的压缩（存储）和对输入的反馈（计算）。Scaling Laws 描述了模型性能随模型规模、训练数据量和计算资源增加而提升的规律。 **2. DeepSeek的架构优势：** DeepSeek 致力于实现“既要又要”的目标，即在更高性能、更好训练、更低成本之间寻求平衡。 **3. DeepSeek V3/R1 的核心技术：** * **MLA（Multi-Head Latent Attention）：** 通过将KV矩阵转换为低秩形式，减少KV缓存大小，从而提高推理效率，降低成本。MLA是DeepSeek V2中首次引入的创新技术。 * **MoE（Mixture of Experts）架构：** DeepSeek 采用了 MoE 架构，组合多个专家模型，通过选择和激活部分专家模型来处理输入数据，从而减少计算量，提高训练和推理速度。 * **FP8 混合精度训练框架：** 引入 FP8 混合精度训练框架，实现训练加速和 GPU 内存使用的减少。 * **DualPipe 算法：** 通过双向流水线调度，优化计算和通信过程，提高使用率。 * **跨节点 All-to-All 通信内核：** 优化 All-to-All 通信，减少 IB 流量限制。 * **显存节省技术：** 如RMSNorm 和 MLA Up-Projection 重计算，在CPU内存中保存EMA等，降低内存消耗。 **4. V3/R1的训练流程：** 训练流程包括： * **预训练 (PreTrain):** 基于大规模数据集进行语言和知识学习。DeepSeek V3 采用了 14.8T 预训练数据集，并进行了优化，例如，提高数学和编程样本的比例来优化预训练语料库，以提升推理能力。 * **有监督微调 (SFT):** 利用指令精调 (instruction-tuning) 数据集，使模型理解人类指令。 * **强化学习 (RL):** 采用 GRPO(Group Relative Policy Optimization) 策略，进一步提升模型的推理能力。 * **无 SFT 的 R1-Zero 训练：** 利用 DeepSeek-V3-Base 作为基础模型，直接使用GRPO进行强化学习，以提升模型的推理性能。 * **冷启动（Cold Start）：** R1通过基于V3-Base的有监督精调（SFT）以克服强化学习的早期不稳定。 * **拒绝采样与SFT：** 结合来自不同领域的数据增强模型在写作，角色扮演，和其他通用任务中的能力 * **面向全场景的强化学习与对齐：** 采用奖励信号和多种提示分布的组合来训练模型。 **5. 针对算力的优化：** 深度讨论了 DeepSeek 在架构、算法、硬件上的多项优化，特别是针对 All-to-All 通信、混合精度训练、以及针对 NVLink 的硬件协同优化等，这些优化提高了训练效率和推理速度，并降低了成本。 **6. DeepSeek的安全性和应用：** 强调了 DeepSeek 在安全性评估方面的努力，展示了其在多个领域的应用潜力。 **7. 未来趋势与展望：** 算法模型未来的发展趋势，对GPGPU的路径依赖以及对国产芯片的需求，并探讨了算力芯片与算法模型未来的结合与发展。同时，也强调了对开源生态、新架构 AI 芯片、以及算力、模型结合的重视，并且总结了DeepSeek的主要贡献。最后对企业级大模型服务器和AI智能营销平台等产品做了简单的介绍。

智猩猩DeepSeek大解读系列公开课第一期课件-DeepSeek+V3+R1架构的深度分析与深度思考-中存算董事长陈巍.pdf

相关报告

1.52 MB 24页让DeepSeek更有趣更有深度的思考研究分析报告-AGI智能时代-202503.pdf

20.76 MB 52页计算机行业人工智能系列深度报告：DeepSeek研究框架-国海证券-20250214.pdf

7.52 MB 22页人工智能系列深度：DeepSeek十大关键问题解读-国海证券-20250213.pdf

16.62 MB 36页 DeepSeek R1深度解析及算力影响几何-中信建投-20250203.pdf

1.13 MB 23页碳中和碳达峰带来的投资机会系列（三）：CCER，核心机制与收入测算-招商证券-20210420.pdf

6.62 MB 40页中国AI治理的独立思考生成式人工智能发展与监管白皮书.pdf

781.28 KB 30页大语言模型在投研中的应用：DeepSeek、QwQ-32B与Manus技术解析、投研场景与量化应用-太平洋证券-202503.pdf

13.85 MB 51页 2025DeepSeek技术全景解析——重塑全球AI生态的中国力量-智研咨询-202503.pdf

14.83 MB 77页数字金融行业系列深度之一：DeepSeek如何加速金融业数字化转型？-中信建投-20250223.pdf

3.57 MB 34页 DeepSeek行业级应用白皮书：精准数据洞察与自动化效能提升方法论-中云智绘-202502.pdf

7.75 MB 24页计算机行业华为系列深度之十八暨GenAI系列深度之四十九：算力新变局，训练范式、架构创新、工程优化-申万宏源-20250207.pdf

5.39 MB 98页亚太区智算中心液冷应用现状与技术演进白皮书-中国电信&深知社-2024-98页.pdf

7.46 MB 128页全球烟草产业链深度剖析：关于底层逻辑与发展启示的详细思考-华安证券-2024.9.17-128页.pdf

4.9 MB 20页家电行业行业深度报告：二十届三中全会公报解读与行业展望-延续扩内需导向，高水平开放为出海护航.pdf

710.65 KB 19页深度解读《中共中央关于进一步全面深化改革推进中国式现代化的决定》：创造性理解中国式现代化-浙商证券-20240722.pdf

3.42 MB 16页三中全会跟踪解读系列：三中跟踪，发布会的五大看点-银河证券-20240719.pdf

771.79 KB 16页宏观深度报告：中国外商直接投资的新特征与新趋向-平安证券-20240626.pdf

4.93 MB 36页【亿欧智库】2021-2022中国自动驾驶行业深度分析与展望报告-20220224V2_2022-03-10.pdf

908.53 KB 11页宏观策略专题报告：对当前地产5个问题的看法，当前经济与政策思考-中泰证券-20240610.pdf

1.1 MB 35页中国宏观经济论坛-CMF中国宏观经济专题报告（第79期）：中央经济工作会议精神深度解读，2024年的经济增长点-240118.pdf

智猩猩DeepSeek大解读系列公开课第一期课件-DeepSeek+V3+R1架构的深度分析与深度思考-中存算董事长陈巍.pdf

相关报告

1.52 MB 24页 让DeepSeek更有趣更有深度的思考研究分析报告-AGI智能时代-202503.pdf

20.76 MB 52页 计算机行业人工智能系列深度报告：DeepSeek研究框架-国海证券-20250214.pdf

7.52 MB 22页 人工智能系列深度：DeepSeek十大关键问题解读-国海证券-20250213.pdf

16.62 MB 36页 DeepSeek R1深度解析及算力影响几何-中信建投-20250203.pdf

1.13 MB 23页 碳中和碳达峰带来的投资机会系列（三）：CCER，核心机制与收入测算-招商证券-20210420.pdf

6.62 MB 40页 中国AI治理的独立思考 生成式人工智能发展与监管白皮书.pdf

781.28 KB 30页 大语言模型在投研中的应用：DeepSeek、QwQ-32B与Manus技术解析、投研场景与量化应用-太平洋证券-202503.pdf

13.85 MB 51页 2025DeepSeek技术全景解析——重塑全球AI生态的中国力量-智研咨询-202503.pdf

14.83 MB 77页 数字金融行业系列深度之一：DeepSeek如何加速金融业数字化转型？-中信建投-20250223.pdf

3.57 MB 34页 DeepSeek行业级应用白皮书：精准数据洞察与自动化效能提升方法论-中云智绘-202502.pdf

7.75 MB 24页 计算机行业华为系列深度之十八暨GenAI系列深度之四十九：算力新变局，训练范式、架构创新、工程优化-申万宏源-20250207.pdf

5.39 MB 98页 亚太区智算中心液冷应用现状与技术演进白皮书-中国电信&深知社-2024-98页.pdf

7.46 MB 128页 全球烟草产业链深度剖析：关于底层逻辑与发展启示的详细思考-华安证券-2024.9.17-128页.pdf

4.9 MB 20页 家电行业行业深度报告：二十届三中全会公报解读与行业展望-延续扩内需导向，高水平开放为出海护航.pdf

710.65 KB 19页 深度解读《中共中央关于进一步全面深化改革 推进中国式现代化的决定》：创造性理解中国式现代化-浙商证券-20240722.pdf

3.42 MB 16页 三中全会跟踪解读系列：三中跟踪，发布会的五大看点-银河证券-20240719.pdf

771.79 KB 16页 宏观深度报告：中国外商直接投资的新特征与新趋向-平安证券-20240626.pdf

4.93 MB 36页 【亿欧智库】2021-2022中国自动驾驶行业深度分析与展望报告-20220224V2_2022-03-10.pdf

908.53 KB 11页 宏观策略专题报告：对当前地产5个问题的看法，当前经济与政策思考-中泰证券-20240610.pdf

1.1 MB 35页 中国宏观经济论坛-CMF中国宏观经济专题报告（第79期）：中央经济工作会议精神深度解读，2024年的经济增长点-240118.pdf