2025 DeepSeek自学手册:从理论到实践-ai呀蔡蔡-202502.pdf
摘要 : DeepSeekV3是一个先进的MoE(Mixture-of-Experts)语言模型,专注于数学和编程领域,性能超越开源模型,成本相对较低。它采用多Token预测策略和Multi-Head Latent Attention(MLA)技术,提高数据处理效率和模型性能。DeepSeekMoE是其基础架构之一,通过创新和优化提升了模型性能和计算效率。DeepSeekV3在训练过程中使用了无监督学习和监督学习,包括基于规则和模型的奖励模型,以适应不同类型的任务。此外,DeepSeekV3在数据使用上进行了优化,提高了数学和编程内容的比例,并扩展了多语言覆盖范围。作者@ai呀蔡蔡提供了个人微信供交流,并强调了DeepSeekV3和R1的技术特点和应用场景。

相关报告
-
16.78 MB 75页 DeepSeek如何赋能职场应用——从提示语技巧到多场景应用(0212)-清华大学-202502.pdf
-
9.78 MB 35页 DeepSeek如何赋能职场应用?——从提示语技巧到多场景应用-清华大学-202502.pdf
-
5.92 MB 27页 B2B市场人DeepSeekAI提示词手册-MarketUP-202502.pdf
-
5.36 MB 104页 DeepSeek从入门到精通-清华大学-202502.pdf
-
3.57 MB 38页 DeepSeek与AI幻觉-清华大学-202502.pdf
-
16.25 MB 112页 DeepSeek行业应用实践报告-智灵动力-202502.pdf
-
1.66 MB 25页 DeepSeek 15天指导手册——从入门到精通.pdf
-
1.42 MB 20页 银行行业:央行数字货币的前世与今生:从理论到实践-新时代证券-20200429.pdf