DeepSeekV3技术报告.pdf

摘要 : DeepSeek-V3是由DeepSeek-AI推出的混合专家(MoE)语言模型,拥有671B的总参数和每个token激活37B的能力。该模型采用多头潜在注意力(MLA)和DeepSeekMoE架构,以实现高效推理和成本效益训练。DeepSeek-V3还引入了无辅助损失的负载平衡策略和多token预测训练目标,以提升性能。模型在148万亿个高质量token上进行了预训练,并经过监督微调和强化学习阶段以发挥最大潜力。评估显示,DeepSeek-V3的性能优于其他开源模型,并可与领先的闭源模型相媲美。训练过程稳定,无需回滚,且训练成本相对较低。模型检查点可在GitHub上找到。DeepSeek-V3在多个基准测试中表现出色,包括MMLU-Pro、GPQA-Diamond、MATH500、AIME2024、Codeforces和SWE-bench等。
在线阅读 下载报告 | 5.44 MB | 53页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告
与最强人工智能Ai对话